ليس من السهل دائمًا أن تجد طريقك نحو الورقة الفنية الخاصة بالكاميرا أو الكاميرا. ما هي الاختلافات بين 4:2:2 و 4:2:0؟ بين 8 بت و 10 بت؟ بين 60i و 30p. وسنشرح لك كل ذلك.
بالنسبة للمبتدئين، فإن الورقة الفنية للكاميرا تكفي للتسبب في عرق بارد. إذا كنا نكتفي لفترة طويلة بالإشارة إلى التعريف بالإضافة إلى عدد الصور في الثانية، فإننا نرى ظهور المزيد والمزيد من المصطلحات التي قد تبدو معقدة. مصطلحات مثل 4:2:2 10 بت، 60p، 30i، H.265 أو Long GOP يمكن أن تربك المستخدم بسرعة. ما هي الميزة الحقيقية التي توفرها 10 بت مقارنة بـ 8 بت؟ بنسبة 4:2:2 مقابل 4:2:0؟ أو عن طريق H.265 مقابل H.264.
في هذا الملف، سنشرح لك كل شيء حتى لا يكون للتعريف أو المسح الضوئي أو القياس الكمي أو التدمير أو ضغط الفيديو أي أسرار بالنسبة لك.
تعريف الفيديو، من SD إلى UHD-2
تتمتع العين البشرية بقدرة محدودة على التمييز بين تفصيلين وزاوية رؤية محدودة. من أجل تقديم انطباع أكبر للمستخدمين عن الانغماس في الصورة، أراد المصنعون زيادة حجم الشاشات وتقليل المسافة بين الشاشة والعارض (لنفس الحجم الأقرب يبدو أكبر ويستهلك مساحة أكبر) الفضاء البصري).
لتحقيق ذلك مع الحفاظ على جودة الصورة التي ترضي العين، كان من الضروري زيادة تعريف الصور - وليسلا ينبغي الخلط بينه وبين القرار. ولذلك انتقلنا، من خلال تخطي بعض الخطوات الوسيطة - التي أصبحت الآن ذات استخدام هامشي - من الوضوح القياسي (SD، 720 نقطة × 576 سطرًا المفيد في فرنسا) إلى الوضوح العالي (Full HD، 1920×1080 بكسل) ثم إلى الوضوح العالي جدًا (UHD) ، 3840 × 2160 بكسل). تم أيضًا تطوير UHD-2 (7680 × 4320 بكسل) نظرًا لأن بعض البرامج يتم بثها في اليابان أو عبر الإنترنت، وغالبًا ما تكون لأحداث معينة (الأحداث الرياضية بشكل عام)، لكن هذا يظل مجرد قصص على المستوى العالمي في الوقت الحالي نطاق واسع، بما في ذلك في خطوط العرض لدينا. لاحظ أيضًا أنه منذ الانتقال إلى الدقة العالية، تغيرت نسبة العرض/الارتفاع للصورة، حيث انتقلت من 4/3 إلى 16/9.
من أجل الدقة، فإن تنسيقات "K" الحقيقية (2K، 4K، 8K، وما إلى ذلك) هي تعريفات متعددة يبلغ عرضها 1024. لذا فإن مصطلح 4K يعني أن البعد الأفقي للصور هو 4096 بكسل. وهي مخصصة بشكل عام للسينما. هذا هو السبب وراء أننا نجد أحيانًا مصطلحات DCI 4K، لمبادرات السينما الرقمية، مقابل UHD 4K.
بالنسبة لعامة الناس، فإن المعايير المتاحة فعليًا هي تلك المذكورة أعلاه (HD، UHD، UHD-2). مع استثناءات نادرة جدًا، هذه هي الأجهزة الوحيدة الموجودة على أجهزة الالتقاط (الكاميرات والصور الثابتة والهواتف الذكية وما إلى ذلك) التي نواجهها، بما في ذلك العديد من مصوري الفيديو المحترفين.
وهذا لا يتغير كثيرًا في الممارسة العملية، لأن سلسلة الالتقاط/المعالجة/البث بأكملها تظل متسقة. عندما تبيع الشركة المصنعة، على سبيل المثال، جهاز تلفزيون أو هاتفًا ذكيًا أو كاميرا تصور بدقة 4K، غالبًا ما تكون هذه حجة تجارية مسيئة، لأن التنسيق الحقيقي دائمًا ما يكون UHD. إذا كان "حقيقي» يتم تقديم 4K، وسيكون تحت مصطلح DCI 4K.
المسح الضوئي، في وضع "p" التدريجي أو وضع "i" المتداخل
السينما، التي كانت تاريخيًا أصل العديد من الأساسيات التقنية، تستمر من خلال سلسلة من الصور بأكملها (في الفيلم) بتردد 24 صورة في الثانية، وهذا ما نسميه المسح التدريجي (هنا 24p).
ومن ناحية أخرى، فإن صورة الفيديو، كما هو الحال في التلفاز، تتكون من نقاط موزعة على خطوط أفقية متتالية. في الماضي، كانت إمكانيات نقل المعلومات محدودة أكثر مما هي عليه اليوم. ولم يكن من الممكن نقل صور كاملة بتردد كافٍ ليضمن للعين انطباعًا بانسيابية الحركة.
ونظرًا لخصائص معينة للرؤية البشرية، مثل ثبات الشبكية، واعتبارات فيزيائية ورياضية، فقد تقرر نقل الصور النصفية، أي إطارات مكونة من إطار واحد، 50 مرة في الثانية من خطين، ومن هنا جاء المصطلح المتداخل أوحابك. وهذا ما نسميه التمرير 50i اليوم. في النظام الأمريكي، كنا قريبين من العمل بمعدل 60 إطارًا في الثانية، ومن هنا جاء معدل 60i. جميع معدلات الإطارات الموجودة حاليًا مستمدة من هذه المعايير وتقدم معدلات إطارات أعلى للسماح بعرض أفضل للحركات - مثل 50 بكسل المستخدم في الولايات المتحدة لبعض القنوات الرياضية - أو لإنتاج حركة بطيئة.
البكسل، ويتكون من ثلاث بكسلات فرعية
البكسل، أو "عنصر الصورة"، هو الوحدة الأساسية للصورة الرقمية. تتكون هذه النقطة الملونة من ثلاث وحدات بكسل فرعية، كل منها تعيد إنتاج قيمة في أحد الألوان الأساسية الثلاثة للفيديو: الأحمر والأخضر والأزرق. هذا هو الشهير« آر في بي »(«آر جي بي»باللغة الإنجليزية).
تتكون الصورة الرقمية من عدة وحدات بكسل، تصل إلى عدة ملايين بدقة HD (أكثر من 2 مليون) أو UHD (أكثر من 4 ملايين).
8 بتات، 10 بتات وأكثر: القياس الكمي
التوضيح المهم الأول: من الضروري للغاية فصل المصطلحات" قليل "وآخرون«بايت».«بايت»هي في الواقع الترجمة الإنجليزية لهذا المصطلح«الثمانية»وبالتالي يعني مجموعة من 8" أجزاء "(الذي يحتفظ بنفس الاسم في كلتا اللغتين).
البت هو الوحدة الأساسية للحساب الرقمي. يحدد عدد البتات دقة تسجيل المعلومات، وهو ما يسمى بأخذ العينات. يمكن أن تحتوي كل بتة على قيمتين: 0 أو 1. إذا، على سبيل المثال، تم تعيين ظل رمادي لكل قيمة، يمكن أن يكون 0 أو 1 على سبيل المثال: 0 = أسود و1 = أبيض.
إذا تم الآن تشفير نفس المعلومات على 2 بت، فلدينا النتائج الأربع المحتملة التالية:
- البت 1: 0 أو 1
- البت 2: 0 أو 1
بالنسبة لهذه المعلومات، لدينا بالتالي 4 نتائج محتملة (أي الأسود والأبيض وكثافتين رماديتين محتملتين وفقًا لمثالنا):
بت رقم 1 | بت رقم 2 |
---|---|
0 | 0 |
1 | 1 |
وبالتالي فإن الاحتمالات المختلفة لتشفير المعلومات على بتتين هي: 0 0 / 0 1 / 1 0 / 1 1. من وجهة نظر رياضية، لمعرفة العدد المحتمل لأنواع تشفير المعلومات على 2 بت، لدينا: 2 × 2 = 4 (أو 2²) احتمالات.
إذا تم تشفير نفس المعلومات بمقدار 3 بتات، فلدينا 8 احتمالات:
بت رقم 1 | بت رقم 2 | بت رقم 3 |
---|---|---|
0 | 0 | 0 |
1 | 1 | 1 |
وبالتالي فإن القيم المحتملة هي: 0 0 0 / 0 0 1 / 0 1 0 / 0 1 1 / 1 0 0 / 1 0 1 / 1 1 0 / 1 1 1. من وجهة نظر رياضية، لمعرفة عدد القيم الممكنة للمعلومات على 3 بتات لدينا: 2 × 2 × 2 = 8 (أو 2³) الاحتمالات (أو الأسود والأبيض و6) كثافات رمادية لا تزال حسب مثالنا).
كما نرى، كل بت يمكن أن يحتوي على قيمتين، في كل مرة نقوم بالتشفير على بت إضافي، نقوم بمضاعفة عدد القيم الممكنة لكل معلومة. ولمعرفة عدد النتائج المحتملة للمعلومات يكفي حساب عدد القيم المحتملة للبت (2) أس عدد البتات. مثال: بالنسبة لعينة مكونة من 8 بتات من نوع ما من المعلومات، لدينا بالتالي 2⁸ قيمة محتملة، أي 256.
في التصوير الفوتوغرافي الرقمي أو الفيديو، رأينا أن كل بكسل يتكون من ثلاثة عناصر لونية، كل منها مشفر رقميًا (RGB). وبالتالي فإن الصورة المشفرة أو التي تم أخذ عينات منها على 8 بت تحتوي على:
256 (أحمر) × 256 (أخضر) × 256 (أزرق) = 16,777,216 احتمالًا، هذه هي الـ 16 مليون لون الشهيرة للتصوير 8 بت.
وبالتالي فإن إضافة بتة ترميز إضافية تجعل من الممكن مضاعفة عدد القيم الممكنة لكل لون. الفرق، الذي قد يبدو ضئيلًا في الفيديو بين 8 و10 بت، هو في الواقع كبير، لأننا ننتقل من 16 مليونًا إلى أكثر من مليار قيمة لونية مختلفة (2¹⁰ = 1024، وبالتالي 1024 × 1024 × 1024 في RGB ).
نحن هنا نتجاوز إلى حد كبير عدد الألوان التي يمكن تمييزها نظريًا بالعين البشرية، وبالتالي فإن الهدف الأساسي هو الحفاظ على الهامش في مرحلة ما بعد الإنتاج، حيث قد يتعين علينا تعديل - وبالتالي تقليل - المعلمات المسجلة لإعطاء جانب معين مع المعايرة. وهذا دون التمكن من إضافة معلومات جديدة، وبالتالي التدهور. لذلك من المفيد، من أجل الحفاظ على مظهر جميل، أن يكون هناك فائض من المعلومات حتى يكون هناك مجال للعمل. يؤدي هذا إلى تجنب العديد من التأثيرات غير السارة، على سبيل المثال تأثيرات الكسر في التدرجات.
من الواضح أيضًا أن هذا مفيد جدًا في سياق زيادة التعريف، لأنه اعتمادًا على خصائصه، قد يتطلب نفس التدرج اللوني دقة أكبر في أخذ العينات (وبالتالي المزيد من القيم اللونية المتوسطة) لإعادة إرسالها على لوح أكبر، محددًا وتصميمًا أفضل يجب مراعاتها عن كثب مع تجنب هذا النوع من الإزعاج. وهذا يسمح أخيرًا للتطبيقات في مجال HDR ("نطاق ديناميكي عالي» أو النطاق الديناميكي العالي باللغة الفرنسية): تتيح لوحة الألوان الكبيرة جدًا إعادة إنتاج المعلومات في مناطق الصورة التي تظهر اختلافات كبيرة جدًا في السطوع بينها.
يعتمد حجم الملف على كمية المعلومات التي يحتوي عليها. باستثناء الضغط، في حالة ملف الفيديو، فإنه يختلف اعتمادًا على:
- التعريف: عدد البكسلات التي تتكون منها الصورة
- عدد البتات: دقة أخذ العينات لكل بكسل
- معدل الإطارات والمسح والمدة: عدد الإطارات التي يحتوي عليها
ومن أجل الحد من القيود النوعية المرتبطة بقدرات التخزين والنقل المتاحة، فقد تصور المهندسون حلولًا لتقليل تدفق المعلومات من خلال محاولة العثور على أفضل حل وسط للجودة/الوزن اعتمادًا على البيئة التقنية للحظة والرؤية البشرية.
من أجل تقديم صور ذات تعريف يعتبر كافيًا، قرروا أولاً تحويل إشارة RGB (أحمر أخضر أزرق)، التي تصف الصورة بظلال لونية، عن طريق الحساب الرياضي، إلى إشارة مقسمة إلى ثلاثة مكونات. هذه هي ما تسمى بمرحلة«المصفوفة»:
- ال«الإنارة»(Y) يحتوي على معلومات تتعلق بكثافة الضوء لكل بكسل (وهي إشارة بالأبيض والأسود مشفرة بالتدرج الرمادي)
- وقال الاثنان الآخران ل«التلون»تحتوي على معلومات اللون (Cr وCb).
أعيننا أكثر حساسية للتغيرات في شدة الضوء من الفروق الدقيقة في الألوان. ومن أجل تقليل معدلات بث المعلومات وتخزينها، تقرر فصل جزء من معلومات الألوان، فقط من أجل الحفاظ على أعلى مستوى ممكن من الجودة للرؤية البشرية.
المبدأ العام بسيط: تم تقسيم الإشارة إلى كتل من 4 بكسل، وتتوافق 4:4:4 مع إشارة غير مضغوطة (كل رقم من الأرقام الثلاثة يتوافق مع مكون بهذا الترتيب Y:Cr:Cb) حيث نحن يحتفظ بجميع المعلومات. 4:4:4 مخصصة للمحترفين رفيعي المستوى، وتستخدم بشكل حصري تقريبًا للسينما.
من أجل السماح بنقل البث المباشر أو التخزين ومرحلة ما بعد الإنتاج من ملفات ذات حجم يمكن التحكم فيه، فإننا لا نحتفظ بجميع المعلومات. وبالتالي فإن 4:2:2 الشهيرة تحتفظ بجميع معلومات النصوع (مستويات اللون الرمادي) لكل بكسل من الصورة ومعلومات اللون لكل بكسل آخر فقط. هذا خيار متاح في الكاميرات المتطورة، مثلنيكون Z9أوسوني ألفا 7S الثالثوالعديد من الكاميرات الاحترافية.
ولتسهيل تدفق المعلومات بشكل أكبر، تم أيضًا تطوير 4:2:0. في هذه الحالة، قمنا بعمل 4:2:2 لكل سطر آخر ولا نحتفظ بأي معلومات عن اللون في السطر التالي. هذا هو التنسيق الأكثر استخدامًا حاليًا على أجهزة التسجيل الاستهلاكية، بما في ذلك الهواتف الذكية.
في الشاشة النهائية، مطلوب معلومات RGB لكل بكسل. وبالتالي يتم عكس العملية برمتها في نهاية سلسلة البث ويتم إعادة تكوين المعلومات المفقودة عن طريق الاستيفاء (حساب رياضي يعتمد على معلومات من وحدات البكسل المجاورة). وبطبيعة الحال، ستكون عملية إعادة البناء النهائية هذه أفضل حيث يتم تقليل فقدان معلومات الألوان.
الضغط (MPEG، H.264، H.265…)
من أجل تقليل كمية المعلومات التي سيتم نقلها أو تخزينها بشكل أكبر، تتيح أنظمة الضغط الحصول على مستويات أكبر بكثير من تقليل عدد المعلومات. مرة أخرى، تتم العملية على عدة مراحل.
La ضغط داخل الصورة
أولاً، نقوم بضغط المعلومات داخل كل صورة، وهذا ما يسمى بالضغط داخل الصورة، ويسمى أيضًا«الكل داخل»بين بعض الشركات المصنعة. المبدأ العام هو نفس مبدأ Jpeg في الصور: يتم تقطيع الصورة إلى كتل متعددة من البكسلات.
داخل كل كتلة، نقرر أنه إذا كانت معلومات وحدات البكسل المجاورة قريبة جدًا، فإننا نحتفظ فقط بمعلومات واحدة منها. وبالمثل، فإن أدق التفاصيل، وبالتالي الأقل وضوحًا للعين، يتم ترميزها بدقة أقل.
يتيح ذلك، إذا تم تناوله بشكل صحيح، الحفاظ على مستوى كافٍ من التفاصيل في المناطق الرئيسية للصورة والحفاظ على انطباع عام بالجودة الجيدة، مع تقليل كمية المعلومات التي سيتم نقلها بشكل كبير. تؤدي الجرعات السيئة إلى ظهور قطع أثرية مزعجة، وأشهرها هي الكتل الكبيرة في مناطق معينة من الصورة ذات القيم القريبة. وقد يكون هذا هو الحال عند التدرجات في السماء أو في مناطق معينة تشبه المساحات المسطحة مع اختلافات طفيفة.
ضغط بين الصور
من معيار MPEG، يمكن أن يخلفه تسلسل ضغط ثانٍ يسمى inter-image (أو IPB). المبدأ بسيط: نقوم بتجميع الصور حسب تسلسلات تسمى«الحزب الجمهوري»ذات حجم متغير (لمجموعة الصور). من الصورة الأولى، نحن مهتمون فقط بالتعديلات الخاصة بالصور التالية. ومن الناحية العملية، يسمح هذا بتخفيض هائل في كمية المعلومات التي سيتم نقلها. يتم بعد ذلك إعادة بناء الصور أثناء تخفيف الضغط (لمرحلة ما بعد الإنتاج أو البث).
لفهم المبدأ، يجب أن تضع في اعتبارك أن الصور يتم تخزينها في الذاكرة (المخزن المؤقت) في انتظار الضغط، وأن هذا لا يمكن أن يحدث إلا عندما يتم تخزين GOP واحد كامل على الأقل. أثناء البث المباشر، فإن هذا يفرض تأخيرًا طفيفًا.
بالنسبة لأولئك الذين يريدون المضي قدمًا قليلاً، تجمع مجموعة GOP بين 3 أنواع من الصور I أو P أو B. تعمل الصورة الأولى لـ GOP ("I") كمرجع وجميع المعلومات المتبقية بعد صورة الضغط الداخلي مشفرة.
تسمى بعض الصور "المتوقعة" (P): عندما يتحرك كائن ما دون تعديل، يتم إرسال ناقل الحركة فقط. وعندما يتم تعديل شكلها، يتم تشفير الفرق بين الصورة الأصلية والصورة الحقيقية.
بين هاتين الصورتين I وP أو الصورتين P، توجد صور ثنائية الاتجاه ("B") مشفرة وفقًا للصور I أو P التي يتم وضعها بينهما. هذه هي الأخف، لأن التنبؤات مصنوعة من صور سابقة ولاحقة، وبالتالي أكثر دقة، تكون البقايا المنقولة أخف فقط.
H.264 (أو MPEG-4 AVC)
واستنادا إلى هذه المبادئ العامة، مكنت التطورات المختلفة من تحسين النتائج. وهكذا، مع ظهور H.264 (تطور لمعيار MPEG-4) المخصص للدقة العالية الدقة، تم تحسين الضغط داخل الصورة. أصبح الضغط الأفضل ممكنًا بفضل استخدام الكتل ذات الحجم اعتمادًا على الموقف، ونظام التنبؤ المكاني، واستخدام نظام ضغط قابل للعكس بدون فقدان. وهذا يسمح بضغط أكثر كفاءة والاحتفاظ بشكل أفضل بالتفاصيل عند الضرورة.
كما سمحت المرونة في تكوين GOPs وزيادة قوة الحوسبة المرتبطة بالتطورات التقنية بتحسين التنبؤ بالضغط بين الصور. وبالتالي فإن كمية المعلومات التي سيتم نقلها تكون أخف بالنسبة لنفس حجم الصورة. مكّن H.264 بشكل خاص البث عالي الدقة عبر DTT بسرعات مستدامة.
H.265 (أو HEVC)
H.265، والذي بدأنا في العثور عليه في أحدث كاميرات الفيديو تقدمًا - مثلباناسونيك لوميكس S5، الباناسونيك لوميكس GH6، أوفوجي فيلم X-H2S- تم تصميمه لـ UHD وUHD-2 وتوزيعهما عبر وسائط أخرى غير التلفزيون (الهاتف الذكي، VOD عبر الإنترنت، وما إلى ذلك).
وهو بدوره يسمح بتقليل كبير في وزن المعلومات التي سيتم نقلها لنفس حجم الصورة. مع الزيادة الكبيرة في الوضوح (تحتوي صورة UHD على 4 أضعاف البكسلات الموجودة في صورة Full HD)، يزداد احتمال التكرار بين منطقتين متجاورتين. ولذلك فإن أحد التطورات الرئيسية التي يجلبها يكمن في إمكانية حدوث تباين أكبر بكثير في حجم الكتلة وبالتالي للضغط داخل الصورة.
لاحظ أن كل من هذه التطورات تتطلب موارد الأجهزة أكثر بكثير من الجيل السابق، وخاصة التشفير، وأن تطور المعالجات هو العامل الأساسي في تنفيذها. وبالتالي، فإن H.265 يتطلب حوالي 10 أضعاف موارد الحوسبة أثناء التشفير مقارنة بـ H.264، كما أنه مُحسّن للعمل متعدد النواة.