H.265、4:2:2、10 ビット、UHD または 60p: ビデオ形式と圧縮についてすべてを理解する

カメラやカメラのテクニカルシートを参照する方法を見つけるのは必ずしも簡単ではありません。 4:2:2 と 4:2:0 の違いは何ですか? 8ビットと10ビットの間でしょうか？ 60i～30pの間。それについてすべて説明します。

パナソニック Lumix GH6、ビデオに特化したカメラ // 出典: Olivier Gonin for Frandroid

初心者にとって、カメラのテクニカルシートは冷や汗をかくほどのものです。長い間、定義と 1 秒あたりの画像数を示すことに満足していた場合、複雑に見える用語がどんどん登場することになります。 4:2:2 10 ビット、60p、30i、H.265、Long GOP などの用語は、ユーザーをすぐに混乱させる可能性があります。 8 ビットと比較して 10 ビットによってもたらされる実際の利点は何ですか? 4:2:2 対 4:2:0 までに?または、H.265 と H.264 によって異なります。

このファイルでは、定義、スキャン、定量化、デシメーション、またはビデオ圧縮について秘密がなくなるようにすべてを説明します。

ビデオ定義、SD から UHD-2 まで

人間の目は 2 つの詳細を識別する能力が限られており、視野角も限られています。ユーザーにこれまで以上に画像への没入感を提供するために、メーカーは、画面のサイズを大きくすることと、画面と視聴者の間の距離を縮めることの両方を望んでいます（同じサイズであれば、近い方が大きく見え、より多くの画面を占めるため）。視覚空間）。

目に心地よい画質を維持しながらこれを達成するには、画像の解像度を高める必要がありました。解像度と混同しないでください。そこで私たちは、現在はほとんど使われていないいくつかの中間ステップをスキップして、標準解像度 (SD、フランスで有用な 720 ポイント x 576 ライン) から高解像度 (フル HD、1920 × 1080 ピクセル) に移行し、さらに超高解像度 (UHD) に移行しました。、3840×2160ピクセル）。 UHD-2 (7680 x 4320 ピクセル) も、特定のイベント (スポーツイベント全般) 向けに日本やインターネット経由で放送されることが多いため、すでに開発されていますが、現時点では世界的には逸話にとどまっています。私たちの緯度を含むスケール。高解像度への移行以来、画像の幅/高さの比率が 4/3 から 16/9 に変化していることにも注意してください。

ビデオ内のさまざまな画像定義 // 出典: Frandroid

精度を高めるため、実際の「K」フォーマット (2K、4K、8K など) は、幅が 1024 の複数の定義です。したがって、4K という用語は、画像の水平方向の寸法が 4096 ピクセルであることを意味します。これらは通常、映画用に予約されています。これが、UHD 4K に対して、デジタルシネマイニシアチブを表す DCI 4K という用語が時々見つかる理由です。

一般向けに実際に利用できる規格は上記 (HD、UHD、UHD-2) です。非常にまれな例外を除いて、これらは、多くのプロのビデオグラファーを含め、私たちが遭遇するキャプチャデバイス (カメラ、静止画、スマートフォンなど) に存在する唯一のものです。

キャプチャ/処理/ブロードキャストチェーン全体が一貫したままであるため、これは実際にはあまり変わりません。たとえば、メーカーが 4K で撮影したテレビ、スマートフォン、またはカメラを販売する場合、実際のフォーマットはほとんどの場合 UHD であるため、これはしばしば悪用された商業的議論となります。もし「」真実» 4K は DCI 4K という用語で提供されます。

プログレッシブ「p」またはインターレース「i」モードでのスキャン

映画は、歴史的に多くの技術的基礎の起源であり、1 秒あたり 24 画像の頻度で (フィルム上の) 画像全体を連続させることによって進行します。これは、プログレッシブスキャン (ここでは 24p) と呼ばれるものです。

一方、テレビのようなビデオ画像は、連続する水平線上に分布する点で構成されます。昔は情報発信の可能性が今よりも限られていました。動きの流動性を目に保証するのに十分な周波数で画像全体を送信することは不可能でした。

ビデオ画像のさまざまなインターレースフレーム // ソース: Frandroid

網膜の持続性や物理的および数学的考慮事項などの人間の視覚の特定の特性により、ハーフ画像、つまり 2 つのラインのうち 1 つのフレームで構成されるフレームを 1 秒あたり 50 回送信することが決定されたため、インターレースまたはインターレースという用語が付けられました。インターレース。これは現在 50i スクロールと呼ばれるものです。アメリカのシステムでは、1 秒あたり 60 フレームで実行するのに近かったため、60i と呼ばれるようになりました。現在存在するすべてのフレームレートはこれらの規格に基づいており、米国の特定のスポーツチャンネルで使用されている 50p のように、動きをより良くレンダリングしたり、スローモーションを生成したりするために、より高いフレームレートを提供します。

3 つのサブピクセルで構成されるピクセル

ピクセル、または「画素」は、デジタル画像の基本単位です。この色付きのポイントは 3 つのサブピクセルで構成され、それぞれがビデオの 3 原色 (赤、緑、青) のいずれかの値を再現します。これが有名です« RVB »(« RGB »英語で）。

デジタル画像は、HD (200 万以上) または UHD (400 万以上) では最大数百万の数ピクセルで構成されます。

8 ビット、10 ビットなど: 定量化

最初の重要な説明: 用語を区別することが絶対に必要です" 少し "など« バイト »。« バイト »実際にはこの用語の英語訳です« オクテット »したがって、8 個のセットを意味します« ビット »(両方の言語で同じ名前が維持されます)。

ビットはデジタル計算の基本単位です。ビット数は、情報の記録、いわゆるサンプリングの細かさを決定します。各ビットは、0 または 1 の 2 つの値を持つことができます。たとえば、各値にグレーの階調が割り当てられている場合、0 または 1 は、たとえば、0 = 黒、1 = 白になります。

同じ情報が 2 ビットでエンコードされた場合、次の 4 つの結果が考えられます。

ビット1：0または1
ビット 2: 0 または 1

この情報に関しては、4 つの可能な結果があります (つまり、この例によれば、黒、白、および 2 つの可能なグレー濃度)。

ビット番号 1	ビット番号2
0	0
1	1

したがって、2 ビットの情報をコーディングするさまざまな可能性は次のようになります。 0 0 / 0 1 / 1 0 / 1 1. 数学的な観点から、2 ビットの情報のコーディングの可能な種類の数を知るには、次の式が得られます。 x 2 = 4 (または 2²) の可能性があります。

同じ情報が 3 ビットでエンコードされている場合、8 つの可能性があります。

ビット番号 1	ビット番号2	ビット番号 3
0	0	0
1	1	1

したがって、取り得る値は次のとおりです: 0 0 0 / 0 0 1 / 0 1 0 / 0 1 1 / 1 0 0 / 1 0 1 / 1 1 0 / 1 1 1. 数学的な観点から、したがって、3 ビットの情報の可能な値の数は次のとおりです。 2 x 2 x 2 = 8 (または 23) の可能性 (または黒、白、および 6)グレーの濃度は例に従っています)。

ご覧のとおり、各ビットは 2 つの値を持つことができ、追加のビットをコード化するたびに、各情報で取り得る値の数が 2 倍になります。情報の可能な結果の数を知るには、ビットの可能な値の数 (2) のビット数乗を計算するだけで十分です。例: あるタイプの情報の 8 ビットサンプリングの場合、可能な値は 2⁸、つまり 256 になります。

デジタル写真やビデオでは、各ピクセルが 3 つの色要素で構成され、それぞれがデジタル (RGB) でコード化されていることがわかります。したがって、8 ビットでエンコードまたはサンプリングされた画像は次のようになります。

256 (赤) x 256 (緑) x 256 (青) = 16,777,216 の可能性、これらは 8 ビットイメージングの有名な 1,600 万色です。

したがって、追加のコーディングビットを追加すると、各色の可能な値の数を2倍にすることができます。したがって、8 ビットと 10 ビットの間のビデオではその差はわずかに見えるかもしれませんが、実際にはかなり大きなものになります。1,600 万から 10 億を超える異なる測色値まで変化するからです (2¹⁰ = 1024、したがって RGB では 1024 x 1024 x 1024) ）。

ここでは、人間の目で理論的に認識できる色の数を大幅に超えています。したがって、これは主にポストプロダクションでマージンを確保するためであり、キャリブレーションで特定の側面を与えるために記録されたパラメータを変更する必要がある場合があり、そのためしばしば劣化します。そして、これでは新しい情報を追加できないため、劣化が生じます。したがって、快適な外観を維持するには、行動の余地を与えるために情報が過剰であることが有益です。これにより、勾配での破損効果など、さまざまな不快な効果が回避されます。

サンプリング品質が向上すると、グラデーションがより滑らかになります // ソース: Frandroid

これは明らかに、解像度の向上という文脈でも非常に役立ちます。その特性に応じて、同じカラーグラデーションを、より適切に定義および設計された大きなスラブで再送信するには、より大きなサンプリングフィネス (したがって、より多くの中間測色値) が必要になる場合があるためです。この種の不都合を避けながら、より注意深く観察する必要があります。これにより、最終的に HDR 分野でのアプリケーションが可能になります (「ハイダイナミックレンジ» フランス語でハイダイナミックレンジ): 非常に大きな比色パレットにより、画像の領域間の明るさの非常に大きな違いを示す情報を再現することができます。

ファイルのサイズは、ファイルに含まれる情報の量によって異なります。したがって、ビデオファイルの場合、圧縮を除くと、次の条件によって異なります。

定義: 画像を構成するピクセルの数
ビット数: 各ピクセルのサンプリングの細かさ
フレームレート、スキャン、および継続時間: 含まれるフレームの数

利用可能なストレージと伝送容量に関連する定性的な制限を制限するために、エンジニアは、その時点の技術環境と人間の視覚に応じて最適な品質と重量の妥協点を見つけることによって、情報の流れを減らすソリューションを想像しました。

十分な解像度の画像を提供するために、まず画像を測色濃淡で表現したRGB信号（赤緑青）を数学的計算により3成分に分離した信号に変換することにしました。これはいわゆる段階です« マトリックス処理 »:

の« 輝度 »(Y) には、各ピクセルの光の強度に関連する情報が含まれます (グレースケールでエンコードされた白黒信号です)。
他の二人はこう言いました« クロミナンス »色情報 (Cr および Cb) が含まれています。

私たちの目は、色のニュアンスよりも光の強さの変化に敏感です。したがって、放送および保存の情報速度を下げるために、人間の視覚にとって可能な限り最高レベルの品質を維持することのみを目的として、色情報の一部を分離することが決定されました。

一般原理は単純です。信号は 4 ピクセルのブロックに分割されており、4:4:4 は非圧縮信号 (3 つの数値のそれぞれが Y:Cr:Cb の順でコンポーネントに対応します) に対応します。すべての情報を保持します。 4:4:4 は非常にハイエンドのプロフェッショナル向けに予約されており、ほぼ映画専用に使用されます。

4:4:4 の画像からの情報 // 出典: Frandroid

ライブストリームの送信、または管理可能なサイズのファイルからの保存とポストプロダクションを可能にするために、すべての情報は保持しません。したがって、有名な 4:2:2 では、画像の各ピクセルのすべての輝度情報 (グレーレベル) と、1 つおきのピクセルの色情報のみが保持されます。これは、次のようなハイエンドカメラで利用できるオプションです。ニコン Z9またはソニーアルファ 7S III、プロ仕様のカメラも多数あります。

4:2:2 の画像からの情報 // 出典: Frandroid

情報の流れをさらに容易にするために、4:2:0 も開発されました。この場合、1 行おきに 4:2:2 を作成し、次の行には色情報を保持しません。これは、スマートフォンなどの民生用録音デバイスで現在最も広く使用されている形式です。

4:2:0 の画像からの情報 // ソース: Frandroid

最終画面では、ピクセルごとの RGB 情報が必要になります。したがって、ブロードキャストのチェーンの最後ではプロセス全体が逆に行われ、欠落した情報が補間 (隣接するピクセルからの情報に基づく数学的計算) によって再構成されます。当然のことながら、色情報の損失が減少するため、この最終的な再構成はより精細になります。

La 圧縮 (MPEG、H.264、H.265…)

送信または保存される情報の量をさらに減らすために、圧縮システムを使用すると、情報数をさらに大幅に削減できます。この場合も、プロセスはいくつかの段階で行われます。

LA圧縮画像内

まず、各画像内の情報を圧縮します。これは画像内圧縮とも呼ばれます。« オールイントラ »某メーカーの間では。一般原理は写真の Jpeg と同じです。画像は複数のピクセルブロックに分割されます。

各ブロック内で、隣接するピクセルの情報が非常に近い場合は、そのうちの 1 つのピクセルの情報のみを保持することを決定します。同様に、最も細かい部分、つまり目に最も早く見えない部分は、あまり正確にコード化されません。

適切に線量を設定すると、送信される情報量を大幅に削減しながら、画像の主要領域で十分な詳細レベルを維持し、全体的に良好な印象を維持することができます。照射量が不十分だと、迷惑なアーティファクトが発生します。最もよく知られているのは、画像の特定の領域に近い値を持つ大きなブロックです。これは、空の勾配や、変化が最小限の平らな領域に似た特定の領域に当てはまります。

画像間圧縮

MPEG 標準では、インターイメージ (または IPB) と呼ばれる 2 番目の圧縮シーケンスを引き継ぐことができます。原理は単純です。画像をシーケンスと呼ばれるグループにグループ化します。「共和党」可変サイズ (画像グループ用)。最初の画像から、次の画像の変更のみに興味があります。実際には、これにより、送信される情報量を大幅に削減できます。その後、画像は解凍中に (ポストプロダクションまたは放送用に) 再構築されます。

原理を理解するには、画像は圧縮を待機するメモリ (バッファ) に保存され、これは少なくとも 1 つの完全な GOP が保存されている場合にのみ行われることに留意する必要があります。したがって、ライブブロードキャスト中には、わずかな遅延が発生します。

ビデオ内のある画像から別の画像に移動する GOP // ソース: Frandroid

もう少し詳しく説明したい人のために、GOP には 3 種類の画像 I、P、または B がまとめられています。GOP の最初の画像 (「I」) は参照として機能し、内部圧縮画像の後の残りの情報はすべて機能します。エンコードされています。

特定の画像は「予測」(P) と呼ばれます。オブジェクトが変更されずに移動した場合、移動ベクトルのみが送信されます。形状が変更されると、元の画像とエンコードされた実際の画像の差分になります。

これらの I 画像と P 画像、または 2 つの P 画像の間には、間に挟まれる I 画像または P 画像に従って符号化された双方向画像 (「B」) が存在します。これらは最も軽いものです。予測は前後のイメージから行われるため、より正確になり、送信された残差はより軽くなるだけです。

H.264 (または MPEG-4 AVC)

これらの一般原則に基づいて、さまざまな開発により結果を改良することが可能になりました。そこで、HD 専用の H.264 (MPEG-4 標準の進化版) の登場により、画像内圧縮が改善されました。状況に応じたサイズのブロックの使用、空間予測システム、可逆可逆圧縮システムの使用により、より優れた圧縮が可能になりました。これにより、必要に応じて、より効率的な圧縮と詳細の保持の両方が可能になります。

GOP の構成の柔軟性と技術開発に伴う計算能力の向上により、画像間圧縮の予測も向上しました。そのため、同じ画像サイズであれば、送信する情報量が軽くなります。 H.264 は特に、持続可能な速度で DTT 経由の HD ブロードキャストを可能にしました。

H.265 (または HEVC)

H.265 は、最近の最先端のビデオカメラで採用され始めています。パナソニックルミックス S5、パナソニックルミックス GH6、または富士フイルム X-H2S— UHD および UHD-2、およびテレビ以外のメディア (スマートフォン、インターネット経由の VOD など) を介したそれらの配信用に設計されています。

これにより、同じ画像サイズで送信される情報の重みを大幅に減らすことができます。解像度の大幅な向上 (UHD 画像のピクセル数はフル HD 画像の 4 倍) に伴い、2 つの隣接する領域間の冗長性の可能性が増加します。したがって、それがもたらす主な発展の 1 つは、ブロックサイズの大幅な変動の可能性、つまり画像内圧縮の可能性にあります。

これらの開発はそれぞれ、前世代よりもハードウェアリソース、特にエンコーディングの要求がはるかに高く、プロセッサの進化が実装の主な要素であることに注意してください。したがって、H.265 はエンコード中に H.264 よりも約 10 倍多くのコンピューティングリソースを必要とし、マルチコア作業用に最適化されています。