Meta の人工知能部門は、入力サンプルによるトレーニングを必要とせずに音声を生成できる AI モデルである Voicebox を発表しました。

メタ AI ボイスボックス // 出典 : Meta

メタAI は Voicebox を導入し、そのツールを「トレーニングされていない音声生成タスクに最高のパフォーマンスで適応できる最初のモデル" で彼の発表記事

Meta は音楽と音声をゼロから作成したいと考えています

マーク・ザッカーバーグの会社は、Voicebox を自動生成システムとして展示しています。人工知能、テキストまたは画像生成ツールと比較します。今回は音声の作成です。

Voicebox モデルの仕組み // 出典: Meta

このモデルの特徴は、音声を作成するために事前の録音が必要ないことです。事前に十分にトレーニングされています。 Voicebox には、トレーニング用に準備された録音を必要としない、フロー マッチングと呼ばれるモデルが含まれています。これにより、Voicebox はより多様なデータ、そして何よりも大量のデータから学習できるようになります。英語、フランス語、スペイン語、ドイツ語、ポーランド語、ポルトガル語による 50,000 時間のスピーチとパブリック ドメインのオーディオブックの書き起こしが行われています。摂取した» by Voicebox。 AIは訓練されました」周囲の音声とセグメントの転写が与えられたときに音声のセグメントを予測します。» これは、コンテキストに応じて、Voicebox が音声を生成できることを意味します。

Voicebox の仕組みの図 // 出典: Meta

メタは次のように述べています。このモデルは 6 つの言語で音声を合成できるほか、ノイズの除去、コンテンツの編集、スタイルの変換、さまざまなサンプルの生成が可能です。» 現時点では、Meta はモデルやコードを一般に公開したくないことを発表しました。誤用の潜在的なリスクがあるため。» 確かに、これにより、ディープフェイク、人物(政治家を含む)の虚偽の録音。同社は次のように書いています。オープンさと責任の間の適切なバランスを見つけてください。»

Voicebox は他社よりも優れた成果を上げたいと考えています

Meta は、Voicebox をオーディオに関するいくつかのタスクを実行できる多用途ツールにしたいと考えています。たとえば、トラックの最後だけでなく、他の部分も編集できます。を彷彿とさせるノイズリダクション機能Nvidia グラフィックス カードで利用できる RTX 音声機能。人工知能のおかげで、マイク使用時のノイズを軽減できます。昨年採用されたソリューションAMD 独自のグラフィックス カードを搭載また。

Voicebox と他の音声生成モデルの比較 // 出典: Meta

メタ社はマイクロソフト社との競争も望んでいる。 1月に後者は音声生成AIモデルVall-E。その特徴は、再生するのにわずか 3 秒の録音しか必要としないことです。 Val-EよりVoiceboxの方が良いでしょう。」明瞭度の観点からのテキストからの音声合成について[…]とオーディオの類似性[…]最大 20 倍高速です。»

Meta は明らかに、Voicebox のいくつかの可能な使用法を想像し、それらを詳細に説明しました。

音声を再現するには 2 秒あれば十分です

まず第一に、テキストから音声を生成するテキスト読み上げがあります。 2 秒の音声サンプルを使用すると、Voicebox は指定されたテキストを使用してこれと同じ音声を生成できます。

Voiceboix は音声を再現する方法を知っています // 出典: Meta

メタ氏は、これにより「話すことができない人が自分自身を表現したり、ノンプレイヤーキャラクターや仮想アシスタントが使用する声をカスタマイズしたりできない人向け」。テクノロジーAppleはすでにオーディオブックに使用している例えば。

すべての言語であなたの声を完璧なアクセントで翻訳します

フランス人は外国語に苦手意識があり、なまりが非常に悪いことで知られています。将来的にはこのようなことはなくなるかもしれませんが、いくつかの追加の言語コースのおかげではありません。 Voicebox を使用すると、別の言語で音声を再生できます。 AI は英語、フランス語、ドイツ語、スペイン語、ポーランド語、ポルトガル語でこれをすでに行うことができます。

ボイスボックス // ソース : Meta

具体的な応用例を想像できます。Google翻訳例えば。外国では、翻訳したい内容をスマートフォンに入力すると、AI が私たちの声で、目的地の言語で話してくれます。もう 1 つの実際的なケースは、ビデオ会議です。私たちの声をリアルタイムで翻訳できますズームマイクロソフトチームまたはGoogle Meet

音声処理をする

ポッドキャストやその他の音声録音を録音しているとします。もう一度聞いてみると、マイクにバグや衝撃が加わったために、音がほとんど聞こえなくなるか、いずれにしても不快な音が聞こえることがわかります。

ボイスボックス // ソース : Meta

Voicebox は、破損した部分を再合成することでこの問題を解決できます。録音を保存し、やり直しを避けるのに十分です。

音声認識ツールのトレーニング

Voicebox は、他の AI モデル、特に音声認識モデルをトレーニングすることもできます。 Meta 氏は、Voicebox は音声を正確に生成できるため、これらの音声録音を音声認識 AI のトレーニングに使用できると述べています。

Voicebox が生成する録音にはすでにラベルが付けられており、テキストを使用して生成されているため、何が話されているかがわかります。公開されたブログ投稿には次のように書かれています。Voicebox によって生成された合成データでトレーニングされた音声認識モデルは、実際のデータでトレーニングされたモデルとほぼ同様に機能します。」。 Meta は、実際の練習録音と比較して、Voicebox によるエラー率の低下はわずか 1% であると主張しています。