Microsoft は、音声生成人工知能である SpeechX を発表しました。このツールは音声生成機能だけでなく、単語を変換したり、周囲のノイズを除去したりすることもできます。会社の目標は、これを多用途のツールにし、何よりも他のツールよりも優れたツールにすることです。
昨年の1月、マイクロソフトVal-E は次のように明らかにしました。3秒間の録音から音声を再現するAIモデル。数か月後、同社はよりユビキタスな存在を目指す新しいモデルを発表した。 SpeechX と呼ばれるこの機能については、Microsoft がすでにいくつかの用途を計画しています。人工知能声に特化したもの。
SpeechX: あなたの声で(ほぼ)すべてのことができるツール
私たちが発見したのは、Microsoft サイトの調査専用のセクションです。スピーチX、8月14日にオンラインに公開されたページで。私たちはそれが「」であることを学びます。オーディオおよびテキストメッセージを活用する多用途の音声生成モデル。» その作成のために、60,000 時間の音声データでトレーニングされました。マイクロソフトの場合、「既存のモデルでは、さまざまな生成タスクの処理がまだ制限されています。» 特に音響条件が悪い場合。
Microsoft が設計した用途は複数あります。同社は次のように言及しています。テキスト読み上げ(つまり、テキストから音声を生成する)、周囲のノイズを除去する、ターゲット話者から音声を抽出する、音声を削除して編集する(オーディオ トラックの残りの部分を保持しながら、ターゲットの音声を編集できます)。
Microsoft は引き続き SpeechX 専用のページでいくつかのデモを公開しています。たとえば、次のようなケースがあります。テキスト読み上げここで、SpeechX は、Vall-E のように、単語を変更することで 3 秒間の録音から音声を再現します。次に、マイクロソフトは比較するために、これらの音声に自社の AI と同じ文章を発音させました。後者がなくても、結果は非常に印象的です。オーディオ品質が低いことを考慮すると、生成された音声のややロボット的な側面は無視できるでしょう。比較するとそれは明らかですが、比較しないとそれほどわかりません。
それがさらに不誠実であるのは、全文の修正の場合である。 SpeechX は、音声文内のいくつかの単語を置き換えることができます。この場合、人工音声は自然音声によってカモフラージュされており、両者を区別することは非常に困難です。発音を間違えた単語についても同様です。周囲の騒音の抑制に関しては、公開されているデモは効果が低いように見えます。RTX Voice、Nvidia での同等品。息子のライバルAMDも自社のグラフィックスカードに同様のテクノロジーを搭載している。
オーディオに特化した AI に取り組んでいるのは Microsoft だけではありません。たとえば、Meta は数か月前に Voicebox を発表しました、あなたの声を別の言語に翻訳できるツールです。アップル側では、AIはすでにオーディオブックの朗読に使用されています。