VALL-E と呼ばれる新しい人工知能モデルは、わずか 3 秒間聞くだけであなたの声を複製することができます。現時点では英語でのみ機能するため、これは有望であると同時に懸念材料でもあります。
後チャットGPTテキスト生成のために、旅の途中絵画やイラストの構図に、あるいは音楽LM音楽制作では、新しいモデルの人工知能が声を攻撃します。単なる声ではなく、あなたの声です。によって設計されましたマイクロソフトそして言及した1月に初めて, VALL-E は実際に、あなたの声の音を再現したオーディオ メッセージを作成できます。
私たちの同僚としてヌメラマ、VALL-Eのコンセプトは、テキスト音声合成またはTTS。言い換えれば、一方では書かれたテキストに基づいて、他方では他のテキストを朗読する音声(この場合はあなたのもの)の録音に基づいて、選択したテキストを発音することができます。ただし、VALL-E の主な利点は、音声を複製するのに必要なリスニング時間が最短で 60 秒かかるのに対し、わずか 3 秒であることです。アマゾンが昨年発表した競合技術。
Wall-E は現在英語でのみ動作します
1 月初旬の VALL-E の発表以来、研究者は定性的および定量的の両方で数多くのテストを実行することができました。ヌメラマ、そしてこれらは決定的であることがわかります。 Microsoft の AI は、リアリズムに関して現在のモデルの性能を上回るほどに進歩しました。この新しい AI は、ロボットのような発音をすることなく、非常にリアルにあなたの声を模倣できることを理解してください。
この結果を達成するために、VALL-E は 7,000 人の異なる人々による 60,000 時間の英語録音を含む広範な学習コーパスに依存していることがわかりました。ただし、2 つの欠点があります。Microsoft の AI は現在英語のみに限定されています (その学習コーパスは実際には英語話者のみで記録されています)。そしておそらく、彼女がまだ遭遇したことのないアクセント (英語の多く) にあまり慣れていないでしょう。 。
不正利用の危険もありますのでご注意ください...
いずれにせよ、まだ少しトレーニングが必要ですが、VALL-E はすぐに次のようなさまざまな用途に使用できるようになります。« 生産の簡素化またはコストの削減のため」、とインタビューしたケベック人工知能研究所の博士課程学生、ルイ・フランソワ・ブシャール氏は強調する。ヌメラマ。それでも現実的である必要があります。この新しい AI モデルは次の目的にも使用されます。ディープフェイクボーカル…そしてそれに付随する気晴らし。
«これは便利なツールであり、完全に合法的に使用できます。しかし、悪用される可能性もあります。すべてはそれが手に入るかどうかにかかっています» ルイ=フランソワ・ブシャール氏も同意する。 「今後、私たちはオンラインで見聞きするものに細心の注意を払う必要があると思います」と彼は付け加えた。
Microsoft がこの問題を認識しているが、同社がそれにどのように対処する準備をしているのかはまだ分からない...そしてこの場合、グループの現在の方針は、倫理よりも、さまざまな AI を市場に投入するスピードに重点を置いているように見える。それと一緒に行きましょう。その証拠に、同社は最近、この問題に特化した専門チームを解雇した。