専門的な会議中にカメラを起動するのが面倒ですか? Microsoft は、画像を置き換えることができる AI を実験中です。
Microsoft は、生成人工知能に関する研究に多額の投資を続けています。最新プロジェクト: VASA-1。シンプルな写真とオーディオを使用して、超リアルなアニメーションの顔を作成できます。
印象的なデモンストレーション
VASA-1 はマイクロソフトのプロジェクトであり、現段階では商用製品ではありませんが、その結果はすでに非常に印象的です。 AIは、ユーザーの音声と同期して顔のアニメーションビデオをリアルタイムに生成することができます。送信されるビデオは 512 x 512 ピクセル、毎秒 40 フレームで、それほど大きくはありませんが、Zoom、Microsoft Teams、または Google Meet での会話には十分です。
人物の単純なポートレート画像から、生成 AI は口、顔、目をアニメーション化して音声をシミュレートできます。その声はまさにユーザーの声です。会議中にカメラを映さずにマイクに向かって話すことができ、この仮想アバターに置き換えられることを想像できます。
個人情報の盗難を助長することを避けるため、Microsoft は、プロジェクト ページで提示されているデモンストレーションが Dall-E 3 によって生成されたポートレート自体から作成されていると指定しています。実際、この作業を、音声を模倣するエンジンなどの他の生成 AI エンジンと組み合わせて改善することを想像することもできます。ディープフェイク。
Microsoft は、ユーザーがある顔から別の顔に切り替えたり、テキスト読み上げエンジンを使用してオーディオ トラックを置き換えたりする、リアルタイムで記録されたデモも披露しています。画像のフレーミングをリアルタイムに変更できます。特にこれらすべてがデスクトップ PC で行われるため、これは本当に印象的です。大公開» Nvidia GeForce RTX 4090 グラフィックス チップを搭載しており、クラウド上のサーバーには搭載されていません。
わずか数か月で、ビデオ生成は、生成 AI を専門とする企業にとって新たなエルドラドになりました。 2月には、オープン AI が発表した Sora、そのビデオ生成ツール。