Meta AI Labs は、AI の大きな進歩である ImageBind を発表します。人工知能が音声、画像、テキスト、さらには熱などの複数のソースを同時に理解できるようにするには十分です。
生成人工知能を使用すると、ChatGPT を使用してテキストを、Midjourney を使用して画像を迅速に作成できます。特に GPT-4 以降では、理解するための画像を提供できる場合がありますが、AI プロセスはこの画像からテキストを作成して処理を実行できるようになります。そのため、AI とコミュニケーションする方法として、私たちは常にテキストに戻ってきます。
ImageBind により、Meta は現在の形の人工知能に革命をもたらす可能性のある新しい手法を発表します。同社はさらに前進したいと考えており、AI が 5 つのまったく異なるソースを同時に解釈できるようにする方法を検討しています。
人間に近づく
思い出したようにメタ氏の発表, 人間は、例えば交通量の多い通りを見ながら同時に車のエンジン音を聞くなど、いくつかの感覚を使って情報を生み出すことに慣れています。
Meta はこのアイデアに触発されて、同社がオープンソース化したいと考えている新しい人工知能モデルである ImageBind を開発しました。これは、テキスト、画像、音声、深度 (3D)、熱 (赤外線)、速度の 6 種類のソースからの情報を組み合わせることができる最初のモデルです。
これらすべてを踏まえて、Meta は、その AI が写真から物体が発する音、その 3D 形状、触ると熱いか冷たいかを理解できると発表しました。別の応用例として、メタ氏は、そのモデルに基づく AI が、サウンド トラックからイメージを想像できるようになったと述べています。たとえば、木々に降る雨の音から森のイメージを想像することができます。
Meta によって実施された最初のテストでは、ImageBind がソースとして単一のモダリティに特化したモデルよりもはるかに優れたパフォーマンスを発揮することが示されました。
研究者らは現在、さらに進んで、人間の能力にさらに近づくために、モデルに考えられる他のソース、特に嗅覚と触覚を統合したいと考えている。