Google I/O 2024 の主役である Project Astra は、環境に基づいて反応できるインテリジェントなアシスタントと際限なく会話できる未来を垣間見せてくれます。
ネットワーク上で Google をフォローしている場合は、少し前に が表示されたのを見たことがあるかもしれません。OpenAIカンファレンス環境の視覚要素を統合して質問にリアルタイムで応答できるマルチモーダル音声アシスタントを示すビデオ。このデモには「Project Astra」という名前が付けられました。
Cookie やその他のトラッカーを受け入れていないため、このコンテンツはブロックされています。このコンテンツはTwitterより提供されております。
これを表示するには、Twitter によるお客様のデータの使用を受け入れる必要があります。この使用は、ソーシャル メディアでコンテンツを表示および共有できるようにすること、Humanoid およびその製品の開発と改善を促進することを目的として使用される可能性があります。パートナー、あなたのプロフィールとアクティビティに基づいてパーソナライズされた広告を表示し、パーソナライズされた広告プロファイルを定義し、このサイト上の広告とコンテンツのパフォーマンスを測定し、このサイトの視聴者を測定します(もっと詳しく知る)
「すべてを受け入れる」をクリックすると、Humanoid とそのパートナー。
同意はいつでも撤回できます。詳細については、ぜひお読みください。クッキーポリシー。
未来はマルチモーダルになる
検索エンジン、音声アシスタント、さらには AI チャットボットに簡単な質問をするのは過去のことです。今後は、書面または音声で尋ねられた質問と、音声または視覚などの別の要素をリンクするマルチモーダル クエリに変わります。目標は、検索をより自然にし、質問を人間が尋ねるものに近づけることです。 「」と尋ねることを想像してください。それは何ですか?» スマートフォンで物体を指してアシスタントに伝えます。
マルチモーダルはすでに Gemini のコンポーネントですが、Google はさらに進んで、SF 映画がすでに想像していたものを再発明したいと考えています。アイアンマンまたはサマンサ彼女。このミッションは、Google DeepMind によって開発された Project Astra です。これは、特定のリクエストにだけではなく、継続的かつリアルタイムで応答できる音声アシスタントです。
スマートフォンのカメラを通じてでも、コネクテッド グラスのプロトタイプを通じてでも、Project Astra は次のような多様な質問に答えることができます。私はどの地域にいますか?»、«このデュオに何という名前を付けますか?»、«このコードは何をするのでしょうか?» あるいは「メガネをどこに置きましたか?」。印象的な結果でした。
この偉業は、アストラの世界理解というよりも、その対応力にあります。 「応答時間を会話レベルまで短縮することは、技術的に困難な課題です», プレスリリースで Google を明記しています。これが、たとえ今年中に Gemini アプリケーションがその機能の一部を継承するとしても、それがまだプロジェクトにすぎない理由です。
しかし、この印象的なデモは、次のような理由で台無しになってしまいます。昨日の ChatGPT 音声の改善の発表。 OpenAI の会話アシスタントは、応答の精度をはじめとして、多くの点でその実力を証明する必要がありますが、音声レンダリングという 1 つの点では依然として一歩先を行っています。 Google は、Google アシスタントの音声と似た、あるいは同一の、まだ少しロボットっぽい音声を選択していますが、ChatGPT Voice は、より人間的で、より自然で、単調さが少ないイントネーションと音声マーカーを使用しています。 』の効果を感じられる方もいらっしゃいましたら、不穏な谷」とありますが、これが大規模導入に向けた重要な議論であることは間違いありません。
さらに、このツールのアルファ版は、今後数週間以内に ChatGPT Plus 加入者に提供される予定です。今年はこの分野での競争が激化することが予想されます…
隔週水曜日にTwitchでお会いしましょう、午後5時から午後7時まで、ライブに続きますショー「SURVOLTÉS」フランアンドロイド社が制作。電気自動車、電動自転車、専門家のアドバイス、ゲーム、体験談など、誰もが楽しめるものが見つかります。

Google ジェミニ