Googleは、ロボット専用のGemini 2.0から2つの新しい衰退を引き出します。これが覚えておくべきことです。
Googleは衰退し続けていますジェミニすべてのソースに。Androidスマートフォンに非常に存在します、アメリカの巨人の人工知能は今、ロボットをアニメーション化するようになりました。
したがって、会社の深い部門は、Gemini 2.0から派生したIA言語の2つの新しいモデルでベールを持ち上げます。
- Gemini Robotics、「Vision-Language-action」モデル(VLA);
- 舌ベースの言語モデル(VLM)であるGemini Robotics-ER。
«これらの2つのモデルにより、さまざまなロボットがこれまで以上に多くのタスクを実現することができます。「Googleは説明します。
このコンテンツは、Cookieやその他のトレーサーを受け入れていないためブロックされています。このコンテンツはYouTubeによって提供されます。
それを視覚化できるようにするには、次の目的で使用できるデータでYouTubeが運営している使用を受け入れる必要があります。ソーシャルメディアとコンテンツを表示および共有することを許可し、ヒューマノイドとそのパートナーの開発と改善を促進し、プロファイルとアクティビティに関連してパーソナライズされた広告を表示し、パーソナライズされた広告プロファイルを定義し、コンテンツのパフォーマンスを測定します。このサイトの聴衆を測定します(もっと詳しく知る)
「私はすべてを受け入れる」をクリックすることで、あなたはヒューマノイドによって堆積したすべてのCookieおよびその他のトレーサーの前述の目的に同意しますそのパートナー。
あなたはいつでもあなたの同意を撤回する可能性を維持します。詳細については、お読みくださいクッキーポリシー。
マウンテンビューの巨人は、ロボット工学の専門家であるApptronikにも関連付けられています」次世代のヒューマノイドロボットを前進させる»。
より反応性があり、インテリジェントで熟練したロボット
そのアプローチを説明するために、Googleはロボットのモデルが人間にとって本当に役立つようになるための3つの主要な原則を強調しています。
まず第一に、モデルはそうでなければなりません」一般的なしたがって、さまざまな状況に適応するために、正確なタスクに特化してはなりません。ここでは、Gemini Roboticsには、彼がこれまでに行ったことのないタスクが含まれており、同時にいくつかの指示を管理し、多くの新しいオブジェクトと環境に対応する方法を知っています。 Googleは、このタイプのパフォーマンスを測定するベンチマークで2倍以上の結果を達成することに誇りを持っています。
彼らもそうでなければなりません」相互の作用 環境の指示や質問や変更を理解し、答える。ここでは、ジェミニ2.0による自然言語を理解することが必然的に関与しています。
最後に、の概念」器用さ また、手を巧みに使用し、オブジェクトを慎重に処理できるロボットについても引用されています。ロボットのためにやるよりも言うのが簡単なこと。金、 "Gemini Roboticsは、いくつかの段階で非常に複雑なタスクに取り組むことができます。これには、折り紙の折りたたみやZiplocバッグのスナックのパッケージなど、正確な取り扱いが必要です。[ジッパー付き;注記] »。
このコンテンツは、Cookieやその他のトレーサーを受け入れていないためブロックされています。このコンテンツはYouTubeによって提供されます。
それを視覚化できるようにするには、次の目的で使用できるデータでYouTubeが運営している使用を受け入れる必要があります。ソーシャルメディアとコンテンツを表示および共有することを許可し、ヒューマノイドとそのパートナーの開発と改善を促進し、プロファイルとアクティビティに関連してパーソナライズされた広告を表示し、パーソナライズされた広告プロファイルを定義し、コンテンツのパフォーマンスを測定します。このサイトの聴衆を測定します(もっと詳しく知る)
「私はすべてを受け入れる」をクリックすることで、あなたはヒューマノイドによって堆積したすべてのCookieおよびその他のトレーサーの前述の目的に同意しますそのパートナー。
あなたはいつでもあなたの同意を撤回する可能性を維持します。詳細については、お読みくださいクッキーポリシー。
Googleはまた、このモデルはあらゆる形態のロボットに適応するように設計されていると説明しています。
主に2つのアームロボットプラットフォームからのデータにモデルを描画しましたアロハ2、しかし、彼は多くの大学の研究所で使用されているフランカアームズに基づいて、彼が2アームプラットフォームを制御できることも示しました。 Gemini Roboticsは、現実世界のタスクを実行するために、Apptronikが開発したApollo Humanoid Robotなど、より複雑な成果に特化することさえできます。
空間的推論
Gemini Robotics-ERに関しては、このモデルは、Gemini 2.0の世界の理解を改善するために、より具体的に設計されています。ロボットの場合、Googleはそれが特に焦点を合わせていると説明しています」空間的推論»。
それをコーディングの習得で組み合わせることで、Gemini Robotics-erは開発できます」その場でロボットが見ているものに応じた新しい能力。 ""たとえば、コーヒーカップが表示されると、モデルは2本の指の適切なプラグを決定して、ハンドルでそれをつかむことと、それに近づくための安全な軌跡を決めることができます»。
別の議論、このモデル」認識、状態の推定、空間理解、計画、コードの生成など、ロボットがボックスを離れるとすぐにロボットを制御するために必要なすべての手順を実行できます»。 AIが最初から最後まですべてのタスクを管理する必要があるこのようなシナリオでは、GoogleはGemini 2.0のクラシックバージョンがどのように行うかを知っているものよりも2〜3倍高い成功率を強調しています。
Googleは、Gemini Robotics-erをいくつかの厳選されたパートナーに提供しているため、テストして改善するフィードバックを作成できます。アジャイルロボット、アジリティロボット、ボストンダイナミクス、フランスの魅惑的なツールが言及されています。
愛好家のコミュニティに参加したいですか?私たちの不一致あなたはあなたを歓迎します、それは技術に関する相互援助と情熱の場所です。

Google Gemini