Google Cloud Next 2024 イベント中に、同社は社内 LLM の新バージョンである Gemini Pro 1.5 のプライベート プレビューの登場を正式に発表しました。オーディオをサポートするようになりました。真にマルチモーダルにするのに十分です。
カンファレンス中Google I/O 2024近づいてきて、グーグルGoogle Cloud Next では、Google Cloud を特集しましたが、それだけではありません。 2024 年の義務について、同社は多くのことを話し合ってきました。人工知能生成と音LLM、双子座。 Pro バージョンも大幅に改善されました。
さらに進むには
LLMとは何ですか? ChatGPT、Google Bard などのエンジンはどのように動作しますか?
Google は、コンピューター コードを生成およびテストするための Google Cloud ツールである Gemini Code Assist を更新することにより、Gemini Pro 1.5 のリリースを正式に発表しました。現時点では、これは特定のユーザーのみが利用可能です。最大の変更点は、全体的なパフォーマンスの向上というよりも、オーディオのサポートです。これらすべてにもかかわらず、Gemini 1.5 Pro はベンチマーク テストの 87% において 1.0 バージョンよりも優れており、Gemini Ultra の最初のバージョンとほぼ同等であると Google は述べています。
これは、音声だけでなくビデオ ファイル内のオーディオ トラックにも影響します。グーグルはこう説明した。これにより、ユーザーはシームレスなマルチモーダル分析を利用でき、テキスト、画像、ビデオ、オーディオについての洞察を得ることができます。また、高品質の文字起こしも提供し、入札や投資家会議中の調査、分析、質問への回答など、オーディオおよびビデオ コンテンツの検索に使用できます。»
さらに進むには
Google によると、Gemini、ChatGPT、または Copilot で適切なプロンプトを作成する方法は次のとおりです。
Gemini のこの新しい Pro バージョンは、当初は Workspace ユーザー向けに予約されているはずですが、Workspace ユーザーがすぐにアクセスできるようになることが想像できます。チャットボットジェミニ。
オーディオと Google の関係が始まりました
これは、オーディオと人工知能における Google の初の進歩とは程遠い。長い間、スマートフォンピクセル音声録音アプリに音声文字起こし機能があります。非常にうまく機能するツールなので、特に、さまざまな発音子を検出できます。
これも似てないよなGoogle デュプレックス、数年前に発表された、Google の死産ツールです。念のため言っておきますが、自分から話さなくても誰かに電話をかけることができるようになります。 Google アシスタントにヘアの予約を依頼すると、AI が電話を処理します。問題は、展開時に、このような電話をかけたのは部分的には人間でした。
隔週木曜日の午後 5 時から 7 時まで開催されるショーにご参加くださいロックを解除するによって制作されたフランアンドロイドなどヌメラマ!技術ニュース、インタビュー、ヒントと分析…またお会いしましょうTwitchでライブ配信するもしくは再放送でYouTube で!