OpenAI は、チャットボットの音声機能である ChatGPT Voice の非常に印象的なデモンストレーションを作成しました。多くの改善が計画されており、確実なのは、Google アシスタントがシェイクできるようになるということです。
今週月曜日、5月13日は、OpenAIがライブカンファレンスを開催~に向けて新製品を紹介するチャットGPTなどGPT-4。ありましたGPT-4oの登場、しかしそれだけではありません。同社は ChatGPT Voice の改善を実証しました。明日、GoogleはGeminiで何が起こるかを発表します、そしてGoogleアシスタントとチャットボットの間の競争は非常に厳しいものになるでしょう。 OpenAIも明らかにChatGPT デスクトップ アプリ。
さらに進むには
ChatGPT: その仕組み、その可能性と危険性…すべてを理解するための究極のガイド
より速く、そして何よりもより自然な ChatGPT Voice
232 ミリ秒: これは、ChatGPT Voice の新しいバージョンの最小応答時間です。平均して、OpenAI推定では 320 ミリ秒です。」これは人間の会話における応答時間に似ています。»、会社を前進させます彼のプレスリリース。実際、OpenAI はチャットボットの音声機能の動作方法を技術的に改訂しました。以前は、次の 3 つのモデルが使用されていました。
- 1 つはあなたの音声をテキストに変換するものです。
- もう 1 つは、あなたの言ったことを解釈して答えを与える: GPT-4 または GPT-3.5。
- もう 1 つは、テキスト応答を音声に変換するものです。
このシステムは「」を考慮していませんでした。音、複数のスピーカー、または背景ノイズがあり、曲を再生したり感情を表現したりすることはできません。» ChatGPT Voice は新しいモデルである GPT-4o を使用するようになりました «テキスト、ビジョン、オーディオのエンドツーエンド。つまり、すべての入力と出力が同じニューラル ネットワークによって処理されます。» OpenAI は、自身のモデルのすべての機能と制限さえ認識していないことを示しています。
今後数週間のうちに、この新しいバージョンの ChatGPT Voice が ChatGPT Plus 加入者にアルファ版で利用可能になります。これがいつすべてのユーザーに利用可能になるかは不明です。ザ」音声モード» は、この日に OpenAI によって提示されたデスクトップ アプリケーションからもアクセスできるようになります。
特に注目を集めたのは、OpenAIとその研究者らによってライブで(奇妙なことに機内モードで)行われたデモンストレーションだった。デモはほとんど何の問題もなく行われた。たとえば、ChatGPT は、スマートフォンのカメラがオンになっていないにもかかわらず、数学の問題が表示されていると考えました。同社が想定する用途には「たとえば、ChatGPT にスポーツのライブ試合を見せて、ルールを説明してもらうことができます。»
また、同社の研究者の一人は、プレゼンテーション中にストレスを感じすぎないようチャットボットにアドバイスを求めた。チャットボットは彼を助け、呼吸法を勧めました。彼は研究者の(非常に大げさな)呼吸についてコメントすることさえできました。 ChatGPT は、多かれ少なかれ早口で、特定のイントネーションで、さらにはハミングで応答することもできます。 OpenAI がさらに強調しているのは、ChatGPT がユーザーの話し方に基づいてユーザーの感情を解釈できるという事実です。実際には音声アシスタントのように見えるものは、話しているときにさえも途切れることがあります。どうやら心配することなく中断でき、チャットボットは反応しています。
Cookie やその他のトラッカーを受け入れていないため、このコンテンツはブロックされています。このコンテンツは YouTube によって提供されています。
これを表示するには、YouTube によるお客様のデータの使用を受け入れる必要があります。この使用は、コンテンツの表示とソーシャル メディアでの共有を可能にし、Humanoid とその製品の開発と改善を促進する目的で使用される可能性があります。パートナー、あなたのプロフィールとアクティビティに基づいてパーソナライズされた広告を表示し、パーソナライズされた広告プロファイルを定義し、このサイト上の広告とコンテンツのパフォーマンスを測定し、このサイトの視聴者を測定します(もっと詳しく知る)
「すべてを受け入れる」をクリックすると、Humanoid とそのパートナー。
同意はいつでも撤回できます。詳細については、ぜひお読みください。クッキーポリシー。
ChatGPT は音声だけでなく、スマートフォンのカメラを介してライブで対話することもできます。私たちは彼に数学の問題を解くのを手伝ってもらうことができます (デモンストレーションでは非常に簡単でしたが、研究者が未知数の方程式の計算方法を知らないというのは驚くべきことです)。
ChatGPT デスクトップ アプリケーションは、アプリケーションにコードをインポートしなくても、コンピューター コードを支援することもできます。あらゆるプログラミング ソフトウェアで使用できるコンピューター プログラミング アシスタントにするのに十分です。最後に、OpenAI は、チャットボット デスクトップ アプリケーションを使用した (かなり単純な) グラフの解釈をデモンストレーションしました。ずっとその声に応えながら。データベースやスプレッドシートでも同様のことが可能です。

チャットGPT