GPT-4o、音声インタラクション、およびデスクトップアプリケーション: ChatGPT に関する OpenAI 発表の概要

OpenAI は、ChatGPT 用の GPT-4 の非常に有望な進化版である GPT-4o を発表しました。また、会話型エージェント用の新しいデスクトップアプリケーション、強化されたマルチモーダル機能、さらには高速で非常に自然な対話機能も備えています。ここでカンファレンスをもう一度見ることができます。

Cookie やその他のトラッカーを受け入れていないため、このコンテンツはブロックされています。このコンテンツは YouTube によって提供されています。
これを表示するには、YouTube によるお客様のデータの使用を受け入れる必要があります。この使用は、コンテンツの表示とソーシャルメディアでの共有を可能にし、Humanoid とその製品の開発と改善を促進する目的で使用される可能性があります。パートナー、あなたのプロフィールとアクティビティに基づいてパーソナライズされた広告を表示し、パーソナライズされた広告プロファイルを定義し、このサイト上の広告とコンテンツのパフォーマンスを測定し、このサイトの視聴者を測定します（もっと詳しく知る）

「すべてを受け入れる」をクリックすると、Humanoid とそのパートナー。

同意はいつでも撤回できます。詳細については、ぜひお読みください。クッキーポリシー。

自分の選択を管理する

OpenAI は、ChatGPT のいくつかの新機能を発表しました。覚えておくべき主な点は、GPT-4 の進化です。私は GPT-4o (数字のゼロではなく、文字の O です) と名付けました。この新しい GPT-4o モデルは、サブスクリプションを支払わないユーザーに対しても、これまでよりも効率的な AI を約束します。。

さらに、OpenAI チームは、ChatGPT Voice の印象的なデモンストレーション。 AI の音声インタラクションは、これまでよりも高速であるだけでなく、非常に自然です。会話エージェントは、会話のスレッドを失うことなく中断できます。彼は人間の行動を非常に効果的に模倣するために、自分の声のイントネーションを適応および調整します。

すべてはマルチモーダルな方法で運用されています。私たちは、AI がステージ上の人々を助け、紙に書かれた方程式を解き、求められた内容に応じていくつかの異なるイントネーションで物語を語り、人々の短いためらいや小さな笑いを繰り返しながら議論を素早く翻訳するのを見てきました。、など。

チャットGPT

ついに、ChatGPT には、有料ユーザー向けに macOS 上のデスクトップアプリケーションを使用する権利もあります。

カンファレンスのスレッド

ハイライト

19:00 – 始まります！
19:04 – GPT-4o
19:05 – プログラムのいくつかの新機能
19:14 – より魅力的な音声インタラクション
19:17 – 役立つ方程式を理解する
19:23 – よりスムーズな翻訳
19:34 – すでに終了しています
19:40 – 段階的なアップデート

18:30 もうすぐ始まります

会議は 30 分後に始まりますので、ゆっくりしてください。 YouTube のライブビデオが公開されましたが、今のところはソフトな音楽を待っています。

19:00 始まりますよ！

そして始まります！ GPT-4o では問題の核心に直接迫ります (ゼロではなく、文字のような o です)。

19:04 GPT-4o

予想通り、このプログラムにはマルチモーダルエージェント (複数の種類のコンテンツと対話できる) の概念が含まれています。ただし、OpenAI では英語で「omnimodel」という用語を使用します。 GPT-4o にこの有名な O があるのはこのためです。

19:05 プログラムのいくつかの新機能

GPT-4o は、いくつかの点で GPT-4 を進化させたものです。 ChatGPT では、この新しいモデルは、無料ユーザーにも、より多くの可能性 (より多くの拡張機能、より多くのメモリ、より多くの速度など) を提供します。

19:14 より魅力的な音声インタラクション

OpenAI では、ChatGPT との音声対話も大幅に改善されています。したがって、会話エージェントははるかに迅速に応答し、場合によっては (会話の筋を失うことなく) 中断されます。また、ユーザーが奇妙な動作をした場合にも反応します。そのため、マイクの近くで強く息をすると、リラックスするために深呼吸するよう促されます。

ChatGPT にさまざまなイントネーションで話すように依頼することもできます。したがって、このツールは、壮大な調子で、ロボットのような声で歌うなどして、物語を伝えることができます。デモンストレーションは本当に迫力があります！

19:17 役立つ方程式を理解する

ステージ上では、OpenAI の広報担当者が ChatGPT を使って口頭で話し、紙に書かれた数式を撮影します。したがって、AI は、必ずしも直接答えを与えることなく方程式を解くのを手助けし、学習者が進歩することを学びます。学生向けの利用を計画しているのではないかと想像します。

このカメラの使用法はテキストでも機能します。ステージ上の代表者は ChatGPT に素敵なメッセージを書き、AI は陽気な口調で応答し、人間が褒め言葉に反応する方法を非常によくシミュレートしていました。

19:22 いくつかの可能な相互作用

このマルチモーダルな情報処理のおかげで、ChatGPT はコード内で改善できる要素を指摘したり (たとえば開発者の場合)、コンピューター画面に表示されるグラフの要素を解釈したりできます。

19:23 よりスムーズな翻訳

私たちには、毎日関連性を持ちたいと考えているアシスタントがいます。ステージ上の人々は翻訳機能を使用するようになりました。彼らは単に口頭でAIに、イタリア語で聞いた単語を英語に翻訳するように、そしてその逆をするように依頼したのです。そして、AIは優れた流動性でパフォーマンスを発揮し、対話者の小さな笑いやためらいさえも繰り返しました。

19:28 機内モードですか？

興味深い詳細: OpenAI のデモンストレーションは、機内モードのスマートフォンで行われました。

19:29 感情の検出

デモは、ChatGPT 感情検出の短いプレゼンテーションで終了します。ステージ上の人の1人がスマートフォンの自撮りカメラで自分自身を撮影したところ、AIは彼に「この感情の原因は何ですか？」と尋ねながら、彼は明るくて熱心に見えたとかなり包括的な回答を返しました。このアイデアは明らかに、ChatGPT との対話が人工知能にとって非常に自然で、非常に「人間的」であることを示すことです。

19:34 すでに終了しました

会議は 30 分ほどと非常に短く、すでに終了しています。したがって、私たちは、お金を払わずに Chat-GPT の機能を強化する GPT-4o の発表を忘れることはありません。これは非常に素晴らしいことです。

また、ChatGPT は、音声対話中に非常に迅速かつ人間的な口調で応答する優れた能力と、スマートフォンのカメラでライブで撮影しているものを理解する優れた能力にも注目します。デモは非常に印象的で、Google I/O 2024 の前夜に Google アシスタントを怖がらせるのに十分でした。

19:40 プログレッシブアップデート

OpenAIが発表した新機能は本日より順次導入される予定だ。たとえば、GPT-4o のテキストおよび画像の対話機能は、ChatGPT API にすでに実装されています。音声とビデオについては、さらに数週間待つ必要があります。

隔週木曜日の午後 5 時から 7 時まで開催されるショーにご参加ください。ロックを解除するによって制作されたフランアンドロイドなどヌメラマ！技術ニュース、インタビュー、ヒントと分析…またお会いしましょうTwitchでライブ配信するもしくは再放送でYouTube で！