ChatGPTの新しいモデルはユーザーに嘘をついている可能性がある

リリースされたばかりの新しい ChatGPT モデルは、いくつかのセキュリティチームから懸念を引き起こしています。研究者は、チャットボットが意図的に嘘をつくことができることを何度か確認しました。

昨年 7 月、OpenAI が不正行為を行った可能性があるとの告発がありました。ユーザーの安全にもかかわらず、新モデルのリリースを期待していた。今日私たちは o1 モデルを学びました最近リリースされたばかりの裏付けとなる証拠とともに同じ懸念を引き起こします。

自分を守るために嘘をつく

私たちは経由して学びますテッククランチ OpenAI セキュリティチーム、レッドチーム、および AI セキュリティを専門とする Apollo Research 組織は、新しいモデルによってもたらされるリスクを評価するための研究を実施しました。ChatGPT o1、推論できるでしょう。この結果は、AI がユーザーの要求を満たすためだけでなく、自分自身を守るために意図的に嘘をつく可能性があることを示しています。

研究者らはプロトコルの中で、AIが彼らの要求に応じるために自身の監視システムを停止したことを何度も指摘した。さらに悪いことに、研究者が ChatGPT に状況を提示したところ、ChatGPT はそれを否定することができ、約 99% の確率で「虚偽の説明をでっち上げる」ことさえできた、と報告されています。テッククランチ。

OpenAI によると、o1 モデルは GPT-4o よりも約 20% 操作性が高くなりますが、演繹的に恐れる必要はありません。「アポロ・リサーチは、o1エージェントの能力が十分ではないと思われるため、このようなケースが壊滅的な結果につながる可能性は低いと考えています。」。 ChatGPT によって提供される権限が発展するにつれて、セキュリティプロトコルがどのように進化するかはまだわかりません。

ブラックボックス

研究のもう 1 つの懸念点は、現在ブラックボックスとなっている o1 モデルの有名な推論方法に関するものです。

「私たちのスイートでは、o1 はいくつかの懸念すべき悪ふざけの例を示していますが、その内部の推論はユーザーに明らかにしておらず、これらの悪ふざけを実行した後も一貫して誤解を招くままです。」
アポロ研究

OpenAI は、o1 モデルによって実行される思考を監視し、より適切に特定する手段を開発中であることを示し、回答のうち誤解を招くものは 0.17% のみであることを明示して、安心してもらいたいと考えています。番号が

OpenAI は、o1 モデルの推論を監視し、より適切に特定する手段を導入していると断言し、o1 の回答のうち誤解を招くものは 0.17% のみであることを明示して安心させようとしています。この数字が重要ではないと思われる場合は、テッククランチChatGPT には現在 3 億人のユーザーがおり、これは何千人もの人々がこのような状況に直面する可能性があることを意味します。

最近数名の従業員が OpenAI を非難して退職したことを考えると、これらの暴露はさらに憂慮すべきことである。安全上の過失。規制当局がこの絶え間なく進化するテクノロジーをどのように規制するかはまだ分からない。

ChatGPTの新しいモデルはユーザーに嘘をついている可能性がある

自分を守るために嘘をつく

ブラックボックス

Related Post

Adobe After Effects

電動自転車テスト 2013: 電動自転車のテストと取り扱い

Beats Bluetoothスピーカーの比較

コンソールテスト 2017: コンソールテストと処理

Microsoft Outlook

カメラテスト 2021: カメラのテストと取り扱い

最高の Android、iPhone、iPad ゲーム

ドローンテスト 2020: 弊社のドローンテストと取り扱い

ヘッドフォンとイヤフォンのテスト 2019: ヘッドフォンとイヤフォンのテストと取り扱い

タッチスクリーンタブレットテスト 2022: タブレットのテストと取り扱い

You Missed

Android の心のソーシャルネットワーク、Smartdate

ロボット掃除機検定2019：ロボット掃除機の試験と取り扱い

モビリティは単なる言葉ではありません...

Microsoft Outlook

VR ヘッドセットテスト 2023: VR ヘッドセットのテストと取り扱い

Raspberry Pi タッチディスプレイ 2

最高の Android、iPhone、iPad ゲーム

WhatsAppはPC用のデスクトップクライアントを立ち上げる予定だと報じられている

Latest Posts

最高の Android、iPhone、iPad ゲーム

ロボット掃除機テスト2020：ロボット掃除機のテストと取り扱い

コンソールテスト 2019: コンソールテストと処理

VR ヘッドセットテスト 2023: VR ヘッドセットのテストと取り扱い

Week

Honorはすでに2025年の高級スマートフォンであるMagic 7 Proの価格を破っています

Onyx Studio 8：エレガントでパワフルなBluetoothスピーカー署名されたHarman Kardonは半価格です

「94％が電気自動車を購入したい」：この研究では、サーマル車への復帰が非常にまれであることを証明しています

AndroidのGoogle写真：人生を簡素化する新しいオプション

Month

ロボット掃除機検定2019：ロボット掃除機の試験と取り扱い

コントローラーテスト 2012: コントローラーのテストと取り扱い

Android の心のソーシャルネットワーク、Smartdate

最高の Android、iPhone、iPad ゲーム