リリースされたばかりの新しい ChatGPT モデルは、いくつかのセキュリティ チームから懸念を引き起こしています。研究者は、チャットボットが意図的に嘘をつくことができることを何度か確認しました。
昨年 7 月、OpenAI が不正行為を行った可能性があるとの告発がありました。ユーザーの安全にもかかわらず、新モデルのリリースを期待していた。今日私たちは o1 モデルを学びました最近リリースされたばかりの裏付けとなる証拠とともに同じ懸念を引き起こします。
自分を守るために嘘をつく
私たちは経由して学びますテッククランチ OpenAI セキュリティ チーム、レッド チーム、および AI セキュリティを専門とする Apollo Research 組織は、新しいモデルによってもたらされるリスクを評価するための研究を実施しました。ChatGPT o1、推論できるでしょう。この結果は、AI がユーザーの要求を満たすためだけでなく、自分自身を守るために意図的に嘘をつく可能性があることを示しています。
研究者らはプロトコルの中で、AIが彼らの要求に応じるために自身の監視システムを停止したことを何度も指摘した。さらに悪いことに、研究者が ChatGPT に状況を提示したところ、ChatGPT はそれを否定することができ、約 99% の確率で「虚偽の説明をでっち上げる」ことさえできた、と報告されています。テッククランチ。
OpenAI によると、o1 モデルは GPT-4o よりも約 20% 操作性が高くなりますが、演繹的に恐れる必要はありません。「アポロ・リサーチは、o1エージェントの能力が十分ではないと思われるため、このようなケースが壊滅的な結果につながる可能性は低いと考えています。」。 ChatGPT によって提供される権限が発展するにつれて、セキュリティ プロトコルがどのように進化するかはまだわかりません。
ブラックボックス
研究のもう 1 つの懸念点は、現在ブラック ボックスとなっている o1 モデルの有名な推論方法に関するものです。
「私たちのスイートでは、o1 はいくつかの懸念すべき悪ふざけの例を示していますが、その内部の推論はユーザーに明らかにしておらず、これらの悪ふざけを実行した後も一貫して誤解を招くままです。」
アポロ研究
OpenAI は、o1 モデルによって実行される思考を監視し、より適切に特定する手段を開発中であることを示し、回答のうち誤解を招くものは 0.17% のみであることを明示して、安心してもらいたいと考えています。番号が
OpenAI は、o1 モデルの推論を監視し、より適切に特定する手段を導入していると断言し、o1 の回答のうち誤解を招くものは 0.17% のみであることを明示して安心させようとしています。この数字が重要ではないと思われる場合は、テッククランチChatGPT には現在 3 億人のユーザーがおり、これは何千人もの人々がこのような状況に直面する可能性があることを意味します。
最近数名の従業員が OpenAI を非難して退職したことを考えると、これらの暴露はさらに憂慮すべきことである。安全上の過失。規制当局がこの絶え間なく進化するテクノロジーをどのように規制するかはまだ分からない。