OpenAI 社は、人工知能を使用して簡単な記述から画像を生成できる、DALL-E 2 というプログラムの新バージョンを発表しました。この 2 回目の反復では新機能が導入され、画像を編集できるようになりました。

「写実的なスタイルで馬に乗る宇宙飛行士」の結果 // 出典: OpenAI

真実よりも真実です。人工知能によって可能になった偉業という点では、OpenAI は間違いなくこの分野の先鋒の 1 つとなり、観察者を驚かせ続けています。

2015年に、イーロン・マスクに特化したこの組織の設立に参加しました人工知能。私たちはこの同じ組織に特に GPT-3 (Generative Pre-trained Transformer) と呼ばれるツール、つまり人間の文章に似た文章を生成できるツールに恩義を感じています。彼はまた、DALL-E (アーティストのサルバドール・ダリとディズニーのキャラクター、ウォーリーを組み合わせたもの) と呼ばれるマルチモーダル AI の開発者でもあり、これは簡単な説明 (たとえば、「カメを貼り付けます。」モデル) から画像を生成できます。

DALL-E の発売からわずか 1 年後、同社は、出力解像度が向上し、遅延が短縮され、既存の画像などの新機能を備えたプログラムの新バージョンを発表しました。

簡単な説明から画像まで

DALL-E の最初のバージョンでは、画像を生成し、それらのいくつかを組み合わせるだけでなく、同じ画像のさまざまな視点を提供したり、簡単な説明から影の存在などの要素を推測したりすることもできました。

「毛糸で編んだモンスターのようなスープのボウル」の結果 // 出典: OpenAI

「ベレー帽と黒のタートルネックを着た柴犬」の結果 // 出典: OpenAI

「マッドサイエンティストやスチームパンクのような輝く化学物質を混合するテディベア」の結果が得られます // 出典: OpenAI

これを行うために、GTP-3 で言語に関して使用されているアプローチを採用し、それを一連の単語に圧縮することで画像の生成に適用し、何が起こるかを予測する方法を学習しました。

これを達成するには、たとえ伝説で必要なときに AI が特定の灰色の領域を自分で埋めることができたとしても、説明を明確に、必要な詳細をすべて含めて統合する必要がありました。

当時、OpenAIは、特定のコンテンツポリシーを確立するために、そのようなツールが引き起こす可能性のある潜在的な危険に関心を持ちながら、このシステムに取り組んでいると宣言しました。

どのような目的で、どのような制限があるのでしょうか?

DALL-E は決して商業製品になることを意図して設計されたものではありません。したがって、このプログラムは主に誤った情報などの潜在的な問題を回避するための研究ツールであると考えられているため、これらの機能は制限されています。

「写実的なスタイルで馬に乗る宇宙飛行士」の結果 // 出典: OpenAI

衝撃的な画像はソフトウェアのトレーニング データから事実上削除され、生成された画像には AI ウォーターマークが自動的に適用されます。さらに、システムは特定の名前に基づいて画像を取得することを禁止します (そのため、「」と入力しても結果を取得することはできません)エマニュエル・マクロンエリゼ通りの階段で逆立ちする人」など)。

DALL-E 2 の新機能の 1 つは、ユーザーが次の機能を使用できるようにすることです。ペイント中既存の画像の特定の領域を選択して変更し、場合によっては要素とその影を追加または削除します。 2 つの画像を結合したり、バリエーション機能を使用して既存の画像の異なるバージョンを生成したりすることもできます。このソフトウェアは、以前は 256 ピクセルであったのに対し、1024 ピクセルの正方形の画像を生成することもできます。

ピンクのフラミンゴを画像に追加 // 出典: OpenAI

パーツの既存のイメージ // 出典: OpenAI

DALL-E 2 によって生成されたバリエーション // 出典: OpenAI

ヨハネス・フェルメールの絵画「真珠の耳飾りの少女」の元の画像 // 出典: OpenAI

ここでの DALL-E 2 は、OpenAI によって開発された CLIP 画像認識テクノロジーを使用しています。これは、人間が最も重要な詳細を識別するために画像の内容を要約できるシステムです。これにより、予測プロセスが改善され、より現実的な画像が提供されます。

このテクノロジーは誰を対象としていますか?

この新しいバージョンは現在、承認されたパートナーのみがテスト用に利用でき、パートナー自身も作成できる内容が限られています。特に、これらのユーザーが「」に該当しない画像を作成することは禁止されています。家族向けこれには、ヌード、わいせつ、ヘイトシンボル、陰謀論者、その他のデリケートな話題の禁止が含まれます。

DALL-E による「クロード・モネ風の日の出の野原に座るキツネの絵」の結果 // 出典: OpenAI

DALL-E 2 による「クロード・モネ風の日の出の野原に座るキツネの絵」の結果 // 出典: OpenAI

現時点では、テスターは生成されたイメージをサードパーティのプラットフォームにエクスポートすることもできません。しかし、OpenAI は、おそらくプロジェクトがうまくまとまったときに、サードパーティ アプリケーションを強化できるように、後でグループの API に DALL-E 2 の機能を追加したいと考えています。

現時点でこのテクノロジーを使用するには、待機リストに登録する必要があります。OpenAI Webサイトそして指を交差させます。


Twitch ショー「SURVOLTÉS」隔週水曜日の午後 5 時から午後 7 時までです。電気自動車や電動自転車、ディベート、インタビュー、分析、ゲームなどについてお話しましょう。