ChatGPT、Google Bard、Meta AI などの背後には、「大規模言語モデル」を表す LLM と呼ばれるものがあります。これらは実際、AI テキスト チャットボットのエンジンであり、言われたことを学習して「理解」します。

後ろに何があるのかチャットGPT?どのようにして人工知能テキスト生成? AI ツールの出現により、その謎に満ちた機能について多くの疑問が生じています。

実際、ChatGPT の背後には「」と呼ばれるものがあります。LLM»…え、何?

それはどういう意味ですか?LLM» IAではないのですか?

LLM は英語表現「」の頭字語です。L幅広い言語モデル」。フランス語に訳すと「大規模な言語モデル」。これらは、通常少なくとも 10 億のパラメータを持つ言語モデルです。フランス語では「」とも呼ばれます。大規模な言語モデル» そしてそれらを頭字語「」で指定しますMML»。

さらに進むには
ChatGPT: その仕組み、その可能性と危険性…すべてを理解するための究極のガイド

人工知能のエンジンである大規模な言語モデルはどのように機能するのでしょうか?

LLM は実際には、深層人工ニューラル ネットワーク、つまり生物学的ニューロンの機能からインスピレーションを得て設計されたソフトウェアです。各計算 (または形式的) ニューロンには、入力 (樹状突起に対応) と出力 (軸索に対応) があります。形式ニューロンは、私たちが指定した正確なルールを使用して、入力を出力に変換できます。これらの人工ニューロンは、さまざまな種類の接続に従ってネットワーク内で関連付けられます (より重みのあるものや、より定期的にタスクを実行するものもあります)。

ニューラル ネットワークの簡略図 // 出典: Wikipedia

このニューラル ネットワーク システムの強みは、動物と同様に、「学ぶ» それ自体: それは機械学習。しかし、機械学習 (と呼ばれる) を使用すると、さらに前進することができます。ディープラーニングこれには大きな利点があります。人間が「」を入力する必要がないということです。手で» 機械が学習する必要があるすべて。システムの最終出力を 10 倍に高めるのに十分です。

人工ニューロンの構造図 // 出典: Wikipedia

LLM に学習させるには、大量のテキストを与える必要があります。このために、単純に次のようにすることができます。ウィキペディア:ウィキメディア財団によると、オンライン百科事典には、約 300 の言語で 5,800 万以上の記事が収録されています。 LLM をトレーニングするための特殊なテキスト データセットもあります。オープンソース

学習の質は、いわゆるデータ ラベリングにも依存します。人工知能の分野において、ラベリングとは、決定されたデータに基づいて、要求されたタスクに対する答えを与える行為です。テキストの場合、ラベル付けは、たとえばテキストを「」として修飾することができます。事実上の» 彼のスタイルでは、「家族彼の語彙では「」、あるいは「侮辱的な» 彼の言うことは。

入力テキストがチャットボットと共有されると、LLM によって数値に変換されてから解析され、出力テキストに変換される前に出力も同様に数値に形成されます。これらの数値は実際にはベクトルと呼ばれます。述べたように01ネット、これらの数値により、それらの間の近接スコアを確立することが可能になります。数値の桁数が多いほど、モデルは複雑になり、より効率的になります。これはテキストの一種の数学化であり、これによってアルゴリズムが人間の言語を模倣できるようになります。

Transformer アーキテクチャの変更点ディープラーニング

技術的な変化が人工知能の世界を揺るがすことになったのは 2017 年のことでした。それは、Transformer アーキテクチャの作成でした。これは、何年も前に遡る技術的プロセスの長期にわたる組み合わせの結果です。

そして "変圧器» これは、主にいわゆる自然言語処理用に設計された深層学習モデルです。リカレント ニューラル ネットワークなどの従来のニューラル ネットワークがクエリ入力を順番に (文の最初から最後まで) 処理する場合、トランスフォーマーはこの入力を並列化して、トレーニング時間を大幅に短縮できます。トレーニング時間を短縮するということは、同等のサーバー運用コストでより多くのトレーニングを実施し、さらに前進することを意味します。

Transformer アーキテクチャがどのように機能するかを示す図 // 出典: Wikipedia

この建築の面白さの好例は、哲学者ダニエル・アンドラーの著作の中で語られています。人工知能と人間の知能: 二重の謎。という文については、私には兄がいます、彼は建築家です»、«兄弟» など «イル» 同じ人物を指します。文の構成は単純で、2 つの用語が互いに続きます。しかし文中では「兄がパートナーに怒ったとき、私は兄のことを決して好きではなかったと認めました»、«私の兄弟» など «彼の» 遠いです。ここで、Transformer は「」を使用します。自動注意」を考慮したものです。これらの効果はコンテキストから削除されます」。このメカニズムにより、入力の処理中にコンテキストを取得できるようになります。このメカニズムは 2 つの原則に基づいて動作します。マスク» そして“トークン»。

まず、マスクには次の 2 種類があります。

  • ザ」因果関係フィルター» これは、文によって与えられたコンテキストに応じて特定のベクトルの重みを変更します。
  • ザ」パディングフィルター» これは、処理で考慮されない不要な単語を追加することで、すべての文が同じ数学的長さ (文中の数字と同じ長さ) になるようにします。

これらは、トークンこれにより、ニューラルネットワークは「理解する» 単語を順番に扱うのではなく、それぞれの単語を扱います。また、単語間のつながりも考慮されます。

最初 "真実» 言語モデル: GPT と BERT

パイオニアと考えられる 2 つの LLM が、2018 年に互いに数週間以内に出版されました。 1 つ目は GPT (Generative Pre-Trained Transformer)OpenAI。 2 つ目は DeepMind の BERT (Googleが所有するもの)。 Transformer アーキテクチャのおかげで、LLM における革命であることが証明されました。

BERT トレーニングの仕組みの図 // 出典: 「BERT: 言語理解のためのディープ双方向トランスフォーマーの事前トレーニング」

彼らは自然言語の理解とテキストの生成に非常に優れています。彼らはテキストで次のように尋ねるだけでタスクを完了できます。要約する»、«翻訳する»、«書く」。また、言語モデルが特定のタスクに対して事前トレーニングされるのではなく、セット全体に対して事前トレーニングされるのは初めてのことであり、その範囲は私たちにもわかりません。

なぜ私たちは「」について話すのですか?設定» 言語モデルについて?

LLM について話すとき、私たちはよく「設定»: 数が多いほど、モデルはより強力で効率的になります。これは真実ですが、一般的な真実ではありません。実際、ニューラル ネットワークには、複数の層にわたる複数のノードが含まれています。説明どおりアマゾン ウェブ サービス、«各層の各ノードは次の層のすべてのノードに接続されます」。それぞれに異なる重みと偏差があります。実際には、これらの重みと偏差が LLM のパラメータです。だからこそできるのです簡単に» 数百億ドルあります。この設定が提供するのは、言語のニュアンスや複雑さをさらに捉えることができることです。これにより、より大きな入力データとより大きな出力を考慮することが可能になります。ただし、LLM がさらに進めば進むほど、理解» より多くのパラメーター (指数関数的に) と電力 (サーバー) が必要になります。トレーニング段階では、重みとギャップが繰り返し調整されます。

とは何ですか大規模な言語モデル?

LLM の大きな強みは、特定の能力について訓練されていないため、特定の用途がないことです。彼らの神経機能は、与えられた入力 (単語のシーケンス) に基づいて、ありそうなシーケンスを予測するように訓練されていることを意味します。

エミリアーノ・ヴィットリオージがUnsplashについて語る

ChatGPT に童話などの物語を語ってもらうと、おそらく「」で始まるでしょう。むかしむかし」、とても古典的なので。すると、次に起こる確率は「王国で"、 または "お姫様』みたいな。実際には、LLM は「理解する» テキストではありません彼らが訓練された内容や、彼らに書かれた内容。LLM は言語学に適用される単なる統計システムです。それらは単語を決定するだけでなく、言語を構成するすべての構文、活用、句読点も決定します。

LLM が成功するかどうかは、いくつかの要因によって決まります。まず第一に、パラメータの数があります。数が多いほど、言語モデルが応答で考慮できる要素が多くなり、言語モデルの精度が高まります。さらに、パラメータの数を増やしてモデルを拡大することで、特定の機能を発見します。ダニエル・アンドラーはこう書いています。不動産は、今日の私たちにはその理由がわからないまま、一定の規模から出現します。» 翻訳能力、感情やユーモアのシミュレーションなどがその例です。

Bing 経由で ChatGPT に尋ねる質問の例 // 出典: スクリーンショット

また、LLM の動作に費やされる計算能力にも依存します。最後に、ユーザーの入力として提供されるデータの品質があります。明らかに、ChatGPT へのリクエストが正確であればあるほど、背後の LLM が正確な答えを提供するために必要なコンテキストと情報が増えます。データ品質には、トレーニングに使用する必要があったデータセットの範囲や、そのラベル付けの品質も含まれます。ラベル付けが高度であればあるほど、モデルはより多くのことを行うことができます。解釈する» トレーニング データとリクエスト中に提供されたデータ。

存在する主な言語モデルは何ですか?

数年前に最初の主要な言語モデルが登場して以来、さらに多くの言語モデルが作成されてきました。テキスト生成 AI に関してすでに存在するものの小さなアンソロジー。

GPT d'OpenAI

GPT は最もよく知られており、ChatGPT (名前にあります) の背後にあるもので、間違いなくこれまでで最もアクセスしやすいものの 1 つです。 AI の(メディア、経済的)爆発が始まったのは彼を通してでした。最新バージョンはGPT-4、昨年3月にOpenAIによってリリースされました。彼はまだ「GPT-3.5 よりも信頼性が高く、創造的で、より微妙な命令を処理できます。», 会社を書きました。これは主に、入力としてより多くのコンテキストを処理できるためです (特に画像を処理できるため)。

GPT-4 は Midjourney によって想像されました // 出典: Midjourney by Frandroid

残念ながら、OpenAI という会社の規模、アーキテクチャ、またはトレーニング方法はわかりません。開ける» はまだ詳細を明らかにしていません。ただし、パラメータは 100 兆個あるという噂もあります。、GPT-3の1,750億と比較して。現時点では、GPT-3.5 は ChatGPT 経由で無料で使用でき、GPT-4 は ChatGPT の加入者向けに予約されています。チャットGPTプラス、チャットボットの有料サブスクリプション。にも使用できます副操縦士のチャットボットマイクロソフト、しかし強力ではないバージョンです。

Google の PaLM と Gemini

Google はデジタル巨人として、明らかに人工知能に大きな関心を持っています。その最も強力な LLM は PaLM (Pathways Language Model) と呼ばれます。約 5,400 億のパラメータを備えた最新バージョンは、パルム2(パラメータは 3,400 億個に制限されています)。彼もまた、数学的推論、コード生成、翻訳など、幅広いタスクを担当しています。現時点では、特定の開発者のみがアクセスできます。 Google も、専門子会社 DeepMind を通じて、Med-PaLM、医療上の質問に答えることに特化した言語モデル。彼は米国で医師を開業する許可も得た。

Google PaLM 2 // 出典 : Google

Googleのチャットボット、吟遊詩人ただし、PaLM では機能しませんが、ラMDA(注ぐ対話アプリケーションの言語モデル)、別のビジネス言語モデル。 1,370 億のパラメータを処理し、効率的ですGoogleのエンジニアは自分には知覚力があると思っていたほどだ

2023 年 12 月初旬に、GoogleがGeminiを発表、彼の新しい主要言語モデル。その最も強力なバージョンは GPT-4 よりも優れています。現時点では、この新しい LLM は Google Bard にデプロイされており、今後数か月以内にさらに広範囲にデプロイされる予定です。バージョンも到着しますPixel 8 Pro でローカルで作業する

ゴールフレーム

2023年には、メタ独自の LLM: LLaMA も存在します。大規模言語モデル メタ AI。同社は、会話エージェントやプログラミングアシスタントなど、いくつかの用途を見つけています。既存の最大サイズのバージョンは 650 億パラメータです。昨年の7月、LLaMA2が発表されました無料のLLMとして販売されており、オープンソース、すべてマイクロソフトと提携しています。これは、Azure AI、Windows だけでなく、Qualcomm チップを搭載したスマートフォンにも統合される必要があります。 LLaMA 1 と比較して、LLaMA 2 は 40% 多いデータでトレーニングされました。

L'assistant Meta AI // 出典 : Meta

シンプルな PC 上で動作するように見える AI システム:ここ数か月でデモが急増しました。現時点では、これを使用しているメタ サービスはありませんが、メタがメタAIを提示、で利用可能になるチャットボットワッツアップメッセンジャーインスタグラム、だけでなく、メタレイバンそしてメタクエスト3。副操縦士のような一種のアシスタント、またはスナップチャットマイAI

Grok de xAI (イーロン・マスク)

2023年7月、イーロン・マスク氏が立ち上げたxAIは人工知能の専門会社です。そしてすぐに順番が来ましたグロク、330億のパラメータを備えた独自の言語モデル。特定のタスクでは競合他社よりも優れている可能性があります。他のものとは異なり、「」になりたいと考えています。反逆者» そしてあまりにも制限を設けず、ユーモアと皮肉を使って返答した。いずれにせよ、これは生成されたテキストに見られるものであり、xAI メンバーが共有するスクリーンショットから読み取ることができます。

他の LLM と比較した Grok-1 の結果 // 出典: Frandroid

現時点では、Grok はどこでも入手できませんが、今後数か月以内には入手できるようになるはずです。現時点では、一部の米国ユーザーのみがテストできます。

Samsung ガウス言語

これは最近到着したものの 1 つです。Samsung ガウス言語。 Galaxy AI を強化するのは LLM です。次期Galaxyスマートフォンに統合されるアシスタント。この名前は、正規分布理論が機械学習で使用されている数学者カール・フリードリッヒ・ガウスにちなんで付けられました。

Gauss Language を使用すると、翻訳、文書の要約、電子メールの作成など、さまざまなタスクを実行できます。 Samsung Gauss Code というコンピュータ プログラミング支援専用のバージョンもあります。それにもかかわらず、サムスンは新しいテキスト AI の機能の例を明らかにしていません。

Titan: プロフェッショナル専用の Amazon モデル

それは去年の4月のことでしたアマゾンがTitanを導入、主にテキストを理解できる自家製の言語モデル。確かにそれらを生成することはできますが、実際にはそのように使用することはできません。アマゾン独自のテキストベース AI を作成したい企業向けの基盤として販売しています。現在のところ、利用できる範囲は限られていますが、今後数か月以内に拡大される予定です。

Amazon の生成 AI // 出典: Amazon

L'アレクサLLM最近も存在します。これは、Amazon がより多くの「」を実現するために作成した言語モデルです。知的» 息子アシスタントボーカル。この新しいバージョンのアレクサ2024 年から事前に利用可能になります。

今後数か月以内に他のモデルも登場するはずです。Googleは特にGeminiのベールを取り除いた、そして他のプレーヤーが代替ソリューションを持って現れる可能性があります。


知っていましたか? Google ニュースではメディアを選択できます。お見逃しなくフランアンドロイドなどヌメラマ