アメリカの企業Databricksは4月12日、無料のオープンソース言語モデルであるDolly 2.0を公開した。野心は明らかです。それは、ChatGPT よりも倫理的で優れた AI にすることです。
今年の初めからのテクノロジーの主なトレンドの 1 つは、間違いなく次のとおりです。チャットGPT、より広範には大規模言語モデル (英語では LLM と略されます)大規模な言語モデル)、 としてグーグル吟遊詩人またはクロード。しかし、これらすべての取り組みは現在非公開であり、人工知能誰でもそうです。したがって、私たちはそのソースコードを知りませんし、一般の人々の目には多かれ少なかれブラックボックスです。
オープンソースと研究の世界から来たと主張するアメリカの企業 Databricks が変えようとしている哲学。彼女は 4 月 12 日に Dolly 2.0 を公開しました。、ChatGPT と競合したいと考えている独自の LLM。
より正確に言いたければ、次のように話さなければなりません。GPT-4それは、私たちが話しているのは言語モデルであり、会話エージェント (ChatGPT がそれです) ではないからです。 Dolly 2.0 のリリースは、最初のバージョンのリリースからわずか 2 週間後に行われます。 Databricks の場合は、「人間が生成した命令のデータセットに基づいて開発され、研究および商用利用が許可された、命令に従う最初のオープンソース LLM。»
したがって、これは 120 億のパラメーターに基づく言語モデルです。このように言うと、1,750 億個のパラメータを使用する GPT-3.5 よりも効率がかなり低いと思われるかもしれません。GPT-4 では 100 兆億を使用します。これは、パラメータの数と「公演» は直線的ではありません。このギャップは、トレーニングとデータ提供の方法によっても説明できます。 Databricks は、データセットは次のように説明しています。従業員間のクラウドソーシングにより取得»。
Dolly 2.0 のソース コードはオープン アクセスであり、ひいては無料です。 Databricks は、これには「トレーニング コード、データセット、モデルの重みはすべて商用利用に適しています。これは、API アクセスに料金を支払ったり、サードパーティとデータを共有したりすることなく、あらゆる組織が人々と通信できる強力な LLM を作成、所有、カスタマイズできることを意味します。»
皮肉なことに、Databricks は、Dolly 1.0 が訓練されていることを認めています。30ドルで» Stanford Alpaca チームが作成したデータセットから OpenAI API を使用します。しかし、後者が指摘したように、OpenAI の利用規約により、GPT と競合する言語モデルを作成することはできません。 Dolly 2.0 に由来しないデータを使用して Dolly 2.0 をトレーニングするということは、ユーザーがこの LLM を商用利用できるようにすることも意味します。
これは設計から始まります。Databricks は、データ処理に細心の注意を払っていると述べています。時間昨年1月に明らかにしたOpenAIはケニアで下請けを利用していた労働者を搾取していた会社を通じて。 Databricks は、約 5,000 人の従業員によって作成された 15,000 のクエリ/応答ペアで構成されるセットを通じて、使用されたトレーニング データも公開しました。ただし、これがどのように実装されたかについては議論の余地があるかもしれません。
同社は従業員について次のように説明している。彼らは皆非常に忙しく、フルタイムの仕事を持っていたので、私たちは彼らにそうするよう奨励しなければなりませんでした。» これを改善するために、彼女はコンテストを企画しました。」上位 20 名のタグ付け者には多額の報酬が与えられます。» たとえ競争が義務付けられていなかったとしても、従業員の公務時間内にこれを組織しなかったのは有害であると考えることができます。タグ付けは、いくつかのタイプの質問 (オープン、広範、正確、物議を醸すなど) を作成し、Dolly 2.0 の回答をメモするために使用されます。
Dolly 2.0 はどのようにして OpenAI や ChatGPT と実際に競合できるのか
Databricks のブログ投稿が興味深いのは、そこに何が書かれていないのかということです。もし彼が自分のモデルが「ChatGPT と入力します» しかし、彼は彼を批判しません。しかし、注意深く読むと、Dolly 2.0 の議論は ChatGPT が批判されている点を正していることがわかります。
会社にとって、これらの研修は「ブレーンストーミングやコンテンツ生成から情報の抽出や合成まで、幅広い行動を表すように設計されています。» このタイプの LLM の悪用を防ぐ 1 つの方法。これはたとえGPT-3.5は若者に卑劣なアドバイスを与えているとして批判されている。
彼がそうだという事実についてオープンソース, Databricksは、アルゴリズムが保護されているOpenAIとは相反する立場にある。しかし、ご指摘の通りヌメラマ, OpenAIはもともとオープンソースプロジェクトに取り組んでいた。創設者の一人であるイリヤ・サツケヴァー氏がインタビューで説明したように、同社はその後好転を遂げた。ザ・ヴァージ。彼は、AI がいかに強力であるか、またその可能性があることを認識したと述べ、AI をすべての人の手に委ねることは非常に悪い考えになると述べました。おそらく Databricks にとって、この点については触れられていませんでしたが、AI をアクセス可能にするという事実こそが、犯される可能性のある不正行為から身を守ることになるのです。
自分のサーバー上で Dolly を使用できるため、ChatGPT が示すデータ保護の問題が修正されます。数週間前、私たちはそれを知りましたイタリアはこれらの理由で OpenAI ツールをブロックしました。彼としては、サムスンは、一部の従業員が機密データをChatGPTに預けていたことを発見した。
このDatabricks AIは何に使われるのでしょうか?
Dolly 2.0 の応答を通じて、この人工知能がうまく機能すると考えることができるとしても、それは「」とはほど遠いことに注意する必要があります。強力な» ChatGPT より。しかし、Databricks はこれを次のように認識しています。技術的および研究成果物であるため、Dolly が効率の点で最先端であるとは期待していません。»
興味深いのは、Dolly 2.0 から何が起こるかということです。」私たちは、Dolly とオープンソース データセットが将来の豊富な研究の基礎として機能し、さらに強力な言語モデルをブートストラップするために使用できると信じています。» これは、LLaMa、LLM の内容です。メタ。部分的にオープンソース、そのコードがインターネット上に漏洩したため、いくつかのツールの出現が可能になりました。ある開発者は、コンピューター上で AI を実行する。それでも必要になるだろうそれを使用して開発されたツールに注意してください。マルウェア。
Databricks の予算では、LLM を十分な期間トレーニングすることができないと考えられるかもしれません。このような AI を大規模にトレーニングまたは運用するには、非常に費用がかかることを覚えておく必要があります。 Google の幹部の一人はこう言いました。AI検索を使い始めたら、Googleの運営コストは10倍になる。自動生成された AI を実行するサーバーは非常に成長しており、新たなグラフィックスカード不足につながる可能性がある。
隔週木曜日の午後 5 時から 7 時まで開催されるショーにご参加ください。ロックを解除するによって制作されましたフランアンドロイドなどヌメラマ!技術ニュース、インタビュー、ヒントと分析…またお会いしましょうTwitchでライブ配信するもしくは再放送でYouTube で!