Microsoft は、Phi-1 と呼ばれる新しい言語モデルを発表しました。 GPT-3.5 のパラメーターは 1,000 億個であるのに対し、後者には 13 億個しかありません。しかし、この最新の追加機能はいくつかの点でそれを上回っています。少ないリソースとコンピューティング能力でより多くのことを行うのに十分です。

したがって、Phi-1 は次の言語モデルです。人工知能(Python による) コンピューター プログラミングに特化しており、主な特徴はそのサイズです。多くの競合他社よりも小型であり、これは設計者によって完全に想定されています。

「」と呼ばれるアーキテクチャに基づいています。トランス» 13 億のパラメータを持ちます。彼は8日間のうちわずか3日間で訓練を受けたNvidia 製 GPU A100。一部のトレーニング データは手動でインターネットから取得されますが、その他は GPT-3.5 によって自動的に生成されます。

これを達成するために、マイクロソフトの研究者は、Phi-1 によって取り込まれるデータの量よりも質を優先しました。より良いデータがより良い結果につながることは長い間知られていました」。彼らにとって、「データ クリーニングは最新のデータセット作成の重要な部分であり、データセットの小型化などの二次的なメリットも生み出すことができます。»

単純な技術デモンストレーションを超えて、Microsoft は次のことを示したいと考えています。コード生成タスクにおける言語モデルの習熟度を向上させる際の、高品質データの顕著な影響。» Phi-1 は、必要なトレーニングが少なく、したがって計算能力も低いため、GPT-3.5 などの競合製品に比べてもう 1 つの利点があります。生態学的利点:「LLM» (大規模な言語モデル)、非常に大きなコンピューティング能力を必要とするため、サーバーは一定時間継続的に実行されます。

コストがかかると、サーバーの使用と冷却のために生成されるすべてのエネルギーを含め、環境にもコストがかかります。パラメータをできるだけ少なくしたモデルを使用することも、より環境に優しいです。

ただし、この方法の一般化には依然として限界があります。信頼できる適切にラベル付けされたデータを取得するにはコストがかかり、AI のトレーニングが労働者の搾取につながる可能性があります。研究者らは、それが必要であると書いている。データセットが、モデルに学習させたいすべての関連コンテンツと概念をカバーし、バランスのとれた代表的な方法で学習させることを保証します。»