AIモデルのなかでも大規模言語モデル(LLM:large language model)はうまく機能する。なぜなら極めて規模が大きいだからだ。OpenAI、メタ・プラットフォームズ、そしてDeepSeekの提供する最新のAIモデルでは、数千億の「パラメーター(データ同士のつながり具合を決める調整つまみのようなもので、学習過程においてはそれらが微調整されていく)」が使われている。
パラメーターが多いと、AIモデルはよりよくパターンや関係性を認識できるようになる。それによって、より強力でより正確になるというわけだ。
LLMはエネルギーの大食漢
だがその力を獲得するためには費用がかかる。数千億のパラメーターを備えたAIモデルの学習には、莫大な計算資源が必要となるのだ。例えばFemini 1.0 UltraというAIモデルの学習過程において、グーグルは1億9,100万ドル(約280億円)を費やしたとされる。
大規模言語モデルはまた、ひとつのタスクをこなすたびに相当に大きな計算能力を必要とする。そのことから、LLMはエネルギーの大食漢として悪名高い。電力研究所(Electric Power Research Institute)によれば、CharGPTへの1回のクエリ(処理要求)で、Google検索1回にかかるエネルギーの10倍が消費されるのだ。
それに対して、いま、小さな規模で考えている研究者たちがいる。IBM、グーグル、そしてOpenAIは揃って、数十億程度のパラメーター──これはLLMのパラメーター数に比べればほんのわずかだ──を使う小規模言語モデル(SLM:small language models)をリリースしたばかりだ。
SLMを教育するのは知識蒸留法
小規模言語モデルはLLMとは異なり、汎用ツールとしては使われない。だがSLMは、限定的な、より狭い用途において高いパフォーマンスを発揮することができる。例えば、会話を要約する、医療用のチャットボットとして患者の質問に答える、そしてパソコンなどのスマートデバイスからデータを集めるといったタスクだ。
「多くのタスクでは、実のところ、80億程度のパラメーターをもつAIモデルがかなり有効なのです」。そう語るのは、カーネギー・メロン大学のコンピューターサイエンティスト、ジコ・コルターだ。またSLMは、巨大なデータセンターではなく、ノートパソコンもしくは携帯電話でも走らせることができる(「小規模」の定義についてのコンセンサスはない。だが新しいモデルはすべて、パラメーター数上限が約100億だ)。
これら小規模モデルの学習過程を最適化するために、研究者たちはいくつかのトリックを用いる。大規模モデルは、しばしば生のトレーニングデータをインターネットからかき集めてくる。まとまりがなく乱雑で、処理しにくいデータだ。しかし大規模モデルはそこから質の高いデータセットを生成する。それを、小規模モデルの学習に用いることができるのだ。
知識蒸留(knowledge distillation)と呼ばれるこの方法では教師が生徒に教えるようにして、大規模モデルが学習した知識を小規模モデルに伝えていく。「SLMが、それほどまでに小規模なモデルとそれほどまでに少ないデータで高度な性能を獲得できるのは、乱雑なデータではなく質の高いデータを利用するからなのです」とコルターは言う。
LLMを剪定(プルーミング)する
研究者たちはまた、大規模モデルを切り詰めていくことで小規模モデルをつくり出す方法も探ってきた。そのひとつの方法はプルーニング(剪定)と呼ばれる。これは、ニューラルネットワーク──コネクテッドデータが無秩序に拡がっている網の目──から、大規模モデルにとっては不要だったり非効率的だったりする部分を取り除いていくというものだ。
プルーニングの着想源となったのは、現実のニューラルネットワーク(神経回路網)、すなわち人間の脳である。脳は、その人が歳を重ねるとともにシナプスの接続を断ち切っていくことで、パフォーマンスの効率を高めていく。
今日のプルーニングという考え方は、現在メタにいるコンピューターサイエンティストのヤン・ルカンが1989年に発表した論文にまで遡る。そこで主張されていたのは、機械学習したニューラルネットワークがもっているパラメーターのうち最大90%までを取り除いても、その性能は損なわれないということだった。
関連記事:メタでチーフAIサイエンティストを務めるヤン・ルカンへのインタビューはこちら
ルカンは、この方法論を「最適な脳細胞死(Optimal Brain Damage)」と呼んだ。プルーニングは、小規模言語モデルを特定のタスクや環境に合わせて微調整していくに際して、研究者たちの助けとなるのだ。
言語モデルの仕組みに興味をもっている研究者たちは、小規模モデルを活用して、斬新なアイデアを廉価に試すことができる。また、大規模モデルに比べてパラメーター数が少ないがゆえに、小規模モデルの論理的思考の仕組みはよりわかりやすいものと考えられる。
「新しいAIモデルをつくるには、いろんなことを試さねばなりません」と話すのは、MIT-IBM Watson AIラボのレシェム・チョーシェンだ。「小規模モデルを使えば、研究者たちは大きなリスクを負うことなく実験できるのです」
パラメーター数が増えていく一方の大規模で高価なモデルは、汎用チャットボット、画像生成、そして創薬といった用途において、今後も役に立っていくはずだ。だが多くのユーザーにとっては、小規模で用途を絞ったモデルが有効だし、研究者にとっても学習とビルド作業において利用しやすいものとなるはずだ。「これら効率的なモデルでは、資金も時間も計算能力も抑えることができるのです」とチョーシェンは話す。
※本記事は、サイモンズ財団が運営する『Quanta Magazine』(編集については同財団から独立)から許可を得て、転載されたオリジナルストーリーである。同財団は、数学および物理・生命科学の研究開発と動向を取り上げることによって、科学に対する一般の理解を深めることを使命としている。
(Originally published on Quanta Magazine, translated by Ryo Shinagawa/LIBER, edited by Nobuko Igari)
※『WIRED』による大規模言語モデルの関連記事はこちら、生成AIの関連記事はこちら。
雑誌『WIRED』日本版 VOL.56
「Quantumpedia:その先の量子コンピューター」好評発売中!
従来の古典コンピューターが、「人間が設計した論理と回路」によって【計算を定義する】ものだとすれば、量子コンピューターは、「自然そのものがもつ情報処理のリズム」──複数の可能性がゆらぐように共存し、それらが干渉し、もつれ合いながら、最適な解へと収束していく流れ──に乗ることで、【計算を引き出す】アプローチと捉えることができる。言い換えるなら、自然の深層に刻まれた無数の可能態と、われら人類との“結び目”になりうる存在。それが、量子コンピューターだ。そんな量子コンピューターは、これからの社会に、文化に、産業に、いかなる変革をもたらすのだろうか? 来たるべき「2030年代(クオンタム・エイジ)」に向けた必読の「量子技術百科(クオンタムペディア)」!詳細はこちら。