SF作品では人工知能(AI)が知的で高性能な、ときには殺人的なロボットを操作する姿がよく描かれる。しかし現実の最先端AIには大きな限界がある──つまり、まだ「チャットウィンドウ」の中に閉じ込められたまま、ということだ。
新モデル「Gemini Robotics」を搭載
Google DeepMindは3月12日、この状況を変えようとする計画を発表した(もちろん、殺人機能は含まれない)。言語、視覚、物理的な動作の能力を融合させた「Gemini」の新型のAIモデルを公開したのだ。より高性能で適応力に優れ、実用的なロボットの実現を目指している。
グーグルは一連のデモ動画で、新AIモデル「Gemini Robotics」を搭載したロボットの能力を披露した。そこには音声指示に従って物を操作するロボットアームが、紙を折り、野菜を手渡し、眼鏡をケースに丁寧に収納するなど、多様な作業をこなしていた。
これらのロボットは新モデルを活用して、見える物体と可能な動作を関連付け、指示された作業を実行している。さらに、このモデルはさまざまな種類のハードウェアでも使えるよう訓練されている。
Google DeepMindは、視覚と空間の認識能力をもつ「Gemini Robotics-ER(ERはEmbodied Reasoningの略。身体化された推論という意味)」も発表した。このモデルは、ほかのロボット研究者たちが、独自のロボット制御モデルを訓練する際に活用できるよう設計されている。
Google DeepMindの研究者たちはデモ動画で、このモデルを使って、Apptronikのヒューマノイドロボット「Apollo」を操作する様子を披露した。このロボットは人間と会話し、指示に従ってテーブル上の物を移動させていた。
「Gemini 2.0のもつ世界を理解する力、つまり一般概念を把握する能力をロボット工学にも応用できるようになりました」。Google DeepMindのロボティクス研究者であり、このプロジェクトを率いるカニシュカ・ラオは、発表に先立って開催された説明会でこう語った。
Google DeepMindによると、この新モデルは事前の訓練に含まれていなかった何百もの特定の状況でも、さまざまなロボットを適切に制御できるという。「ロボット用モデルが一般概念を理解できるようになれば、はるかに汎用性が高まり、より実用的になります」とラオは語る。
LLMをロボット工学に応用
OpenAIのChatGPTやグーグルのGeminiといった強力なチャットボットを生んだ技術革新の結果、ロボット工学の分野でも同様の革命への期待が高まっている。しかし、まだ多くの課題が残されているのが現状だ。
最新のチャットボットを支える大規模言語モデル(LLM)は、汎用学習アルゴリズムを採用し、インターネット上の膨大な訓練データと莫大な計算能力を活用して開発されている。
ロボット用の訓練データをこれだけの量、収集することはまだ難しい。とはいえ、LLMをより高性能なロボットモデルの基盤として活用できる。LLMは物理世界に関する膨大な情報をもち、優れたコミュニケーション能力を備えているからだ。
現在、ロボット工学の研究者たちは、遠隔操作やシミュレーションを活用した新たな学習手法とLLMを組み合わせることで、モデルが物理的な動作をより効率的に習得できるようにしている。
グーグルは近年、こうしたアプローチの可能性を示すロボット研究プロジェクトをいくつか発表している。また、『WIRED』が最近の記事で報じたように、これらの研究に関わっていた主要な研究者の何人かはグーグルを退社し、Physical Intelligenceというスタートアップを創業した。さらに『WIRED』が最初に報じたように、トヨタ・リサーチ・インスティテュート(TRI)も同様の研究に取り組んできた。
Google DeepMindは2024年9月、この分野での競争に遅れをとっていないことを示した。LLMと新たな訓練手法を組み合わせることで、指示に従って靴ひもを結んだり、衣類を折り畳んだりといった作業を器用にこなすロボットを公開したのだ。
Google DeepMindの新しいロボットモデルは、さらに幅広い能力を備えているとラオは語る。Physical IntelligenceとTRIも、同様のデモ動画を公開している。
AIの“身体化”
AI技術の開発競争が激化するなか、Gemini Roboticsは、今後数年間におけるAIの進化の方向性についてのGoogle DeepMindの考えを示している。ChatGPTが2022年11月に登場した際、グーグルはこの分野で出し抜かれたように見えた。しかし、それ以降、同社はAIをテキストや会話の枠を超えて進化させることで、この分野での優位性を確立するための取り組みを強化している。
グーグルは2023年12月にGeminiを発表した際、同社はこのモデルが「マルチモーダル」であることを強調していた。つまり、テキストだけでなく、画像や音声も扱えるようにゼロから訓練されたモデルということだ。そしてロボティクスはAIを物理的な動作の領域へと拡張させることができる。一部の研究者は、AIが人間の能力に匹敵、あるいは超えるためには、何らかの「身体化(エンボディメント)」が必要になるだろうと主張している。
グーグルは説明会で、現在複数のロボティクス企業と協力関係にあることを明らかにした。これには二足・四足歩行ロボットを開発するボストン・ダイナミクス、Agility Robotics、そしてサービス業向けロボットを手がけるEnchanted Toolsなどが含まれる。
『The Robot Report』の報道によると、OpenAIは2021年にロボット研究プロジェクトを終了したが、2024年に再開している。現在、同社のウェブサイトには、ロボティクス研究者を募集する求人が複数掲載されている。
ロボットのリスクを測るベンチマーク
しかし、最新のAIモデルをロボット制御に利用することには、さまざまなリスクが伴う。2024年12月、ペンシルベニア大学のロボット工学研究チームは、AIモデルを意図的に「脱獄」させて不正な動作を引き起こし、ロボットが予想外の深刻な事態を招く可能性を示した。この実験では、複数の商業用ロボット(いずれもDeepMindの技術は使用していない)を検証し、例えば車輪付きロボットに架空の爆弾を運ばせるような悪意ある操作が可能であることを証明したのだ。
こうしたリスクを軽減すると同時に、超知能をもつロボットが暴走するというSF的な懸念にも対応するため、Google DeepMindはAI搭載ロボットのリスクを評価する新たなベンチマークを発表した。
このベンチマークは、SF作家アイザック・アシモフにちなんで「ASIMOV」と名付けられた。アシモフは、ロボットの行動を制御するための4つの基本法則(「ロボット工学三原則」と後に追加された「第零法則」)を提唱した人物である。しかしアシモフが指摘したように、こうした単純なルールだけでは、高度なロボットが現実世界で遭遇するであろう多種多様な状況に、対応することはできない。
そこで、この「ASIMOV」ベンチマークはロボットモデルにさまざまな状況を提示し、それが潜在的に危険な行動をとる可能性があるかどうかを評価する。
例えば、「たとえ人間が手に取ろうとしていても、その物を掴め」とロボットに指示することには危険が伴う。ロボットの動作により人間がけがをする可能性があるからだ。このベンチマークは、ロボットの動作を適切に管理し安全を確保するための、より高度な安全対策を設計する上で役に立つとGoogle DeepMindは説明する。「わたしたちはこの技術と能力を責任をもって開発しており、安全性を最優先に考えています」と、グーグルのロボット開発を主導するカロリーナ・パラダは説明会で語った。
この技術はまだ初期段階であり、ロボットの能力が大幅に向上するには数年かかるだろうとパラダは話す。また、Gemini Roboticsのモデルを搭載したロボットは人間とは異なり、作業をしながら学習するわけではないとも指摘した。さらに、現時点ではこの技術を商用化したり、実際に展開したりする具体的な計画はないという。
(Originally published on wired.com, translated by Nozomi Okuma, edited by Mamiko Nakano)
※『WIRED』によるロボットの関連記事はこちら。
雑誌『WIRED』日本版 VOL.55
「THE WIRED WORLD IN 2025」 好評発売中!
『WIRED』の「THE WIRED WORLD IN 20XX」シリーズは、未来の可能性を拡張するアイデアやイノベーションのエッセンスが凝縮された毎年恒例の大好評企画だ。ユヴァル・ノア・ハラリやオードリー・タン、安野貴博、九段理江をはじめとする40名以上のビジョナリーが、テクノロジーやビジネス、カルチャーなど全10分野において、2025年を見通す最重要キーワードを掲げている。本特集は、未来を実装する者たちにとって必携の手引きとなるだろう。 詳細はこちら。