口を開けば、ロボットが皿洗いや掃除を手伝ってくれる？FigureはAIモデル「Helix」を導入し、家事革命を目指す

Question

新興企業Figure AIは、人間型ロボット用の新しいAIモデル「Helix」を独自に開発しました。このモデルは2台のロボットを同時に制御し、これまでに見たことのない物にもスムーズに対応できます。これらの特徴は、Figure AIが「家庭用ロボット」市場に進出するための土台となっています。（前回のニュース：マスクの「最強AI」Grok 3が無料でユーザーに公開：サーバーがクラッシュするまで！（チュートリアルを含む））（背景情報：OpenAI初のAIエージェント「Operator」登場！買い物、チケット予約、デリバリー注文などの煩わしいウェブタスクを解決） 人型ロボットの新興企業Figure AIの創業者兼CEOであるBrett Adcockは、昨日、人間型ロボット用の新しいAIモデル「Helix」を発表しました。数週間前、同社はOpenAIとの提携を断念することを決定し、それまでに30日以内に「人間型ロボットが見たことのないもの」を自主開発し、リリースすると発表していました。現時点では、その「何か」とはおそらくHelixのことでしょう。 画期的なデュアルシステムVLAモデルによるロボット制御 Tech crunchの科学技術メディアによると、Helixは汎用の「視覚-言語-アクション（Vision-Language-Action, VLA）モデル」であり、視覚と言語の命令を利用して情報を処理します。現在、このカテゴリで最も有名なのはGoogle DeepMindのRT-2であり、このモデルはビデオと大規模言語モデル（LLM）を組み合わせてロボットを訓練しています。そしてHelixの動作方法も同様であり、視覚データと言語の指示を組み合わせてリアルタイムにロボットを制御します。Figureによると、Helixは強力なオブジェクト汎化能力を示し、自然言語の指示で数千種類の見たことのない家庭用品を取り、その形状、サイズ、色、素材に関係なく取り扱うことができます。理想的な状況では、ユーザーはロボットに音声指示を出すだけで、対応する動作を行うことができます。Helixの画期的な点は、初のデュアルシステムVLAモデルであることです。Figure AIによると、Helixは人間型ロボットの上半身を高速かつ器用に制御することができます。これは、過去に直面した問題に対処するためです。「VLM（Vision-Language Model）は汎用的ですが速くはありません。一方、ロボットの視覚運動戦略を使用すると速いですが、汎用的ではありません」。そのため、Helixは問題を解決するために2つの補完システムを統合しています。 同時に2台のロボットを制御するVLAモデル さらに、Figureはロボットの実際の操作例をいくつか提供しています。例えば、「右側のロボットにクッキーの袋を渡してください」とか、「左側のロボットからクッキーの袋を受け取り、それを開いている引き出しに入れてください」などです。しかし、なぜ2台のロボットを使ってデモを行うのか、という疑問も生じます。Figureは、Helixが2台のロボットを同時に制御できるように設計されているため、それぞれが家事を助け合い、Helixは初めて2台のロボットを同時に操作できるVLAモデルであると述べています。この突破により、ロボットは未知の物にもスムーズに対処する長いシーケンスの操作タスクを共同で処理できるようになります。家庭環境でロボットを実際に活用するためには、これらのロボットは見たことのない物に対応する能力を随時発揮できる必要があります。特に、見たことのない物に対しては特にそうです。 また、Figure AIは、彼らがテストで2つの大きな突破を示したと述べています： これらのロボットは、訓練中に見たことのない食料雑貨を成功裏に操作し、さまざまな形状、サイズ、素材に対する強力な汎用能力を示しました。 2台のロボットは同じHelixモデルウェイトを使用し、個々のロボットに特定のトレーニングを行う必要はありません。