This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Pantera Partners:暗号を利用したAIボットの時代
執筆者:Paul Veradittakit、Pantera Capitalパートナー
コンパイラ:xiaozou、Golden Finance
概要:***
VLAの革新とスケールメリットが、経済的で効率的かつ汎用型のヒューマノイドロボットの誕生を推進しています。
消費者向けロボット市場への倉庫ボットの拡大に伴い、ロボットの安全性、資金調達、評価メカニズムについての深い探求が必要です。
暗号化技術は、ボットの安全に経済的保証を提供し、その接続インフラ、レイテンシー、データ収集プロセスを最適化することで、ボット業界の発展を促進します。
ChatGPTは、人類の人工知能に対する認識の期待を根本的に変えました。大規模言語モデルが外部ソフトウェアの世界と相互作用し始めたとき、多くの人々はAIエージェントが究極の形態であると考えていました。しかし、『スター・ウォーズ』、『ブレードランナー』、または『ロボコップ』といったクラシックなSF映画を振り返ると、人類が本当に夢見ているのは、人工知能がボットの形で物理的世界と相互作用することだとわかります。
Pantera Capitalによれば、ボット分野の「ChatGPTの瞬間」がやってくるようです。まず、過去数年間の人工知能の突破が業界の構図をどのように変えたかを分析し、その後、バッテリー技術、レイテンシーの最適化、データ収集の改善が未来の景観をどのように形作るか、そして暗号化技術がその中で果たす役割について探ります。最後に、ボットの安全性、資金調達、評価、教育が重点的に注目すべき垂直分野であると考える理由を説明します。
1. 変化の要素
(1) 人工知能のブレークスルー
多モーダル大言語モデル分野の進展は、ボットが複雑なタスクを実行するために必要な「脳」を与えています。ボットは主に視覚と聴覚の2つの感覚を通じて環境を認識します。
従来のコンピュータビジョンモデル(例えば、畳み込みニューラルネットワーク)は物体検出や分類タスクに優れていますが、視覚情報を目的の行動指示に変換するのが難しいです。大規模言語モデルはテキストの理解と生成において卓越した性能を発揮しますが、物理的な世界に対する知覚能力が制限されています。
!
視覚 - 言語 - 行動モデル(VLA)を通じて、ボットは統一された計算フレームワークの中で視覚的知覚、言語理解、実体行動を統合することができます。2025年2月、Figure AIは汎用ヒューマノイドロボット制御モデルHelixを発表しました。このVLAモデルは、ゼロショット一般化能力とシステム1/システム2の二重アーキテクチャによって業界の新たな基準を確立しました。ゼロショット一般化特性により、ボットは各タスクごとに繰り返し訓練することなく、新しいシーン、新しい物体、新しい指示に即座に適応することができます。システム1/システム2アーキテクチャは、高次推論と軽量推論を分離し、人間の思考とリアルタイムの精度を兼ね備えた商業用ヒューマノイドロボットを実現しました。
(2)経済型ボットが現実になる
世界を変える技術は、普遍性という共通の特徴を持っています。スマートフォン、パソコン、3Dプリント技術は中産階級が手の届く価格で普及しています。Unitree G1のようなボットの価格がホンダアコードやアメリカの34,000ドルの最低年収を下回るとき、肉体労働や日常業務が主にボットによって行われる世界を想像するのは不思議ではありません。
!
(3)倉庫から消費者市場へ移行する
ボット技術は倉庫ソリューションから消費分野へと拡大しています。この世界は人間のために設計されており、人間はすべての専門ボットの仕事をこなすことができる一方で、専門ボットはすべての人間の仕事をこなすことはできません。ボット会社はもはや製造工場専用のボットの製造に限定されず、より汎用性のあるヒューマノイドボットの開発に移行しています。したがって、ボット技術の最前線は倉庫だけにとどまらず、日常生活に浸透していくでしょう。
コストはスケーラビリティの主要なボトルネックの一つです。私たちが最も重視する指標は、毎時の総コストであり、その計算方法は、トレーニングと充電の時間の機会コスト、タスク実行コスト、及びボットの購入コストの合計をボットの総稼働時間で割ったものです。このコストは、関連業界の平均給与水準を下回る必要があります。
!
倉庫分野に全面的に浸透するためには、ボットの時間あたりの総コストは31.39ドル未満でなければなりません。そして、最大の消費者市場であるプライベート教育および健康サービス分野では、そのコストを35.18ドル以下に抑える必要があります。現在、ボットはより安価で、より効率的で、より汎用的な方向に進化しています。
2、ボット技術の次の突破口
(1)バッテリー最適化
バッテリー技術は常にユーザーフレンドリーなボットのボトルネックです。初期のBMW i3などの電気自動車は、バッテリー技術の制限により航続距離が短く、コストが高く、実用性が低いため普及が難しかったが、ボットも同じ困難に直面しています。ボストンダイナミクスのSpotボットは、単回の航続時間がわずか90分で、Unitree G1のバッテリー航続時間は約2時間です。ユーザーは明らかに2時間ごとに手動で充電することを望んでおらず、自律充電と接続インフラが重要な発展方向となっています。現在、ボットの充電には主に2つのモードがあります:バッテリー交換または直接充電。
バッテリー交換モードは、消耗したバッテリーグループを迅速に交換することで継続的な作業を実現し、ダウンタイムを最小限に抑え、野外または工場のシナリオに適しています。このプロセスは手動操作でも自動化でも行うことができます。
感応充電はワイヤレス電源供給方式を採用しており、完全充電には時間がかかりますが、全自動化プロセスを簡単に実現できます。
(2)レイテンシー最適化
低レイテンシー操作は、環境認識と遠隔操作の2つのカテゴリに分けることができます。認識はボットの環境に対する空間認知能力を指し、遠隔操作は人間オペレーターのリアルタイム制御を特に指します。
Cintriniの研究によると、ボットのセンサーシステムは安価なセンサーから始まりますが、技術の競争優位性はソフトウェアの統合、低消費電力の計算、およびミリ秒単位の精密制御回路にあります。ボットが空間定位を完了すると、軽量のニューラルネットワークが障害物、パレット、人間などの要素をマークします。シーンラベルがプランニングシステムに入力されると、即座に足部、ホイールグループ、またはアームに送信されるモーター指令が生成されます。50ミリ秒未満の感知レイテンシーは、人間の反射速度に相当します——この閾値を超えるレイテンシーはボットの動作をぎこちなくします。したがって、90%の意思決定は単一の視覚 - 言語 - 行動ネットワークによってローカルで完了する必要があります。
完全自律ボットは高性能VLAモデルのレイテンシーが50ミリ秒未満であることを保証する必要があります。リモート操作のボットの場合は、操作端とボット間の信号レイテンシーが50ミリ秒を超えないことが求められます。ここでのVLAモデルの重要性は特に明らかです——視覚とテキスト入力がそれぞれ異なるモデルによって処理された後、大型言語モデルに入力されると、全体のレイテンシーは50ミリ秒の閾値を大幅に超えることになります。
(3) データ収集の最適化
データ収集には主に3つの方法があります:現実世界のビデオデータ、合成データ、リモート操作データです。現実データと合成データの核心的なボトルネックは、ロボットの物理的な行動とビデオ/シミュレーションモデル間の差異を埋めることです。現実のビデオデータは力フィードバック、関節運動誤差、材料変形などの物理的な詳細が欠けています;シミュレーションデータはセンサーの故障、摩擦係数などの予測不可能な変数が不足しています。
最も可能性のあるデータ収集方法はリモート操作であり、人間のオペレーターがボットを遠隔で制御してタスクを実行します。しかし、人件費はリモート操作によるデータ収集の主な制約要因です。
カスタムハードウェアの開発は、高品質なデータ収集に新しいソリューションを提供しています。Mecka社は主流の方法とカスタムハードウェアを組み合わせて、多次元の人間の運動データを収集し、処理後にボットの神経ネットワークトレーニングに適したデータセットに変換します。迅速なイテレーションサイクルと組み合わせることで、AIロボットのトレーニングに膨大な高品質データを提供します。これらの技術パイプラインは、原始データから展開可能なロボットへの変換経路を短縮します。
3. 探索するエリアに焦点を当てる
(1)暗号化技術とボットの融合
暗号化技術は、非信任者にボットネットワークの効率を向上させるインセンティブを提供します。前述の重要な分野に基づき、私たちは暗号化技術がインフラストラクチャの接続、レイテンシー最適化、データ収集の三つの面で効率を向上させると考えています。
分散型物理インフラネットワーク(DePIN)は、充電インフラを革新することが期待されています。人型ボットが自動車のように世界中で運行されるとき、充電ステーションはガソリンスタンドのように手の届くところに必要です。中央集権型ネットワークは巨額の前期投資を必要としますが、DePINはコストをノードオペレーターに分散させ、充電施設を迅速により多くの地域に拡大します。
DePINは分散型インフラストラクチャを利用して遠隔操作のレイテンシーを最適化することもできます。地理的に分散したエッジノードの計算リソースを集約することにより、遠隔操作の指示はローカルまたは最も近くの利用可能なノードによって処理され、データ転送距離を最大限に短縮し、通信のレイテンシーを大幅に削減します。しかし、現在のDePINプロジェクトは主に分散型ストレージ、コンテンツ配信、帯域幅共有に焦点を当てており、プロジェクトはエッジコンピューティングのストリーミングメディアやIoTでの応用の利点を示しているものの、ボットや遠隔操作の領域にはまだ広がっていません。
リモートコントロールは最も有望なデータ収集方法ですが、中央集権的な実体が専門の人員を雇ってデータを収集するコストは非常に高いです。DePINは、暗号化トークンを通じて第三者にリモートコントロールデータを提供するよう促すことでこの問題を解決します。Rebornプロジェクトは、世界的なリモートオペレーターのネットワークを構築し、その貢献をトークン化されたデジタル資産に変換し、許可なしの分散型システムを形成します——参加者は利益を得るだけでなく、ガバナンスにも参加し、AGIボットのトレーニングを支援することができます。
(2)セキュリティは常に核心的な関心事です
ボット技術の終極目標は完全自主化を実現することですが、『ターミネーター』シリーズの映画が警告しているように、人類が最も望まないのは自主性がボットを攻撃的な武器に変えることです。大規模言語モデルの安全問題は関心を呼び起こしており、これらのモデルが実体行動能力を持つとき、ボットの安全は社会的受容の重要な前提となります。
経済安全はボットエコシステムの繁栄の柱の一つです。この分野のOpenMind社は、FABRICを構築しています——これは、暗号化証明を通じてデバイスのID認証、物理的存在の検証、リソースの取得を実現する分散型のマシンコーディネーションレイヤーです。単純なタスクマーケット管理とは異なり、FABRICはボットが集中型の仲介者に依存せず、自立してID情報、地理的位置、行動記録を証明できるようにします。
行動制約と身分認証は、チェーン上のメカニズムによって実行され、誰でもコンプライアンスを監査できることを保証します。安全基準、品質要件および地域規範に適合したボットは報酬を受け、違反者は罰則または資格の取り消しに直面し、自律型マシンネットワーク内で責任と信頼のメカニズムを確立します。
第三者再担保ネットワーク(例:Symbiotic)も同等のセキュリティ保証を提供できます。罰則パラメータシステムはまだ改善の余地がありますが、関連技術は実用段階に入っています。業界のセキュリティ基準がまもなく形成されると予想され、その際に罰則パラメータはこれらの基準を参照してモデル化されるでしょう。
実装の例:
このモデルは、企業がセキュリティを最優先するよう促すと同時に、ステーキング資金プールの保険メカニズムによって消費者の受け入れを促進します。
Symbiotic チームのボット分野に対する見解は:
Symbiotic 汎用ステーキングフレームワークは、ステーキングの概念を経済的なセキュリティの保証を必要とするすべての分野に拡張することを目的としています。これは、共有または独立したモデルによるものです。その適用シーンは、保険からボット技術まで具体的な事例に基づいて設計する必要があります。例えば、ボットネットワークは完全に Symbiotic フレームワークに基づいて構築でき、利害関係者がネットワークの完全性に対して経済的な保証を提供できるようになります。
4、ボット技術スタックの空白を埋める
OpenAIはAIの普及を推進しましたが、ChatGPTの礎はすでに築かれています。クラウドサービスはモデルのローカルコンピューティングへの依存を打破し、Huggingfaceはモデルのオープンソース化を実現し、KaggleはAIエンジニアに実験プラットフォームを提供しました。これらの漸進的な突破口が共にAIの大衆化を促進しました。
AIとは異なり、ボット分野は資金が限られているときに参入が難しい。ボットの普及を実現するには、その開発のハードルをAIアプリケーション開発と同じくらい便利なレベルに引き下げる必要がある。私たちは、資金調達メカニズム、評価システム、教育エコシステムの3つの側面に改善の余地があると考えている。
資金調達はボット分野の痛点です。コンピュータプログラムの開発には1台のコンピュータとクラウドコンピューティングリソースが必要ですが、機能的なボットを構築するにはモーター、センサー、バッテリーなどのハードウェアを購入する必要があり、コストは簡単に10万ドルを突破します。このハードウェアの特性により、ボットの開発はAIに比べて柔軟性が欠け、高コストになります。
現実のシーンにおけるボット評価のインフラはまだ芽生えの段階にあります。AI分野では明確な損失関数の体系が確立されており、テストは完全に仮想化できます。しかし、優れた仮想戦略は現実世界の有効なソリューションに直接変換できません。ボットは多様な現実環境で自律的戦略の評価施設をテストする必要があり、そうすることで反復的な最適化を実現できます。
これらのインフラが成熟すると、人材が大量に流入し、人型ボットはWeb2の爆発的な曲線を再現するでしょう。暗号化ボット会社OpenMindはこの方向に進んでおり、そのオープンソースプロジェクトOM1(「ボット版Androidシステム」)は、原始ハードウェアを経済的意識を持つアップグレード可能なインテリジェントエージェントに変換します。視覚、言語、運動計画モジュールはスマートフォンのアプリのようにプラグアンドプレイが可能で、すべての推論ステップは明確な英語で表示され、オペレーターはファームウェアに触れることなく行動を監査または調整できます。この自然言語推論能力により、新世代の人材がロボット分野にシームレスに参入でき、ロボット革命を引き起こすオープンプラットフォームに向けた重要な一歩を踏み出すことができます。これはオープンソース運動がAIに与えた加速効果に似ています。
!
人材密度が業界の軌跡を決定します。構造化された普及教育システムはボット分野の人材供給にとって重要です。OpenMindがナスダックに上場したことは、インテリジェントマシンが金融革新と実体教育に同時に参加する新しい時代の始まりを示しています。OpenMindとRobostoreは共同で、アメリカのK-12公立学校で初のUnitree G1人型ロボットに基づく汎用教育カリキュラムを展開することを発表しました。このカリキュラムはプラットフォーム非依存性を備えており、さまざまなロボット形態に適応でき、学生に実践的な操作の機会を提供します。この積極的な信号は、今後数年間でロボット教育資源の豊富さがAI分野に匹敵するという私たちの判断を強化しました。
5. 今後の見通し
視覚 - 言語 - 行動モデル(VLA)の革新と規模の経済効果は、経済的で効率的かつ汎用的なヒューマノイドボットを生み出しました。倉庫ボットが消費者向け市場に拡大するにつれて、安全性、ファイナンスモデル、評価システムが重要な探求の方向性となっています。私たちは、暗号化技術が三つの経路を通じてロボットの発展を促進すると確信しています:安全のための経済的保証を提供し、充電インフラを最適化し、レイテンシーの性能とデータ収集パイプラインを向上させることです。