なぜマルチモーダルなモジュール化はWeb3 AIの幻想なのか?

Question

原著者: @BlazingKevin\_, the Researcher at Movemakerマルチモーダルモデルの進化は混乱をもたらしていませんが、Web2 AIの技術的な障壁を深めています - セマンティックアライメントから視覚的理解まで、高次元の埋め込みから特徴融合まで、複雑なモデルはさまざまなモーダル表現を前例のない速度で統合し、ますます閉鎖的なAIハイランドを構築しています。 米国の株式市場も、通貨株であろうとAI株であろうと、強気市場の波から抜け出した足で投票しました。 そして、この熱波は暗号とは何の関係もありません。 私たちが見てきたWeb3 AIの試み、特にここ数ヶ月のエージェントの方向性の進化は、ほぼ完全に間違っています:分散型構造を使用してWeb2スタイルのマルチモーダルモジュラーシステムを組み立てるという希望的観測は、実際には技術と思考の二重のずれです。 今日の高度に結合されたモジュール、非常に不安定な機能分布、ますます集中するコンピューティングパワー需要において、マルチモーダルなモジュール化はWeb3では到底通用しません。 指摘しておきたいのは、Web3 AIの未来は模倣ではなく、戦略的な迂回路にあるということです。 高次元空間の意味アライメントから、アテンションメカニズムにおける情報のボトルネック、異種計算能力の下での特徴アライメントまで、それらを一つ一つ展開して、Web3 AIが都市を囲むために田園地帯を戦術プログラムとして利用すべき理由を説明します。## Web3 AI フラット化されたマルチモーダルモデルに基づいており、意味が整合しないためパフォーマンスが低下しています現代のWeb2 AIのマルチモーダルシステムでは、「セマンティックアライメント」とは、異なるモダリティ(画像、テキスト、オーディオ、ビデオなど)からの情報を同じまたは相互変換可能なセマンティック空間にマッピングすることで、モデルがこれらのもともと異なる信号の背後にある本質的な意味を理解し、比較できるようにすることを指します。 例えば、猫の絵と「かわいい猫」というフレーズの場合、モデルは、検索、生成、推論の際に「絵を見て話す」「音を聞いて絵を関連付ける」ことができるように、高次元の埋め込み空間でそれらを互いに近づける必要があります。高次元埋め込み空間を実現する前提でのみ、ワークフローを異なるモジュールに分けることはコスト削減と効率向上の意味を持ちます。しかし、Web3 Agentプロトコルでは高次元埋め込みを実現することができません。なぜなら、モジュール化はWeb3 AIの錯覚だからです。高次元埋め込み空間を理解するには？最も直感的なレベルでは、「高次元埋め込み空間」を座標系として考えてみてください——平面上の x-y 座標のように、1対の数字で点を特定できます。ただし、私たちが一般的に知っている二次元平面では、1つの点は2つの数（x, y）で完全に決まりますが、「高次元」空間では、各点を記述するためにより多くの数字が必要であり、128個、512個、さらには千個以上の数字が必要になることもあります。浅いところから深いところへ、三つのステップで理解する：1. 2Dの例:地図上にいくつかの都市の座標をマークしたことを考えてみてください。例えば、北京（116.4, 39.9）、上海（121.5, 31.2）、広州（113.3, 23.1）です。ここで、各都市は「二次元埋め込みベクトル」（embedding vector）に対応しています：二次元の座標が地理的な位置情報を数字にエンコードしています。都市間の「類似度」を測定したい場合——地図上で距離が近い都市はしばしば同じ経済圏や気候圏にある——それらの座標のユークリッド距離を直接比較することができます。2. 多次元に拡張する：今、あなたが「地理空間」での位置だけでなく、「気候特性」（平均気温、降水量）や「人口特性」（人口密度、GDP）などを追加して説明したいと仮定しましょう。各都市に対して、これら5、10、さらにはそれ以上の次元を含むベクトルを割り当てることができます。例えば、広州の5次元ベクトルは[113.3, 23.1, 24.5, 1700, 14.5]で、経度、緯度、平均気温、年間降雨量（ミリメートル）、経済指数をそれぞれ表しています。この「多次元空間」では、地理、気候、経済などの複数の次元に基づいて都市を同時に比較することができます：もし2つの都市のベクトルが非常に近い場合、それらはこれらの属性において非常に似ていることを意味します。3. セマンティクスに切り替える – なぜ「埋め込まれている」のか:  自然言語処理（NLP）やコンピュータビジョンにおいて、私たちは「単語」、「文」、または「画像」をこのような多次元ベクトルにマッピングしたいと考えています。「意味が似ている」単語や画像が空間的に近くに配置されるように。このマッピングプロセスを「埋め込み」（embedding）と呼びます。例：私たちはモデルを訓練し、「cat」（猫）を300次元のベクトルv₁にマッピングし、「dog」（犬）を別のベクトルv₂にマッピングし、「economy」（経済）などの「無関係」な単語をv₃にマッピングします。これにより、この300次元空間では、v₁とv₂の距離は非常に小さく（それらはどちらも動物であり、類似の言語環境で頻繁に出現するため）、v₁とv₃の距離は非常に大きくなります。モデルは大量のテキストまたは画像とテキストのペアでトレーニングされるため、学習する各次元は「経度」や「緯度」などの解釈可能なプロパティに直接対応するのではなく、ある種の「暗黙的な意味的特徴」に対応します。 ある次元は「動物対非動物」の粒度の粗い区分を捉えているかもしれませんし、他の次元は「家畜対野生」を区別するかもしれませんし、さらに他の次元は「かわいい対強者」の感覚に対応しているかもしれません...... つまり、数百または数千の次元が連携して、あらゆる種類の複雑で絡み合ったセマンティックレイヤーをエンコードします。高次元と低次元の違いは何ですか? 絡み合ったさまざまな意味的特徴を収容できるのは十分な数の次元のみであり、高次元のみがそれぞれの意味的緯度でより明確な位置を持つことができます。 セマンティクスを区別できない場合、つまりセマンティクスを整列できない場合、低次元空間の異なる信号が互いに「スクイーズ」し合うため、モデルの取得や分類に頻繁に混乱が生じ、精度が大幅に低下します。 第二に、ストラテジー生成段階で微妙な違いを捉えることは難しく、主要な取引シグナルを見逃したり、リスクの閾値を誤って判断したりしやすく、リターンのパフォーマンスを直接低下させます。 また、モジュール間の連携が不可能になり、各エージェントが独立して動作し、情報島の現象が深刻になり、全体的な応答遅延が増加し、ロバスト性が低下します。 最後に、複雑な市場シナリオに直面した場合、低次元構造にはマルチソースデータを伝送する能力がほとんどなく、システムの安定性とスケーラビリティを保証することは困難であり、長期的な運用はパフォーマンスのボトルネックとメンテナンスの困難に陥るに違いなく、着陸後の製品のパフォーマンスと当初の期待との間に大きなギャップが生じます。では、Web3 AIまたはAgentプロトコルは高次元の埋め込み空間を実現できるのでしょうか? まず、高次元空間をどのように実現するかという問いに答えるために、従来の「高次元」の意味では、マーケットインテリジェンス、戦略作成、実行と実装、リスクコントロールなどの各サブシステムが互いに整列し、データ表現と意思決定プロセスにおいて互いに補完し合う必要があります。 しかし、ほとんどのWeb3エージェントは、既製のAPI(CoinGecko、DEXインターフェースなど)を独立した「エージェント」にカプセル化するだけで、統一された中央埋め込みスペースやモジュール間のアテンションメカニズムがないため、複数の角度やレベルからモジュール間で相互作用することができず、単一の機能を示す線形パイプラインをたどることしかできず、全体的なクローズドループ最適化を形成することができない情報が得られます。多くのエージェントは外部インターフェイスを直接呼び出し、インターフェイスによって返されるデータに対して十分な微調整や機能エンジニアリングさえ行っていません。 たとえば、市場分析エージェントは単に価格と取引量を取得するだけで、トランザクション実行エージェントはインターフェースパラメータに従って注文を出すだけで、リスクコントロールエージェントはいくつかのしきい値に従ってアラームを出すだけです。 彼らはそれぞれの職務を遂行しますが、マルチモーダルな融合や、同じリスクイベントや市場シグナルに対する深い意味的理解が不足しているため、極端な市場やクロスアセットの機会に直面しても、システムは包括的でマルチアングルな戦略を迅速に生み出すことができません。したがって、Web3 AIに高次元空間の実現を求めることは、エージェントプロトコルに関係するすべてのAPIインターフェースの開発を要求することと同等であり、モジュール化の本来の意図に反しており、Web3 AIで中小企業が描くモジュラーマルチモーダルシステムは精査に耐えられません。 高次元のアーキテクチャには、エンドツーエンドの統合トレーニングまたは協調的な最適化が必要です:信号キャプチャから戦略計算、実行、リスク管理まで、すべてのリンクは同じ表現関数と損失関数のセットを共有します。 Web3 Agentの「プラグインとしてのモジュール」の考え方は、各エージェントのアップグレード、デプロイ、パラメータチューニングが独自のサイロで完了するため、同期的に反復するのが難しく、効果的な集中監視とフィードバックのメカニズムがないため、メンテナンスコストが高騰し、全体的なパフォーマンスが制限されるという、断片化を悪化させています。業界の障壁があるフルリンクエージェントを実現するためには、エンドツーエンドのジョイントモデリング、モジュール間の統一された埋め込み、共同トレーニングと展開の体系的なエンジニアリングから状況を打破する必要がありますが、現在の市場にはそのような問題点はなく、当然のことながら市場の需要はありません。## 低次元空間では、アテンションメカニズムは精密に設計できない高レベルのマルチモーダルモデルでは、高度なアテンションメカニズムを設計する必要があります。 「アテンションメカニズム」は基本的に、計算リソースを動的に割り当てる方法であり、モデルがモーダル入力を処理するときに最も関連性の高い部分に選択的に「焦点を合わせる」ことを可能にします。 最も一般的なのは、Transformerのセルフアテンションとクロスアテンションのメカニズムです:セルフアテンションにより、モデルは、テキスト内の各単語が他の単語に対して重要であるなど、シーケンス内の要素間の依存関係を測定できます。 トランスアテンションは、1つのモダリティ(テキストなど)からの情報を使用して、別のモダリティ(画像の特徴シーケンスなど)をデコードまたは生成するときに、どの画像の特徴を「見る」かを決定することを可能にします。 マルチヘッドアテンションにより、モデルは異なる部分空間で複数のアライメントを同時に学習し、より複雑できめ細かな関連性を捉えることができます。アテンションメカニズムの前提は、マルチモダリティには高次元があり、高次元空間では、洗練されたアテンションメカニズムが巨大な高次元空間から最短時間でコア部分を見つけることができるというものです。 アテンションメカニズムが役割を果たすために高次元空間に配置される必要がある理由を説明する前に、まず、アテンションメカニズムを設計する際のTransformerデコーダーによって表されるWeb2 AIのプロセスを理解します。 核となる考え方は、シーケンス(テキスト、画像パッチ、オーディオフレーム)を処理するとき、モデルが各要素に「注意の重み」を動的に割り当てることで、それらを盲目的に平等に扱うのではなく、最も関連性の高い情報に焦点を当てることができるということです。簡単に言うと、アテンション メカニズムを車に例えると、Query-Key-Value の設計はエンジンの設計です。 Q-K-Vは、キー情報を決定するのに役立つメカニズムであり、クエリは「何を探しているか」(クエリ)を指し、キーは「どのラベルを持っているか」( )インデックスを指し、値はコンテンツ(を指します。 ここにあるもの」)。 マルチモーダル モデルの場合、モデルに入力する内容は、文、画像、またはオーディオです。 次元空間で必要なコンテンツを取得するために、これらの入力は、キャラクター、特定のピクセル サイズの小さなブロック、オーディオ フレームなどの最小単位に分割され、マルチモーダル モデルは、アテンション計算のためにこれらの最小単位のクエリ、キー、および値を生成します。 モデルが特定の場所を処理するとき、この位置のクエリを使用してすべての位置のキーを比較し、現在の要件に最も一致するタグを決定し、一致する程度に応じて対応する位置から値を抽出し、重要度に応じて組み合わせを重み付けし、最終的に独自の情報を含むだけでなく、全世界の関連コンテンツを統合する新しい表現を取得します。 このようにして、各出力をコンテキストに応じて動的に「質問-検索-統合」して、効率的で正確な情報フォーカスを実現できます。このエンジンに基づいて、さまざまな部品が追加され、「グローバルな相互作用」と「制御可能な複雑さ」が巧みに組み合わされています:スケーリングされたドット積は数値安定性を保証し、マルチヘッド並列の豊富な表現、位置コーディングはシーケンス順序を保持し、スパースバリアントは効率を考慮し、残差と正規化は安定したトレーニングを助け、クロスアテンションはマルチモダリティを開きます。 これらのモジュール式のレイヤーバイレイヤー設計により、Web2 AIは強力な学習能力を持ち、さまざまなシーケンシャルタスクやマルチモーダルタスクを処理する際に、手頃な計算能力の範囲内で効率的に動作することができます。なぜモジュールベースのWeb3 AIは統一されたアテンションスケジューリングを実現できないのか? まず、アテンション メカニズムは統一された Query-Key-Value 空間に依存しており、ドット積から動的重みを計算するには、すべての入力フィーチャを同じ高次元ベクトル空間にマップする必要があります。 ただし、独立したAPIは、統一された埋め込みレイヤーがないと、価格、注文ステータス、しきい値アラームなど、さまざまな形式とデータの分布を返し、インタラクティブなQ/K/Vのセットを形成できません。 次に、マルチヘッドアテンションにより、異なる情報源に同じレベルで同時に並行して注意を払うことができ、その結果が集約されます。 ただし、独立したAPIは「最初にAを呼び出し、次にBを呼び出し、次にCを呼び出す」ことが多く、各ステップの出力は次のモジュールの入力のみであり、並列およびマルチチャネルの動的重み付けの能力が不足しており、当然のことながら、アテンションメカニズムですべての位置またはモダリティを同時にスコアリングおよび合成する細かいスケジューリングをシミュレートすることはできません。 最後に、真のアテンションメカニズムは、全体的なコンテキストに基づいて各要素に重みを動的に割り当てます。 APIモードでは、モジュールは呼び出されたときにのみ「独立した」コンテキストを見ることができ、リアルタイムで相互に共有される中心的なコンテキストがないため、モジュール間でグローバルな相関関係とフォーカスを実現することは不可能です。したがって、さまざまな機能を離散的なAPIとしてカプセル化するだけでは、共通のベクトル表現や並列の重み付けと集約がない限り、Transformerのような「統一された注意スケジューリング」能力を構築することはできません。これは、エンジン性能が低い車がどのように改造されても限界を高めることが難しいのと同様です。## 離散型モジュールの組み合わせは、特徴の融合が浅い静的な接続に留まることを引き起こす「特徴融合」とは、異なるモーダル処理によって得られた特徴ベクトルを、アライメントとアテンションに基づいてさらに組み合わせることで、下流のタスク(分類、検索、生成など)に直接利用できるようにすることです。 フュージョン法は、スプライシング、加重加算のような単純なものから、バイリニアプーリング、テンソル分解、さらには動的ルーティング技術のような複雑なものまであります。 高次のアプローチは、多層ネットワークでアライメント、アテンション、フュージョンを交互に行うか、グラフニューラルネットワーク(GNN)を介してクロスモーダル特徴間でより柔軟なメッセージ伝送パスを確立し、深い情報インタラクションを実現することです。言うまでもなく、Web3 AI は当然最も単純な結合の段階に留まっています。なぜなら、動的特徴融合の前提は高次元空間と精密な注意メカニズムであり、その前提条件が整わない限り、最終段階の特徴融合も優れた性能を発揮することはできません。Web2 AIはエンドツーエンドの共同学習を行う傾向があり、画像、テキスト、音声などのすべてのモーダル特徴を同じ高次元空間で同時に処理し、モデルはアテンション層とフュージョン層を通じて下流のタスク層との共最適化を通じて、フォワードとバックプロパゲーションの最適な融合重みとインタラクションモードを自動的に学習します。 一方、Web3 AIは、より個別のモジュールスプライシングを使用し、画像認識、市場キャプチャ、リスク評価などのさまざまなAPIを独立したエージェントにカプセル化し、それらが出力するラベル、値、またはしきい値アラームを単純につなぎ合わせ、メインラインのロジックまたは手動によって包括的な決定を下します。Web2 AIでは、システムはアテンションメカニズムに依存して、コンテキストに応じてさまざまな機能の重要度スコアをリアルタイムで計算し、融合戦略を動的に調整します。 マルチヘッドアテンションは、ローカルの詳細とグローバルセマンティクスを考慮して、複数の異なる特徴の相互作用パターンを同じレベルで並行してキャプチャすることもできます。 一方、Web3 AIは、「画像×0.5+テキスト×0.3+価格×0.2」の重みをあらかじめ固定していたり、単純なif/elseルールで融合するか全く融合しないかを決めて、各モジュールの出力をまとめて提示するだけなので、柔軟性に欠けることが多いです。Web2 AIは、すべてのモダリティ特徴を数千次元の高次元空間にマッピングし、融合プロセスはベクトルの連結だけでなく、加算や双線形プーリングなどのさまざまな高次相互作用操作を含みます——各次元は潜在的な意味に対応する可能性があり、モデルは深層で複雑なクロスモーダル関連を捉えることができます。それに対して、Web3 AIの各エージェントの出力はしばしば数個の重要なフィールドや指標しか含まず、特徴次元は極めて低く、「画像の内容とテキストの意味がなぜ一致するのか」や「価格の変動と感情の動向の微妙な関連」といった繊細な情報を表現することはほとんど不可能です。Web2 AIでは、ダウンストリームタスクの損失は、アテンションレイヤーとフュージョンレイヤーを通じてモデルのすべての部分に連続的に伝達され、どの機能を強化または抑制すべきかを自動的に調整し、クローズドループの最適化を形成します。 一方、Web3 AIは、API呼び出しの結果が報告された後にパラメータを評価および調整するために手動または外部のプロセスに依存しており、自動化されたエンドツーエンドのフィードバックがないため、オンラインでのコンバージェンス戦略の反復と最適化が困難になっています。## AI業界の壁が深まっているが、痛点はまだ現れていないエンドツーエンドのトレーニングでは、クロスモーダルアライメント、高度なアテンションコンピューティング、高次元の特徴融合を考慮する必要があるため、Web2 AIのマルチモーダルシステムは、多くの場合、非常に大規模なエンジニアリングプロジェクトです。 大規模で多様で、十分に注釈が付けられたクロスモーダル データセットが必要なだけでなく、何千もの GPU で数週間から数か月のトレーニングも必要です。 モデルアーキテクチャに関しては、さまざまな最新のネットワーク設計コンセプトと最適化技術を統合しています。 プロジェクトの実装に関しては、スケーラブルな分散トレーニングプラットフォーム、監視システム、モデルバージョン管理、および展開パイプラインを構築する必要もあります。 アルゴリズムの研究開発では、より効率的なアテンションバリアント、より堅牢なアライメント損失、およびより軽い融合戦略を引き続き研究する必要があります。 このようなフルリンク、フルスタックの体系的な作業は、資本、データ、計算能力、才能、さらには組織のコラボレーションに対して非常に高い要件があるため、業界の強力な障壁を構成し、これまでにいくつかの主要なチームが習得したコアコンピタンスも生み出しました。4月に中国のAIアプリケーションをレビューし、WEB3 AIを比較したとき、私はある視点を述べました:障壁が強い業界では、暗号はブレークスルーを達成する可能性があり、これは一部の業界が従来の市場で非常に成熟していることを意味しますが、大きな問題点があり、成熟度が高いということは、同様のビジネスモデルに精通している十分なユーザーがいることを意味し、大きな問題点は、ユーザーが新しいソリューションを試す意欲があること、つまり、暗号を受け入れる強い意欲を意味し、どちらも不可欠です、つまり、逆に、 従来の市場ですでに非常に成熟している業界ではないが、大きな問題点がある場合、暗号はそれに根を下ろすことができず、生存の余地はなく、ユーザーがそれを完全に理解する意欲は非常に低く、その潜在的な上限を理解していません。WEB3 AIまたはPMFの旗印の下にある暗号製品は、田舎の都市を囲む戦術で開発する必要があり、水は限界位置で小規模にテストされ、基盤がしっかりしていることを確認してから、コアシナリオ、つまりターゲット都市の出現を待つ必要があります。 Web3 AIの中核は分散化にあり、その進化の道筋は、高並列性、低結合性、異種計算能力の互換性に反映されています。 これにより、Web3 AIはエッジコンピューティングなどのシナリオでより有利になり、LoRAの微調整、動作的に整合したポストトレーニングタスク、クラウドソーシングされたデータトレーニングとアノテーション、小さな基本モデルのトレーニング、エッジデバイスの協調トレーニングなど、軽量構造、容易な並列処理、インセンティブを備えたタスクに適しています。 これらのシナリオの製品アーキテクチャは軽量であり、ロードマップは柔軟に反復できます。 しかし、これは今がチャンスであると言っているわけではありません、なぜなら、WEB2 AIの障壁が形成され始めたばかりで、Deepseekの出現は、大手企業の競争であるマルチモーダルコンプレックスタスクAIの進歩を刺激し、WEB2 AIの配当の出現の初期段階であり、WEB2 AIの配当が消えたときにのみ、それによって残された問題点は、DeFiの元の誕生のように、そしてその時が来る前に、WEB3 AIが切り込む機会だと思います 「都市を取り巻く農村地域」を慎重に特定し、端から切り取るかどうか、最初に力が弱く、市場に根ざしたシーンが少ない田舎(または小さな市場、小さなシーン)で確固たる足場を獲得し、徐々にリソースと経験を蓄積する必要があります。 これができない場合、これに基づいて10億ドルの市場価値を達成するためにPMFに頼ることは困難であり、そのようなプロジェクトはウォッチリストに載らないでしょう。 WEB3 AIプロトコルが完全に柔軟で、さまざまなシナリオに柔軟に対応でき、地方間を迅速に移動でき、ターゲット都市に最速で近づくことができるかどうかに注意を払う必要があります。## MovemakerについてMovemakerは、Aptos財団によって認可され、AnkaaとBlockBoosterが共同で立ち上げた初の公式コミュニティ組織であり、Aptosの華語圏におけるエコシステムの構築と発展を推進することに特化しています。Aptosの華語圏における公式代表として、Movemakerは開発者、ユーザー、資本、そして多くのエコシステムパートナーをつなぐことで、多様でオープン、繁栄したAptosエコシステムの構築に尽力しています。免責事項：この記事/ブログは情報提供のみを目的としており、著者の個人的な見解を表しており、必ずしもMovemakerの立場を表すものではありません。 この記事は、以下を提供することを意図したものではありません(i)投資アドバイスまたは投資推奨。 (ii)デジタル資産の購入、販売、または保有の申し出または勧誘。 または(iii)財務、会計、法律、または税務に関するアドバイス。 ステーブルコインやNFTなどのデジタル資産を保有することは、非常にリスクが高く、価格の変動が激しく、価値がなくなることさえあります。 デジタル資産の取引または保有があなたに適しているかどうかを、あなた自身の財政状況に照らして慎重に検討する必要があります。 特定の状況について質問がある場合は、法律、税務、または投資アドバイザーにご相談ください。 この記事で提供される情報は、市場データや統計(ある場合)を含め、一般的な情報提供のみを目的としています。 これらの図およびグラフの作成には合理的な注意が払われていますが、それらに表現された事実の誤りまたは脱落については一切の責任を負いません。