Почему многомодульная модульность является иллюзией Web3 AI?

Question

Автор оригинала: @BlazingKevin\_, исследователь в MovemakerЭволюция мультимодальных моделей не принесла хаоса, но углубила технические барьеры ИИ Web2 — от семантического выравнивания до визуального понимания, от многомерного встраивания до слияния функций, сложные модели интегрируют различные модальные выражения с беспрецедентной скоростью, чтобы построить все более закрытое высокогорье ИИ. Фондовый рынок США также голосовал ногами, будь то валютные акции или акции ИИ, они вышли из волны бычьего рынка. И эта жара никак не связана с криптовалютой. Попытки Web3 AI, которые мы видели, особенно эволюция направления агента в последние месяцы, почти полностью неверны: выдавать желаемое за действительное с использованием децентрализованной структуры для сборки мультимодальной модульной системы в стиле Web2 на самом деле является двойным несоответствием технологии и мышления. В сегодняшних высокосвязанных модулях, крайне нестабильном распределении функций и все более концентрированном спросе на вычислительные мощности мультимодальная модульность просто не может устоять в Web3. Отметим: будущее Web3 AI — это не имитация, а стратегические обходные пути. От семантического выравнивания многомерных пространств до информационного узкого места в механизме внимания, до выравнивания признаков при неоднородных вычислительных мощностях — я буду расширять их один за другим, чтобы объяснить, почему Web3 AI должен использовать сельскую местность для окружения города в качестве тактической программы.## Web3 AI основан на плоской многомодальной модели, несоответствие семантики приводит к низкой производительностиВ мультимодальной системе современного ИИ Web2 «семантическое выравнивание» относится к отображению информации из разных модальностей (таких как изображения, текст, аудио, видео и т. д.) в одно и то же или взаимоконвертируемое семантическое пространство, чтобы модель могла понять и сравнить внутренний смысл, стоящий за этими изначально разрозненными сигналами. Например, для изображения кошки и фразы «милый кот» модель должна спроецировать их близко друг к другу в многомерном встроенном пространстве, чтобы она могла «смотреть на картинку и говорить» и «слушать звук, чтобы ассоциировать картинку» при извлечении, генерации или рассуждении.Только при условии реализации высокоразмерного встраиваемого пространства разделение рабочего процесса на различные модули имеет смысл для снижения затрат и увеличения эффективности. Однако в протоколе web3 Agent это невозможно, потому что модульность является иллюзией Web3 AI.Как понять многомерное вложенное пространство? На самом интуитивном уровне представьте себе "многомерное вложенное пространство" как координатную систему — так же, как x-y координаты на плоскости, вы можете использовать пару чисел для определения точки. Только на нашей обычной двумерной плоскости точка полностью определяется двумя числами (x, y); а в "многомерном" пространстве каждую точку необходимо описать большим количеством чисел, возможно, 128, 512 или даже тысячами чисел.Постепенно, в три этапа, чтобы понять:1. Двумерный пример:Представьте, что вы отметили координаты нескольких городов на карте, например, Пекин (116.4, 39.9), Шанхай (121.5, 31.2), Гуанчжоу (113.3, 23.1). Каждый город здесь соответствует "двумерному встраивающему вектору" (embedding vector): двумерные координаты кодируют географическую информацию в цифрах.Если вы хотите измерить «сходство» между городами — города, расположенные близко друг к другу на карте, как правило, находятся в одной экономической или климатической зоне — вы можете напрямую сравнить евклидово расстояние их координат.2. Расширение на многомерность:Теперь предположим, что вы хотите описать не только позицию на "географическом пространстве", но и добавить некоторые "климатические характеристики" (средняя температура, количество осадков), "демографические характеристики" (плотность населения, ВВП) и т.д. Вы можете назначить каждому городу вектор, содержащий 5, 10 или даже больше измерений.Например, 5-мерный вектор Гуанчжоу может быть [113.3, 23.1, 24.5, 1700, 14.5], который соответственно представляет собой долготу, широту, среднюю температуру, годовое количество осадков (в миллиметрах) и экономический индекс. Это «многомерное пространство» позволяет вам одновременно сравнивать города по нескольким измерениям, таким как география, климат, экономика и т.д.: если векторы двух городов очень близки, это означает, что они очень похожи по этим нескольким характеристикам.3. Переключение на семантику — почему нужно «встраивать»: В обработке естественного языка (NLP) или компьютерном зрении мы также хотим сопоставить "слова", "предложения" или "изображения" с таким многомерным вектором, чтобы "похожие по смыслу" слова или изображения находились ближе друг к другу в пространстве. Этот процесс сопоставления называется "встраиванием" (embedding).Например, давайте обучим модель отображать «кошку» на 300-мерный вектор v₁, «собаку» на другой вектор v₂, а «нерелевантные» слова, такие как «экономика», на v₃. Тогда в этом 300-мерном пространстве расстояние между v₁ и v₂ будет небольшим (поскольку они оба являются животными и часто появляются в похожих местах), а расстояние v₁ будет большим.  С обучением модели на огромном количестве текстов или пар "изображение-текст" каждая измерение, которое она изучает, не соответствует напрямую объясняемым атрибутам, таким как "долгота" или "широта", а представляет собой некие "скрытые семантические особенности". Некоторые измерения могут улавливать грубую градацию "животное против неживого", другие могут различать "домашние vs. дикие", а третьи могут соответствовать ощущениям "милый против грозный"... В любом случае, сотни и тысячи измерений работают вместе, чтобы закодировать все сложные и переплетенные семантические слои.В чем разница между большими и малыми габаритами? Только достаточное количество измерений может вместить множество взаимосвязанных семантических признаков, и только большие размерности могут обеспечить им более четкое положение в соответствующих семантических широтах. Когда семантика не может быть различима, то есть семантика не может быть выровнена, различные сигналы в низкоразмерном пространстве «сжимаются» друг друга, что приводит к частой путанице при извлечении или классификации модели, и точность сильно снижается. Во-вторых, на этапе генерации стратегии сложно уловить тонкие различия, и легко пропустить ключевые торговые сигналы или неправильно оценить порог риска, что напрямую тянет вниз показатели доходности. Кроме того, становится невозможным кросс-модульное сотрудничество, каждый агент работает независимо, явление информационных островков становится серьезным, общая задержка отклика увеличивается, а робастность становится низкой. Наконец, в условиях сложных рыночных сценариев низкоразмерная структура практически не способна передавать данные из нескольких источников, а стабильность и масштабируемость системы трудно гарантировать, а долгосрочная эксплуатация неизбежно столкнется с проблемами производительности и технического обслуживания, что приведет к значительному разрыву между производительностью продукта после приземления и первоначальными ожиданиями.Так могут ли протоколы Web3 AI или Agent обеспечить многомерное пространство для встраивания? Прежде всего, чтобы ответить на вопрос о том, как достичь многомерного пространства, традиционное значение «высокомерного» требует, чтобы каждая подсистема, такая как рыночная разведка, генерация, исполнение и реализация стратегии, а также контроль рисков, согласовывались друг с другом и дополняли друг друга в представлении данных и процессе принятия решений. Тем не менее, большинство агентов Web3 инкапсулируют только готовые API (интерфейсы CoinGecko, DEX и т. д.) в независимых «агентов», не имея единого центрального пространства встраивания и механизма внимания между модулями, в результате чего информация не может взаимодействовать между модулями под разными углами и уровнями, а может следовать только линейному конвейеру, демонстрируя одну функцию, и не может сформировать общую оптимизацию замкнутого цикла.Многие агенты напрямую обращаются к внешним интерфейсам, даже не проводя достаточной настройки или обработки данных, возвращаемых интерфейсом. Например, агент рыночного анализа просто получает цену и объем торгов, агент исполнения сделок делает заказы только по параметрам интерфейса, агент управления рисками просто сигнализирует при достижении нескольких пороговых значений. Каждый из них выполняет свою роль, но не хватает многомодального слияния и глубокого семантического понимания одних и тех же рисковых событий или рыночных сигналов, что приводит к тому, что система не может быстро генерировать комплексные и многогранные стратегии в условиях экстремальных рыночных ситуаций или кросс-активных возможностей.Поэтому требование к Web3 AI реализовать высокоразмерное пространство фактически означает требование к протоколу агента самостоятельно разрабатывать все связанные API-интерфейсы, что противоречит его модульной концепции. Модульная мультимодальная система, описанная малым и средним предприятиями в Web3 AI, не выдерживает критики. Высокоразмерная архитектура требует единого обучения от начала до конца или совместной оптимизации: от захвата сигналов до вычисления стратегий, затем до выполнения и управления рисками, все этапы должны использовать одну и ту же систему представлений и функцию потерь. Подход Web3 Agent «модуль — это плагин» наоборот усугубляет фрагментацию — каждое обновление, развертывание и настройка агента происходят в своих собственных силосах, что затрудняет синхронную итерацию, а также не обеспечивает эффективного централизованного мониторинга и обратной связи, что приводит к росту затрат на обслуживание и ограничивает общую производительность.Для реализации полного цепочного интеллекта с барьерами для входа в отрасль необходимо провести совместное моделирование от конца до конца, унифицированное встраивание между модулями, а также систематическую инженерию совместного обучения и развертывания. Однако на текущем рынке таких болевых точек не существует, соответственно, и спроса на рынок нет.## В низкоразмерном пространстве механизм внимания не может быть точно спроектированВысокоуровневые мультимодальные модели должны проектировать сложные механизмы внимания. «Механизм внимания» — это, по сути, способ динамического распределения вычислительных ресурсов, позволяющий модели выборочно «фокусироваться» на наиболее релевантных частях при обработке модального ввода. Наиболее распространенными являются механизмы самовнимания и перекрестного внимания в Трансформере: самовнимание позволяет модели измерять зависимости между элементами в последовательности, такие как важность каждого слова в тексте для других слов; Трансвнимание позволяет информации из одной модальности (например, текста) решать, какие особенности изображения «видеть» при декодировании или создании другой модальности (например, последовательности характеристик изображения). При многоголовом внимании модель может обучаться нескольким выравниваниям одновременно в разных подпространствах, чтобы улавливать более сложные и детализированные ассоциации.Предпосылка механизма внимания заключается в том, что мультимодальность имеет высокую размерность, и в пространстве высокой размерности сложный механизм внимания может найти основную часть из массивного пространства высокой размерности за кратчайшее время. Прежде чем объяснять, почему механизм внимания должен быть помещен в многомерное пространство, чтобы играть роль, мы сначала понимаем процесс Web2 AI, представленный декодером Transformer, при проектировании механизма внимания. Основная идея заключается в том, что при обработке последовательностей (текста, патчей изображений, звуковых кадров) модель динамически присваивает «веса внимания» каждому элементу, что позволяет ему сосредоточиться на наиболее релевантной информации, а не слепо относиться к ним одинаково.Проще говоря, если вы сравните механизм внимания с автомобилем, проектирование Query-Key-Value — это проектирование двигателя. Q-K-V — это механизм, который помогает нам определить ключевую информацию, Запрос — это запрос ( «Что я ищу» ), Ключ — это индекс ( «Какая у меня метка» ), Значение — это содержимое (». Что здесь» ). Для мультимодальной модели ввод в модель может быть предложением, изображением или аудио. Чтобы получить нужное нам содержимое в размерном пространстве, эти входные данные разрезаются на мельчайшие единицы, такие как символ, небольшой блок определенного размера в пикселе или фрагмент звукового кадра, и мультимодальная модель генерирует Query, Key и Value для этих минимальных единиц для вычисления внимания. Когда модель обрабатывает определенное местоположение, она будет использовать запрос этой позиции для сравнения ключей всех позиций, определения того, какие теги лучше всего соответствуют текущим требованиям, а затем извлекать значение из соответствующей позиции в соответствии со степенью совпадения и взвешенной комбинации в соответствии с важностью, и, наконец, получить новое представление, которое не только содержит собственную информацию, но и интегрирует релевантное содержимое всего мира. Таким образом, каждый выход может быть динамически «опрошен-извлечен-интегрирован» в соответствии с контекстом для достижения эффективной и точной информационной концентрации.На основе этого двигателя добавлены различные части, умело сочетая "глобальное взаимодействие" и "контролируемую сложность": масштабируемое скалярное произведение обеспечивает стабильность значений, многоголовая параллельность обогащает выражение, кодирование позиций сохраняет последовательность, разреженные варианты учитывают эффективность, остаточные связи и нормализация способствуют стабильной тренировке, перекрестное внимание открывает многомодальность. Эти модульные и постепенно развивающиеся конструкции позволяют Web2 AI эффективно работать с различными последовательностями и многомодальными задачами, обладая при этом мощными способностями к обучению и способностью работать в пределах приемлемых вычислительных ресурсов.Почему модульный ИИ Web3 не может обеспечить унифицированное планирование внимания? Во-первых, механизм внимания опирается на единое пространство запрос-ключ-значение, и все входные признаки должны быть отображены в одно и то же векторное пространство высокой размерности, чтобы вычислить динамические веса из скалярного произведения. Однако независимые API возвращают разные форматы и разные распределения данных - цену, статус ордера, пороговые тревоги - без единого слоя встраивания и не могут сформировать набор интерактивных Q/K/V. Во-вторых, многоголовое внимание позволяет параллельно на одном уровне в одно и то же время обращать внимание на разные источники информации, а затем агрегировать результаты. Тем не менее, независимые API часто «сначала вызывают А, затем вызывают В, а затем вызывают С», и на выходе каждого шага получается только вход следующего модуля, которому не хватает возможности параллельного и многоканального динамического взвешивания, и, естественно, он не может имитировать тонкое планирование подсчета баллов и синтеза всех позиций или модальностей одновременно в механизме внимания. Наконец, механизм истинного внимания динамически присваивает веса каждому элементу в зависимости от общего контекста; В режиме API модули могут видеть только «независимый» контекст при вызове, и центральный контекст не делится друг с другом в режиме реального времени, поэтому невозможно достичь глобальной корреляции и фокуса между модулями.Таким образом, просто упаковка различных функций в дискретные API — без общего векторного представления, без параллельного взвешивания и агрегации — не позволит построить такую способность, как «унифицированное управление вниманием» в Transformer, как автомобиль с низкой производительностью двигателя, какой бы тюнинг он ни прошел, все равно будет трудно повысить его предел.## Дискретная модульная сборка приводит к тому, что слияние признаков остается на поверхностном статическом соединении«Слияние признаков» заключается в дальнейшем объединении векторов признаков, полученных с помощью различных модальных обработок, на основе выравнивания и внимания, чтобы их можно было непосредственно использовать в последующих задачах (классификация, извлечение, генерация и т. д.). Методы слияния могут быть как простыми, такими как сплайсинг, взвешенное суммирование, так и сложными, такими как билинейный пул, тензорная декомпозиция и даже методы динамической маршрутизации. Подход более высокого порядка заключается в чередовании выравнивания, внимания и слияния в многоуровневой сети или в установлении более гибкого пути передачи сообщений между кросс-модальными объектами с помощью графовых нейронных сетей (GNN) для достижения глубокого информационного взаимодействия.Не стоит и говорить, что Web3 AI, конечно, находится на самом простом этапе стыковки, потому что предпосылкой для слияния динамических признаков являются высокоразмерные пространства и точные механизмы внимания. Когда эти предпосылки не могут быть выполнены, естественно, что на последнем этапе слияние признаков также не может показать выдающиеся результаты.Web2 AI имеет тенденцию к сквозному совместному обучению: все модальные функции, такие как изображения, текст и аудио, обрабатываются одновременно в одном и том же многомерном пространстве, а модель автоматически изучает оптимальные веса слияния и режимы взаимодействия в прямом и обратном распространении за счет совместной оптимизации с нижестоящим уровнем задач через слой внимания и слой слияния. Web3 AI, с другой стороны, использует более дискретный сплайсинг модулей, инкапсулируя различные API, такие как распознавание изображений, захват рынка и оценка рисков, в независимых агентов, а затем просто собирая воедино метки, значения или пороговые сигналы тревоги, которые они выводят, и принимая комплексные решения с помощью основной логики или вручную, в которых отсутствует единая цель обучения и нет градиентного потока между модулями.В Web2 AI система полагается на механизм внимания, чтобы вычислять оценки важности различных функций в режиме реального времени в соответствии с контекстом и динамически корректировать стратегию слияния. Многоголовое внимание также может захватывать несколько различных шаблонов взаимодействия функций параллельно на одном уровне, принимая во внимание локальные детали и глобальную семантику. Web3 AI, с другой стороны, часто заранее фиксирует вес «изображение × 0,5 + текст × 0,3 + цена × 0,2» или использует простые правила if/else, чтобы определить, объединять или не объединять вообще, и представляет только выходные данные каждого модуля вместе, что не хватает гибкости.ИИ Web2 сопоставляет все модальные признаки с многомерным пространством в несколько тысяч измерений, а процесс слияния представляет собой не только сшивание векторов, но и множество взаимодействий более высокого порядка, таких как сложение и билинейный пул — каждое измерение потенциально может соответствовать латентной семантике, что позволяет модели захватывать глубокие, сложные кросс-модальные ассоциации. В отличие от этого, выходные данные агента Web3 AI часто содержат всего несколько ключевых полей или метрик, а размеры функций чрезвычайно низкие, что делает практически невозможным передачу тонкой информации, такой как «почему содержимое изображения соответствует смыслу текста» или «тонкая корреляция между колебаниями цен и движениями настроений».В Web2 AI потеря последующих задач непрерывно передается обратно на все части модели через слой внимания и слой слияния, который автоматически корректирует, какие функции следует усилить, а какие подавить, формируя оптимизацию замкнутого цикла. С другой стороны, ИИ Web3 полагается на ручные или внешние процессы для оценки и настройки параметров после того, как результаты вызова API сообщаются, и ему не хватает автоматизированной сквозной обратной связи, что затрудняет итерацию и оптимизацию стратегии конвергенции в Интернете.## Барьеры в индустрии ИИ углубляются, но болевые точки еще не появилисьИз-за необходимости учитывать кросс-модальное выравнивание, сложные вычисления внимания и слияние многомерных функций в сквозном обучении, мультимодальная система Web2 AI часто является чрезвычайно крупным инженерным проектом. Для этого требуются не только массивные, разнообразные и хорошо аннотированные кросс-модальные наборы данных, но и недели или даже месяцы обучения на тысячах графических процессоров; С точки зрения архитектуры модели, он объединяет различные новейшие концепции проектирования сетей и технологии оптимизации. С точки зрения реализации проекта также необходимо построить масштабируемую распределенную платформу обучения, систему мониторинга, управление версиями моделей и конвейер развертывания. При исследовании и разработке алгоритмов необходимо продолжать изучение более эффективных вариантов внимания, более устойчивых потерь выравнивания и более легких стратегий термоядерного синтеза. Такая полносвязная, полнофункциональная систематическая работа требует чрезвычайно высоких требований к капиталу, данным, вычислительным мощностям, талантам и даже организационному сотрудничеству, поэтому она представляет собой сильный отраслевой барьер, а также создала основную конкурентоспособность, которой до сих пор владели несколько ведущих команд.Когда я рассматривал китайские приложения искусственного интеллекта в апреле и сравнивал WEB3 AI, я упомянул точку зрения: в отраслях с сильными барьерами крипто может достичь прорывов, а это значит, что некоторые отрасли были очень зрелыми на традиционных рынках, но есть огромные болевые точки, высокая зрелость означает, что есть достаточное количество пользователей, знакомых с аналогичными бизнес-моделями, а большие болевые точки означают, что пользователи готовы пробовать новые решения, то есть сильная готовность принимать криптовалюту, и то, и другое незаменимо, то есть наоборот Если это не та отрасль, которая уже очень зрелая на традиционном рынке, но есть огромные болевые точки, Крипто не сможет в ней прижиться, не будет места для выживания, а готовность пользователей полностью ее понимать очень низкая, и они не понимают ее потенциального верхнего предела.WEB3 AI или любой криптопродукт под знаменем PMF нужно разрабатывать с тактикой окружения города в сельской местности, а воду тестировать в небольших масштабах в маргинальном положении, чтобы убедиться в прочности фундамента, а затем ждать появления основного сценария, то есть целевого города. В основе Web3 AI лежит децентрализация, а путь его развития отражается в совместимости высокого параллелизма, низкой связанности и разнородных вычислительных мощностей. Это делает Web3 AI более выгодным в таких сценариях, как периферийные вычисления, и подходит для задач с облегченными структурами, простым параллелизмом и стимулированием, таких как тонкая настройка LoRA, поведенчески согласованные задачи после обучения, краудсорсинговое обучение и аннотации данных, обучение небольших базовых моделей и совместное обучение периферийных устройств. Архитектура продукта в этих сценариях легка, а дорожная карта может быть гибко итерирована. Но это не значит, что возможность есть сейчас, потому что барьеры WEB2 AI только начали формироваться, появление Deepseek стимулировало прогресс мультимодального сложного task AI, который является конкуренцией ведущих предприятий, и это ранняя стадия появления дивидендов WEB2 AI, я думаю, что только когда исчезнут дивиденды WEB2 AI, болевые точки, оставленные им позади, — это возможности для WEB3 AI врезаться, точно так же, как при первоначальном рождении DeFi, и до того, как придет время, WEB3 AI Нам нужно тщательно определить соглашение, которое имеет «сельские районы вокруг городов», нужно ли срезать с края, сначала прочно закрепиться в сельской местности (или на маленьком рынке, на маленькой сцене), где власть слаба и на рынке мало укоренившихся сцен, и постепенно накапливать ресурсы и опыт; Если это невозможно сделать, то трудно рассчитывать на PMF для достижения рыночной стоимости в $1 млрд на этой основе, и такие проекты не будут находиться в списке наблюдения; НАМ НУЖНО ОБРАТИТЬ ВНИМАНИЕ НА ТО, ДОЛЖЕН ЛИ ПРОТОКОЛ WEB3 AI БЫТЬ ПОЛНОСТЬЮ ГИБКИМ, ГИБКИМ ДЛЯ РАЗНЫХ СЦЕНАРИЕВ, СПОСОБНЫМ БЫСТРО ПЕРЕМЕЩАТЬСЯ МЕЖДУ СЕЛЬСКИМИ РАЙОНАМИ И ПРИБЛИЖАТЬСЯ К ЦЕЛЕВОМУ ГОРОДУ С МАКСИМАЛЬНОЙ СКОРОСТЬЮ.## О MovemakerMovemaker является первой официальной общественной организацией, уполномоченной фондом Aptos и совместно созданной Ankaa и BlockBooster, которая сосредоточена на продвижении строительства и развития экосистемы Aptos в китайскоязычном регионе. В качестве официального представителя Aptos в китайскоязычном регионе, Movemaker стремится создать многообразную, открытую и процветающую экосистему Aptos, соединяя разработчиков, пользователей, капитал и множество экологических партнеров.Отказ от ответственности:Эта статья/блог предназначена только для информационных целей и представляет личные взгляды автора и не обязательно отражает позицию Movemaker. Данная статья не предназначена для предоставления следующих целей: (i) советы по инвестициям или инвестиционные рекомендации; (ii) предложение или призыв к покупке, продаже или владению цифровыми активами; или (iii) финансовые, бухгалтерские, юридические или налоговые консультации. Владение цифровыми активами, включая стейблкоины и NFT, чрезвычайно рискованно, сильно волатильно по цене и даже может стать бесполезным. Вы должны тщательно обдумать, подходит ли вам торговля или владение цифровыми активами в свете вашего собственного финансового положения. Пожалуйста, проконсультируйтесь со своим юридическим, налоговым или инвестиционным консультантом, если у вас есть вопросы о ваших конкретных обстоятельствах. Информация, представленная в этой статье, включая рыночные данные и статистику, если таковая имеется, предназначена только для общих информационных целей. При подготовке этих рисунков и графиков была предпринята разумная осторожность, но мы не несем ответственности за любые фактические ошибки или упущения, выраженные в них.