لماذا يُعتبر التعددية والتجزئة وهمًا في Web3 AI؟

المؤلف الأصلي: @BlazingKevin_ ، الباحث في موفيمكر

لم يجلب تطور النماذج متعددة الوسائط الفوضى ، ولكنه عمق الحواجز التقنية ل Web2 الذكاء الاصطناعي - من المحاذاة الدلالية إلى الفهم البصري ، ومن التضمين عالي الأبعاد إلى اندماج الميزات ، تقوم النماذج المعقدة بدمج العديد من التعبيرات المشروطة بسرعة غير مسبوقة لبناء مرتفعات الذكاء الاصطناعي المغلقة بشكل متزايد. كما صوتت سوق الأسهم الأمريكية بقدميها ، سواء كانت أسهم العملات أو أسهم الذكاء الاصطناعي ، فقد خرجوا من موجة من السوق الصاعدة. وموجة الحر هذه لا علاقة لها بالعملات المشفرة. محاولات الذكاء الاصطناعي Web3 التي رأيناها ، وخاصة تطور اتجاه الوكيل في الأشهر الأخيرة ، خاطئة تماما تقريبا: التفكير بالتمني لاستخدام هيكل لامركزي لتجميع نظام معياري متعدد الوسائط على غرار Web2 هو في الواقع اختلال مزدوج في التكنولوجيا والتفكير. في الوحدات النمطية عالية الاقتران اليوم ، وتوزيع الميزات غير المستقر للغاية ، والطلب على طاقة الحوسبة المركزة بشكل متزايد ، لا يمكن للوحدات النمطية متعددة الوسائط ببساطة أن تقف في Web3. دعنا نشير إلى: مستقبل الذكاء الاصطناعي Web3 لا يتعلق بالتقليد ، بل يتعلق بالالتفاف الاستراتيجي. من المحاذاة الدلالية للمساحات عالية الأبعاد ، إلى عنق الزجاجة في المعلومات في آلية الانتباه ، إلى محاذاة الميزات في ظل قوة الحوسبة غير المتجانسة ، سأقوم بتوسيعها واحدة تلو الأخرى لشرح سبب وجوب استخدام الذكاء الاصطناعي Web3 للريف لتطويق المدينة كبرنامج تكتيكي.

الذكاء الاصطناعي Web3 يعتمد على نموذج متعدد الوسائط مسطح، عدم توافق المعنى يؤدي إلى ضعف الأداء

في النظام متعدد الوسائط ل Web2 الذكاء الاصطناعي الحديث ، يشير "المحاذاة الدلالية" إلى تعيين المعلومات من طرائق مختلفة (مثل الصور والنصوص والصوت والفيديو وما إلى ذلك) في نفس الفضاء الدلالي أو القابل للتحويل ، بحيث يمكن للنموذج فهم ومقارنة المعنى الجوهري وراء هذه الإشارات المتباينة في الأصل. على سبيل المثال ، بالنسبة لصورة قطة وعبارة "قطة لطيفة" ، يحتاج النموذج إلى عرضها بالقرب من بعضها البعض في مساحة مدمجة عالية الأبعاد ، بحيث يمكنها "النظر إلى الصورة والتحدث" و "الاستماع إلى الصوت لربط الصورة" عند الاسترجاع أو التوليد أو التفكير.

فقط عندما يتم تحقيق شرط الفضاء المضمنة عالية الأبعاد، فإن تقسيم سير العمل إلى وحدات مختلفة يكون له معنى في خفض التكاليف وزيادة الكفاءة. ولكن في بروتوكول web3 Agent، لا يمكن تحقيق الفضاء المضمنة عالية الأبعاد، لأن التحويل إلى وحدات هو وهم الذكاء الاصطناعي Web3.

كيف نفهم الفضاء المدمج عالي الأبعاد؟ على المستوى الأكثر بداهة، تخيل "الفضاء المدمج عالي الأبعاد" كأنه نظام إحداثيات - تمامًا كما هو الحال مع إحداثيات x-y على المستوى، يمكنك استخدام زوج من الأرقام لتحديد نقطة. فقط في المستوى الثنائي الأبعاد الشائع لدينا، يتم تحديد نقطة بواسطة رقمين (x, y) بالكامل؛ بينما في الفضاء "عالي الأبعاد"، يجب استخدام المزيد من الأرقام لوصف كل نقطة، قد يكون ذلك 128 رقمًا، 512 رقمًا، أو حتى الآلاف من الأرقام.

بخطوات تدريجية، لفهمها على ثلاث مراحل:

  1. مثال ثنائي الأبعاد:

تخيل أنك قد قمت بوضع علامات على إحداثيات عدة مدن على الخريطة، مثل بكين (116.4، 39.9)، شنغهاي (121.5، 31.2)، قوانغتشو (113.3، 23.1). كل مدينة هنا تتوافق مع "متجه تضمين ثنائي الأبعاد" (embedding vector): حيث تقوم الإحداثيات الثنائية بترميز المعلومات الجغرافية في الأرقام.

إذا كنت تريد قياس "تشابه" المدن - غالبًا ما تكون المدن القريبة من بعضها البعض على الخريطة في نفس المنطقة الاقتصادية أو المناخية - يمكنك ببساطة مقارنة المسافة الإقليدية لإحداثياتها. 2. التوسع إلى أبعاد متعددة:

الآن افترض أنك لا تريد فقط وصف الموقع على "الفضاء الجغرافي"، بل تريد أيضًا إضافة بعض "الخصائص المناخية" (درجة الحرارة المتوسطة، كمية الأمطار)، و"خصائص السكان" (كثافة السكان، الناتج المحلي الإجمالي) وغيرها. يمكنك تخصيص لكل مدينة متجهًا يحتوي على 5، 10، أو حتى المزيد من الأبعاد.

على سبيل المثال، قد يكون المتجه ذو الأبعاد الخمسة لمدينة جوانزو هو [ 113.3, 23.1, 24.5, 1700, 14.5 ]، والتي تمثل على التوالي خطوط الطول، خطوط العرض، متوسط درجة الحرارة، كمية الأمطار السنوية (بالمليمترات)، ومؤشر الاقتصاد. هذه "المساحة متعددة الأبعاد" تسمح لك بمقارنة المدن عبر عدة أبعاد مثل الجغرافيا، المناخ، والاقتصاد في نفس الوقت: إذا كانت متجهات مدينتين متقاربة جدًا، فهذا يعني أنهما متشابهتان جدًا في هذه الخصائص. 3. الانتقال إلى الدلالات - لماذا يجب "التضمين": في معالجة اللغة الطبيعية (NLP) أو الرؤية الحاسوبية، نرغب أيضًا في تعيين "الكلمات" أو "الجمل" أو "الصور" إلى متجه متعدد الأبعاد بحيث تكون "الكلمات أو الصور ذات المعاني المتشابهة" أقرب في الفضاء. تُسمى هذه العملية "التضمين" (embedding). على سبيل المثال: نحن نقوم بتدريب نموذج لربط "cat" (قطة) بمتجه ذي 300 بعد v₁، وربط "dog" (كلب) بمتجه آخر v₂، وربط الكلمات "غير ذات صلة" مثل "economy" (اقتصاد) بمتجه v₃. لذا، في هذا الفضاء المكون من 300 بعد، ستكون المسافة بين v₁ و v₂ صغيرة جداً (لأنهما حيوانات وغالباً ما تظهران في بيئات لغوية مشابهة)، بينما ستكون المسافة بين v₁ و v₃ كبيرة. نظرا لأن النموذج يتم تدريبه على كميات هائلة من أزواج النص أو الصورة والنص ، فإن كل بعد يتعلمه لا يتوافق بشكل مباشر مع الخصائص القابلة للتفسير مثل "خط الطول" أو "خط العرض" ، بل نوع من "الميزة الدلالية الضمنية". قد تلتقط بعض الأبعاد التقسيم الخشن الحبيبي ل "مقابل غير الحيواني" ، وقد يميز البعض الآخر بين "المحلي مقابل البرية" ، والبعض الآخر قد يتوافق مع الشعور ب "لطيف مقابل الأقوياء...... باختصار ، تعمل مئات أو آلاف الأبعاد معا لتشفير جميع أنواع الطبقات الدلالية المعقدة والمتشابكة.

ما هو الفرق بين الأبعاد العالية والمنخفضة؟ يمكن لعدد كاف فقط من الأبعاد أن يستوعب مجموعة متنوعة من السمات الدلالية المتشابكة ، ويمكن للأبعاد العالية فقط أن تجعلها تتمتع بموقع أوضح في خطوط العرض الدلالية الخاصة بها. عندما لا يمكن تمييز الدلالات ، أي أنه لا يمكن محاذاة الدلالات ، فإن الإشارات المختلفة في الفضاء منخفض الأبعاد "تضغط" على بعضها البعض ، مما يؤدي إلى ارتباك متكرر في استرجاع أو تصنيف النموذج ، وتقل الدقة بشكل كبير. ثانيا ، من الصعب التقاط الاختلافات الدقيقة في مرحلة إنشاء الإستراتيجية ، ومن السهل تفويت إشارات التداول الرئيسية أو إساءة تقدير عتبة المخاطرة ، مما يؤدي مباشرة إلى انخفاض أداء العوائد. بالإضافة إلى ذلك ، يصبح التعاون بين الوحدات مستحيلا ، ويعمل كل وكيل بشكل مستقل ، وظاهرة جزر المعلومات خطيرة ، ويزداد تأخير الاستجابة الإجمالي ، وتصبح المتانة ضعيفة. أخيرا ، في مواجهة سيناريوهات السوق المعقدة ، فإن الهيكل منخفض الأبعاد ليس لديه القدرة تقريبا على حمل بيانات متعددة المصادر ، ويصعب ضمان استقرار النظام وقابليته للتوسع ، ولا بد أن تقع العملية طويلة الأجل في اختناقات الأداء وصعوبات الصيانة ، مما يؤدي إلى فجوة كبيرة بين أداء المنتج بعد الهبوط والتوقعات الأولية.

فهل يمكن لبروتوكولات الذكاء الاصطناعي أو الوكيل Web3 تحقيق مساحة تضمين عالية الأبعاد؟ بادئ ذي بدء ، للإجابة على سؤال حول كيفية تحقيق مساحة عالية الأبعاد ، يتطلب المعنى التقليدي ل "عالي الأبعاد" أن يتماشى كل نظام فرعي ، مثل ذكاء السوق ، وإنشاء الإستراتيجية ، والتنفيذ والتنفيذ ، والتحكم في المخاطر ، مع بعضه البعض ويكمل كل منهما الآخر في تمثيل البيانات وعملية صنع القرار. ومع ذلك ، فإن معظم وكلاء Web3 يقومون فقط بتغليف واجهات برمجة التطبيقات الجاهزة (واجهات CoinGecko و DEX وما إلى ذلك) في "وكلاء" مستقلين ، ويفتقرون إلى مساحة تضمين مركزية موحدة وآلية انتباه عبر الوحدات ، مما يؤدي إلى معلومات لا يمكن أن تتفاعل بين الوحدات النمطية من زوايا ومستويات متعددة ، ويمكنها فقط اتباع خط أنابيب خطي ، يظهر وظيفة واحدة ، وغير قادر على تشكيل تحسين شامل للحلقة المغلقة.

الكثير من الوكلاء يتصلون مباشرة بالواجهات الخارجية، وحتى أنهم لم يقوموا بتعديل البيانات العائدة من الواجهات بما يكفي أو إجراء هندسة ميزات. على سبيل المثال، يقوم وكيل تحليل السوق ببساطة بأخذ الأسعار وحجم المعاملات، بينما يقوم وكيل تنفيذ التداول بوضع الطلبات فقط وفقًا لبارامترات الواجهة، ويقوم وكيل التحكم في المخاطر فقط بإصدار إنذارات وفقًا لعدد من الحدود. كل منهم يقوم بدوره، لكنهم يفتقرون إلى الدمج متعدد الأبعاد والفهم العميق للمعاني للإشارات السوقية أو أحداث المخاطر نفسها، مما يؤدي إلى عدم قدرة النظام على توليد استراتيجيات شاملة ومتعددة الزوايا بسرعة عندما يواجه ظروفًا متطرفة أو فرص عبر الأصول.

لذلك ، فإن طلب الذكاء الاصطناعي Web3 لتحقيق مساحة عالية الأبعاد يعادل مطالبة بروتوكول Agent بتطوير جميع واجهات API المعنية ، وهو ما يتعارض مع نيته الأصلية المتمثلة في الوحدات النمطية ، ولا يمكن للنظام المعياري متعدد الوسائط الموصوف من قبل الشركات الصغيرة والمتوسطة الحجم في Web3 الذكاء الاصطناعي أن يصمد أمام التدقيق. تتطلب البنية عالية الأبعاد تدريبا موحدا شاملا أو تحسينا تعاونيا: من التقاط الإشارة إلى حساب الإستراتيجية ، إلى التنفيذ والتحكم في المخاطر ، تشترك جميع الروابط في نفس مجموعة وظائف التمثيل والخسارة. أدت فكرة "الوحدة النمطية كمكون إضافي" لعامل Web3 إلى تفاقم التجزئة - يتم الانتهاء من ترقية كل وكيل ونشره وضبط المعلمات في صومعته الخاصة ، والذي يصعب تكراره بشكل متزامن ، ولا توجد آلية مراقبة وتغذية مرتدة مركزية فعالة ، مما يؤدي إلى ارتفاع تكاليف الصيانة والأداء العام المحدود.

لتنفيذ وكيل ذكي شامل بسياج صناعي، يحتاج الأمر إلى نمذجة مشتركة من النهاية إلى النهاية، وتضمين موحد عبر الوحدات، وهندسة نظامية للتدريب والتوزيع التعاوني لتحقيق الانفراج، ولكن السوق الحالي لا يعاني من مثل هذه المشكلات، وبالتالي لا يوجد طلب في السوق.

في الفضاء ذي الأبعاد المنخفضة، لا يمكن تصميم آلية الانتباه بدقة

تحتاج النماذج متعددة الوسائط عالية المستوى إلى تصميم آليات اهتمام متطورة. "آلية الانتباه" هي في الأساس طريقة لتخصيص الموارد الحسابية ديناميكيا ، مما يسمح للنموذج "بالتركيز" بشكل انتقائي على الأجزاء الأكثر صلة عند معالجة مدخلات مشروطة. الأكثر شيوعا هي آليات الانتباه الذاتي والانتباه المتبادل في المحول: يمكن الانتباه الذاتي النموذج من قياس التبعيات بين العناصر في تسلسل ، مثل أهمية كل كلمة في النص لكلمات أخرى. يسمح Transattention بالمعلومات من طريقة واحدة (على سبيل المثال ، النص) لتحديد ميزات الصورة التي يجب "رؤيتها" عند فك تشفير أو إنشاء طريقة أخرى (على سبيل المثال ، تسلسل ميزات الصورة). من خلال الاهتمام متعدد الرؤوس ، يمكن للنموذج تعلم محاذاة متعددة في وقت واحد في مساحات فرعية مختلفة لالتقاط ارتباطات أكثر تعقيدا ودقة.

فرضية آلية الانتباه هي أن تعدد الوسائط لها أبعاد عالية ، وفي الفضاء عالي الأبعاد ، يمكن لآلية الانتباه المتطورة أن تجد الجزء الأساسي من الفضاء الضخم عالي الأبعاد في أقصر وقت. قبل شرح سبب الحاجة إلى وضع آلية الانتباه في مساحة عالية الأبعاد من أجل لعب دور ، نفهم أولا عملية الذكاء الاصطناعي Web2 التي يمثلها وحدة فك ترميز المحولات عند تصميم آلية الانتباه. الفكرة الأساسية هي أنه عند معالجة التسلسلات (النص ، وتصحيحات الصور ، والإطارات الصوتية) ، يقوم النموذج ديناميكيا بتعيين "أوزان الانتباه" لكل عنصر ، مما يسمح له بالتركيز على المعلومات الأكثر صلة ، بدلا من معاملتها بشكل أعمى على قدم المساواة.

ببساطة ، إذا قارنت آلية الانتباه بالسيارة ، فإن تصميم Query-Key-Value هو تصميم المحرك. Q-K-V هي الآلية التي تساعدنا في تحديد المعلومات الأساسية ، يشير الاستعلام إلى الاستعلام ( "ما الذي أبحث عنه" ) ، يشير المفتاح إلى الفهرس ( "ما هي التسمية التي لدي" ) ، تشير القيمة إلى المحتوى (" ماذا هنا" ). بالنسبة للنموذج متعدد الوسائط ، يمكن أن يكون ما تدخله في النموذج عبارة عن جملة أو صورة أو صوت. من أجل استرداد المحتوى الذي نحتاجه في مساحة الأبعاد ، يتم تقطيع هذه المدخلات إلى أصغر الوحدات ، مثل حرف ، أو كتلة صغيرة بحجم بكسل معين ، أو قطعة من إطار الصوت ، ويولد النموذج متعدد الوسائط استعلاما ومفتاح وقيمة لهذه الوحدات الدنيا لحساب الانتباه. عندما يعالج النموذج موقعا معينا ، سيستخدم الاستعلام عن هذا الموضع لمقارنة مفاتيح جميع المواضع ، وتحديد العلامات التي تتناسب بشكل أفضل مع المتطلبات الحالية ، ثم استخراج القيمة من الموضع المقابل وفقا لدرجة المطابقة ووزن المجموعة وفقا للأهمية ، وأخيرا الحصول على تمثيل جديد لا يحتوي فقط على معلوماته الخاصة ، ولكن أيضا يدمج المحتوى ذي الصلة للعالم بأسره. بهذه الطريقة ، يمكن "التشكيك في كل مخرجات واستردادها ودمجها" ديناميكيا وفقا للسياق لتحقيق تركيز معلومات فعال ودقيق.

على أساس هذا المحرك ، تتم إضافة أجزاء مختلفة ، ويتم الجمع بين "التفاعل العالمي" و "التعقيد الذي يمكن التحكم فيه" بذكاء: يضمن المنتج النقطي المتدرج الاستقرار العددي ، والتعبير الغني المتوازي متعدد الرؤوس ، وترميز الموضع يحافظ على ترتيب التسلسل ، والمتغيرات المتناثرة تأخذ في الاعتبار الكفاءة ، وتساعد المخلفات والتطبيع على التدريب المستقر ، ويفتح الانتباه المتبادل متعدد الوسائط. تمكن هذه التصميمات المعيارية طبقة تلو الأخرى Web2 الذكاء الاصطناعي من الحصول على قدرات تعليمية قوية والعمل بكفاءة ضمن نطاق ميسور التكلفة من قوة الحوسبة عند التعامل مع مجموعة متنوعة من المهام المتسلسلة والمتعددة الوسائط.

لماذا لا يستطيع الذكاء الاصطناعي Web3 المستند إلى وحدات تحقيق جدولة انتباه موحدة؟ أولا ، تعتمد آلية الانتباه على مساحة استعلام - مفتاح - قيمة موحد ، ويجب تعيين جميع ميزات الإدخال إلى نفس مساحة المتجه عالية الأبعاد لحساب الأوزان الديناميكية من حاصل الضرب النقطي. ومع ذلك ، تعرض واجهات برمجة التطبيقات المستقلة تنسيقات مختلفة وتوزيعات مختلفة للبيانات - السعر وحالة الأمر وإنذارات العتبة - بدون طبقة تضمين موحدة ، ولا يمكنها تشكيل مجموعة من Q / K / V التفاعلية. ثانيا ، يسمح الاهتمام متعدد الرؤوس بالاهتمام بمصادر المعلومات المختلفة بالتوازي على نفس المستوى في نفس الوقت ، ثم يتم تجميع النتائج. ومع ذلك ، غالبا ما تقوم واجهات برمجة التطبيقات المستقلة "باستدعاء A أولا ، ثم استدعاء B ، ثم استدعاء C" ، وإخراج كل خطوة هو فقط إدخال الوحدة التالية ، والتي تفتقر إلى القدرة على الترجيح الديناميكي المتوازي والمتعدد القنوات ، وبطبيعة الحال لا يمكنها محاكاة الجدولة الدقيقة لتسجيل وتوليف جميع المواضع أو الطرائق في نفس الوقت في آلية الانتباه. أخيرا ، تقوم آلية الاهتمام الحقيقي بتعيين الأوزان ديناميكيا لكل عنصر بناء على السياق العام. في وضع واجهة برمجة التطبيقات ، لا يمكن للوحدات النمطية رؤية السياق "المستقل" إلا عند استدعاؤها ، ولا يوجد سياق مركزي مشترك مع بعضها البعض في الوقت الفعلي ، لذلك من المستحيل تحقيق ارتباط عالمي وتركيز عبر الوحدات.

لذلك، من خلال الاعتماد فقط على تحويل أنواع مختلفة من الوظائف إلى واجهات برمجة تطبيقات منفصلة - دون تمثيل مشترك للمتجهات، ودون وزن وتجميع متوازي، لا يمكن بناء قدرة "جدولة انتباه موحد" مثل Transformer، تمامًا كما أنه من الصعب زيادة الحد الأقصى لسيارة ذات أداء محرك ضعيف مهما تم تعديلها.

التجميع المعياري المنفصل يؤدي إلى دمج الخصائص في تجميع سطحي ثابت

"دمج الميزات" هو عبارة عن دمج المتجهات المميزة الناتجة عن معالجة أنماط مختلفة بناءً على التوافق والانتباه، لاستخدامها مباشرة في المهام اللاحقة (مثل التصنيف، والاسترجاع، والتوليد، وغيرها). يمكن أن تكون وسائل الدمج بسيطة مثل الربط، أو الجمع المتوازن، أو معقدة مثل التجميع الثنائي، وتحليل الموتر، وحتى تقنيات التوجيه الديناميكي. أما الطرق الأكثر تقدمًا فهي تتمثل في التناوب بين التوافق والانتباه والدمج عبر الشبكات متعددة الطبقات، أو من خلال إنشاء مسارات نقل رسائل أكثر مرونة بين الميزات متعددة الأنماط باستخدام الشبكات العصبية الرسومية (GNN) لتحقيق تفاعل عميق للمعلومات.

لا داعي للقول إن Web3 AI بالطبع لا يزال في مرحلة التركيب البسيط، لأن دمج الميزات الديناميكية يتطلب فضاءً عالي الأبعاد وآلية انتباه دقيقة. وعندما لا تكون هذه الشروط متوفرة، فإنه من الطبيعي أن دمج الميزات في المرحلة النهائية لا يمكن أن يحقق أداءً متميزاً.

يميل الذكاء الاصطناعي Web2 إلى التدريب المشترك الشامل: تتم معالجة جميع الميزات المشروطة مثل الصور والنصوص والصوت في وقت واحد في نفس المساحة عالية الأبعاد ، ويتعلم النموذج تلقائيا أوزان الاندماج المثلى وأوضاع التفاعل في الانتشار الأمامي والخلفي من خلال التحسين المشترك مع طبقة المهام النهائية من خلال طبقة الانتباه وطبقة الاندماج. من ناحية أخرى ، يستخدم Web3 الذكاء الاصطناعي المزيد من الربط النمطي المنفصل ، وتغليف واجهات برمجة التطبيقات المختلفة مثل التعرف على الصور ، والتقاط السوق ، وتقييم المخاطر في وكلاء مستقلين ، ثم ببساطة تجميع الملصقات أو القيم أو إنذارات العتبة التي يخرجونها ، واتخاذ قرارات شاملة عن طريق المنطق الرئيسي أو الدليل ، والذي يفتقر إلى هدف تدريب موحد وعدم وجود تدفق متدرج عبر الوحدات.

في Web2 الذكاء الاصطناعي ، يعتمد النظام على آلية الانتباه لحساب درجات الأهمية للميزات المختلفة في الوقت الفعلي وفقا للسياق ، وضبط استراتيجية الاندماج ديناميكيا. يمكن للانتباه متعدد الرؤوس أيضا التقاط أنماط تفاعل ميزات مختلفة متعددة بالتوازي على نفس المستوى ، مع مراعاة التفاصيل المحلية والدلالات العالمية. من ناحية أخرى ، غالبا ما يقوم Web3 الذكاء الاصطناعي بإصلاح وزن "الصورة × 0.5 + نص × 0.3 + السعر × 0.2" مقدما ، أو يستخدم قواعد if / else بسيطة لتحديد ما إذا كان سيتم الاندماج ، أو عدم الاندماج على الإطلاق ، ويقدم فقط إخراج كل وحدة معا ، مما يفتقر إلى المرونة.

يقوم Web2 الذكاء الاصطناعي بتعيين جميع الميزات المشروطة إلى مساحة عالية الأبعاد لعدة آلاف من الأبعاد ، ولا تقتصر عملية الاندماج على خياطة المتجهات فحسب ، بل أيضا مجموعة متنوعة من التفاعلات ذات الترتيب الأعلى مثل الجمع والتجميع ثنائي الخط - كل بعد لديه القدرة على التوافق مع دلالة كامنة ، مما يمكن النموذج من التقاط ارتباطات عميقة ومعقدة عبر الوسائط. في المقابل ، غالبا ما يحتوي إخراج وكيل Web3 الذكاء الاصطناعي على عدد قليل من الحقول أو المقاييس الرئيسية ، وأبعاد الميزة منخفضة للغاية ، مما يجعل من المستحيل تقريبا نقل معلومات دقيقة مثل "لماذا يتطابق محتوى الصورة مع معنى النص" أو "العلاقة الدقيقة بين تقلبات الأسعار وتحركات المعنويات".

في Web2 AI، يتم إعادة نقل خسائر المهام السفلية باستمرار إلى أجزاء النموذج من خلال طبقات الانتباه وطبقات الدمج، مما يتيح ضبط تلقائي للميزات التي يجب تعزيزها أو قمعها، مما يشكل تحسينًا مغلقًا. على النقيض من ذلك، فإن Web3 AI، بعد الإبلاغ عن نتائج استدعاء API، تعتمد بشكل كبير على العمليات اليدوية أو الخارجية لتقييم وضبط المعلمات، مما يفتقر إلى التغذية الراجعة التلقائية من الطرف إلى الطرف، مما يجعل استراتيجيات الدمج صعبة التكرار والتحسين عبر الإنترنت.

الحواجز في صناعة الذكاء الاصطناعي تتعمق، لكن نقاط الألم لم تظهر بعد

نظرا للحاجة إلى مراعاة المحاذاة متعددة الوسائط ، وحوسبة الانتباه المتطورة ، ودمج الميزات عالية الأبعاد في التدريب الشامل ، فإن النظام متعدد الوسائط ل Web2 الذكاء الاصطناعي غالبا ما يكون مشروعا هندسيا كبيرا للغاية. لا يتطلب فقط مجموعات بيانات متعددة الوسائط ضخمة ومتنوعة ومشروحة جيدا ، ولكنه يتطلب أيضا أسابيع أو حتى شهورا من التدريب على الآلاف من وحدات معالجة الرسومات. من حيث بنية النموذج ، فإنه يدمج العديد من أحدث مفاهيم تصميم الشبكة وتقنيات التحسين. فيما يتعلق بتنفيذ المشروع ، من الضروري أيضا بناء منصة تدريب موزعة قابلة للتطوير ، ونظام مراقبة ، وإدارة إصدار نموذجي وخط أنابيب النشر. في البحث والتطوير للخوارزميات ، من الضروري الاستمرار في دراسة متغيرات الانتباه الأكثر كفاءة ، وخسائر المحاذاة الأكثر قوة ، واستراتيجيات الاندماج الأخف. مثل هذا العمل المنهجي الكامل وكامل المكدس له متطلبات عالية للغاية لرأس المال والبيانات وقوة الحوسبة والمواهب وحتى التعاون التنظيمي ، لذلك فهو يشكل حاجزا صناعيا قويا وقد خلق أيضا القدرة التنافسية الأساسية التي يتقنها عدد قليل من الفرق الرائدة حتى الآن.

عندما راجعت تطبيقات الذكاء الاصطناعي الصينية في أبريل وقارنت WEB3 ai ، ذكرت وجهة نظر: في الصناعات ذات الحواجز القوية ، قد تحقق Crypto اختراقات ، مما يعني أن بعض الصناعات كانت ناضجة جدا في الأسواق التقليدية ، ولكن هناك نقاط ألم ضخمة ، والنضج العالي يعني أن هناك عددا كافيا من المستخدمين على دراية بنماذج الأعمال المماثلة ، ونقاط الألم الكبيرة تعني أن المستخدمين على استعداد لتجربة حلول جديدة ، أي الاستعداد القوي لقبول Crypto ، كلاهما لا غنى عنه ، أي على العكس من ذلك ، إذا لم تكن صناعة ناضجة بالفعل في السوق التقليدية ، ولكن هناك نقاط ألم ضخمة ، فلن تتمكن Crypto من التجذر فيها ، ولن يكون هناك مجال للبقاء على قيد الحياة ، ورغبة المستخدمين في فهمها تماما منخفضة للغاية ، ولا يفهمون حدودها العليا المحتملة.

يجب تطوير الذكاء الاصطناعي WEB3 أو أي منتج تشفير تحت راية PMF بتكتيك إحاطة المدينة في الريف ، ويجب اختبار المياه على نطاق صغير في الوضع الهامشي ، للتأكد من أن الأساس متين ، ثم انتظار ظهور السيناريو الأساسي ، أي المدينة المستهدفة. يكمن جوهر الذكاء الاصطناعي Web3 في اللامركزية ، وينعكس مسار تطوره في توافق التوازي العالي ، والاقتران المنخفض ، وقوة الحوسبة غير المتجانسة. هذا يجعل الذكاء الاصطناعي Web3 أكثر فائدة في سيناريوهات مثل الحوسبة المتطورة, وهو مناسب للمهام ذات الهياكل خفيفة الوزن, التوازي السهل, والتحفيز, مثل الضبط الدقيق LoRA, مهام ما بعد التدريب المتوافقة سلوكيا, التدريب على البيانات الجماعية والتعليقات التوضيحية, تدريب النموذج الأساسي الصغير, والتدريب التعاوني على الأجهزة المتطورة. بنية المنتج لهذه السيناريوهات خفيفة الوزن ، ويمكن تكرار خارطة الطريق بمرونة. لكن هذا لا يعني أن الفرصة الآن ، لأن حواجز الذكاء الاصطناعي WEB2 قد بدأت للتو في التشكل ، فقد حفز ظهور Deepseek تقدم الذكاء الاصطناعي للمهام المعقدة متعددة الوسائط ، وهو منافسة الشركات الرائدة ، وهي المرحلة الأولى من ظهور أرباح الذكاء الاصطناعي WEB2 ، أعتقد أنه فقط عندما تختفي أرباح الذكاء الاصطناعي WEB2 ، فإن نقاط الألم التي خلفها وراءه هي الفرص التي يخلفها الذكاء الاصطناعي WEB3 ، تماما مثل الولادة الأصلية ل DeFi ، وقبل أن يحين الوقت ، WEB3 الذكاء الاصطناعي نحن بحاجة إلى تحديد الاتفاق بعناية الذي يحتوي على "المناطق الريفية المحيطة بالمدن" ، سواء للقطع من الحافة ، أو الحصول أولا على موطئ قدم ثابت في الريف (أو السوق الصغيرة ، المشهد الصغير) حيث تكون القوة ضعيفة والسوق لديها القليل من المشاهد المتجذرة ، وتراكم الموارد والخبرات تدريجيا. إذا تعذر القيام بذلك، فمن الصعب الاعتماد على الحشد الشعبي لتحقيق قيمة سوقية تبلغ مليار دولار على هذا الأساس، ولن تكون مثل هذه المشاريع على قائمة المراقبة. نحتاج إلى الانتباه إلى ما إذا كان بروتوكول الذكاء الاصطناعي WEB3 يحتاج إلى أن يكون مرنا تماما ومرنا لسيناريوهات مختلفة ، ويمكنه التنقل بسرعة بين المناطق الريفية ، والاقتراب من المدينة المستهدفة بأسرع سرعة.

حول Movemaker

Movemaker هي أول منظمة مجتمعية رسمية مرخصة من قبل مؤسسة Aptos وبدأتها Ankaa و BlockBooster بشكل مشترك ، مع التركيز على تعزيز بناء وتطوير مجتمع Aptos الناطق بالصينية. بصفتها الممثل الرسمي ل Aptos في المنطقة الناطقة باللغة الصينية ، تلتزم Movemaker ببناء نظام بيئي متنوع ومفتوح ومزدهر ل Aptos من خلال ربط المطورين والمستخدمين ورأس المال والعديد من شركاء النظام البيئي.

إخلاء المسؤولية:

هذه المقالة / المدونة لأغراض إعلامية فقط وتمثل وجهات النظر الشخصية للمؤلف ولا تمثل بالضرورة موقف Movemaker. لا يقصد من هذه المقالة توفير: (i) المشورة الاستثمارية أو توصيات الاستثمار. (ii) عرض أو التماس لشراء الأصول الرقمية أو بيعها أو الاحتفاظ بها؛ أو (iii) المشورة المالية أو المحاسبية أو القانونية أو الضريبية. يعد الاحتفاظ بالأصول الرقمية ، بما في ذلك العملات المستقرة و NFTs ، محفوفا بالمخاطر للغاية ، ومتقلبا للغاية في السعر ، ويمكن أن يصبح عديم القيمة. يجب أن تفكر بعناية فيما إذا كان تداول الأصول الرقمية أو الاحتفاظ بها مناسبا لك في ضوء وضعك المالي. يرجى استشارة مستشارك القانوني أو الضريبي أو الاستثماري إذا كانت لديك أسئلة حول ظروفك الخاصة. المعلومات الواردة في هذه المقالة، بما في ذلك بيانات السوق والإحصاءات، إن وجدت، هي لأغراض المعلومات العامة فقط. وقد تم توخي الحذر المعقول في إعداد هذه الأرقام والرسوم البيانية، ولكن لا تقبل أي مسؤولية عن أي أخطاء أو إغفالات وقائعية معبر عنها فيها.

شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت