تطور نماذج تدريب الذكاء الاصطناعي: من التحكم المركزي إلى الثورة التكنولوجية للتعاون اللامركزي
في سلسلة القيمة الكاملة للذكاء الاصطناعي، يعد تدريب النموذج هو المرحلة الأكثر استهلاكًا للموارد وأعلى مستوى من التعقيد التقني، حيث يحدد مباشرة الحد الأقصى لقدرات النموذج وتأثير التطبيق الفعلي. بالمقارنة مع الاستدعاءات الخفيفة في مرحلة الاستدلال، يتطلب عملية التدريب استثمارًا مستمرًا في قوة الحوسبة الكبيرة، وعملية معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من حيث نماذج البنية، يمكن تصنيف طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي يتم مناقشته بشكل رئيسي في هذه المقالة.
تعتبر التدريبات المركزية هي الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب من قبل مؤسسة واحدة ضمن مجموعة محلية عالية الأداء، بدءًا من الأجهزة، والبرامج الأساسية، ونظام جدولة المجموعات، إلى جميع مكونات إطار التدريب، وكلها تُنسق بواسطة نظام تحكم موحد. تتيح هذه البنية التحتية المتعمقة التعاون مشاركة الذاكرة، وتزامن التدرجات، وآليات تحمل الأخطاء لتحقيق أقصى كفاءة، مما يجعلها مناسبة جدًا لتدريب نماذج كبيرة الحجم مثل GPT وGemini، حيث تتمتع بميزة الكفاءة العالية، وقابلية التحكم في الموارد، ولكنها في الوقت نفسه تواجه مشكلات مثل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.
التدريب الموزع هو الطريقة الرئيسية الحالية لتدريب النماذج الكبيرة، حيث تتمثل جوهرها في تقسيم مهام تدريب النموذج ثم توزيعها على عدة آلات للتعاون في التنفيذ، وذلك لتجاوز قيود الحوسبة والتخزين على جهاز واحد. على الرغم من أن لديها خصائص "موزعة" من الناحية الفيزيائية، إلا أن التحكم والتنسيق والتزامن لا يزال يتم من قبل مؤسسة مركزية، وغالبًا ما تعمل في بيئة شبكة محلية سريعة، من خلال تقنية ناقل الربط السريع NVLink، حيث يتم تنسيق المهام الفرعية بواسطة العقدة الرئيسية. تشمل الطرق الرئيسية ما يلي:
التوازي البيانات: يقوم كل عقدة بتدريب بيانات مختلفة مع مشاركة المعلمات، ويجب مطابقة أوزان النموذج
التوازي بين النماذج: نشر أجزاء مختلفة من النموذج على عقد مختلفة لتحقيق قابلية توسعة قوية؛
تنفيذ متوازي عبر الأنابيب: تنفيذ تسلسلي على مراحل، لزيادة معدل الإرسال؛
التوازي عبر المصفوفات: تقسيم دقيق لحساب المصفوفات، مما يعزز درجة التوازي.
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، مقارنةً برئيس واحد يقود عن بُعد موظفين في عدة "مكاتب" للتعاون في إكمال المهام. حاليًا، يتم تدريب تقريبًا جميع النماذج الكبيرة الرائجة بهذه الطريقة.
اللامركزية التدريبية تمثل مسارًا مستقبليًا يتمتع بقدر أكبر من الانفتاح ومقاومة الرقابة. تتمثل الخصائص الأساسية في: عدة نقاط غير موثوقة (قد تكون أجهزة كمبيوتر منزلية، أو وحدات معالجة رسومات سحابية، أو أجهزة طرفية) تتعاون لإنجاز مهام التدريب دون وجود منسق مركزي، عادةً من خلال بروتوكولات تدفع توزيع المهام والتعاون، ومن خلال آليات تحفيز مشفرة لضمان نزاهة المساهمات. التحديات الرئيسية التي تواجه هذا النموذج تشمل:
صعوبة في التنسيق بين الأجهزة المتنوعة والانقسام: صعوبة عالية في تنسيق الأجهزة المتنوعة، وكفاءة منخفضة في تقسيم المهام؛
عنق الزجاجة في كفاءة الاتصال: الاتصال الشبكي غير مستقر، وظهور واضح لعنق الزجاجة في تزامن التدرجات؛
فقدان التنفيذ الموثوق: نقص في بيئة التنفيذ الموثوق، مما يجعل من الصعب التحقق مما إذا كانت العقدة تشارك فعلاً في الحساب؛
نقص التنسيق الموحد: لا يوجد جهاز تحكم مركزي، توزيع المهام، وآلية التراجع عن الأخطاء معقدة.
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين من جميع أنحاء العالم، يساهمون كل على حدة في قوة الحساب لتدريب النموذج بشكل تعاوني، ولكن "التدريب اللامركزي الكبير القابل للتطبيق حقًا" لا يزال تحديًا هندسيًا نظاميًا يتضمن جوانب متعددة مثل بنية النظام، بروتوكولات الاتصال، أمان التشفير، آليات الاقتصاد، والتحقق من النموذج، لكن ما إذا كان يمكن "التعاون بشكل فعال + تحفيز الأمانة + النتائج الصحيحة" لا يزال في مرحلة استكشاف النموذج الأولي المبكرة.
تعلم الفيدرالية كمرحلة انتقالية بين التوزيع واللامركزية، يركز على الاحتفاظ بالبيانات محليًا، وتجميع معلمات النموذج مركزيًا، وهو مناسب للسيناريوهات التي تركز على الامتثال للخصوصية (مثل الرعاية الصحية والمالية). يتمتع تعلم الفيدرالية بهيكل هندسي للتدريب الموزع وقدرة على التعاون المحلي، وفي نفس الوقت يمتلك مزايا توزيع البيانات في التدريب اللامركزي، لكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يمتلك خصائص الانفتاح الكامل ومقاومة الرقابة. يمكن اعتباره "لامركزية خاضعة للسيطرة" في سيناريوهات الامتثال للخصوصية، حيث يكون أكثر اعتدالًا في مهام التدريب، وهياكل الثقة، وآليات الاتصال، مما يجعله أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.
اللامركزية تدريب الحدود، الفرص والطرق الواقعية
من منظور نمط التدريب، فإن التدريب اللامركزي لا يناسب جميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهام، وارتفاع متطلبات الموارد، أو صعوبة التعاون، فإنه بطبيعته غير مناسب للاكتمال بكفاءة بين العقد المتنوعة وغير الموثوقة. على سبيل المثال، يعتمد تدريب النماذج الكبيرة غالبًا على ذاكرة وصول عشوائي عالية، وزمن استجابة منخفض، وعرض نطاق ترددي عالي، مما يجعل من الصعب تقسيمها ومزامنتها بفعالية في الشبكات المفتوحة؛ كما أن المهام التي تتطلب خصوصية البيانات وقيود السيادة (مثل الرعاية الصحية، والمالية، والبيانات الحساسة) مقيدة بالامتثال القانوني والقيود الأخلاقية، ولا يمكن فتحها للمشاركة؛ بينما تفتقر المهام التي لا أساس لها من حوافز التعاون (مثل النماذج المغلقة المصدر أو تدريب النماذج الداخلية) إلى الدافع الخارجي للمشاركة. هذه الحدود تشكل معًا القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو مقولة زائفة. في الواقع، تظهر التدريب اللامركزي آفاق تطبيق واضحة في أنواع المهام الخفيفة الهيكل، وسهلة التوازي، وقابلة للتحفيز. بما في ذلك، على سبيل المثال لا الحصر: تعديل LoRA، مهام التدريب اللاحقة المتوافقة مع السلوك (مثل RLHF، DPO)، تدريب البيانات المجمعة ومهام التوصيف، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، بالإضافة إلى سيناريوهات التدريب التعاوني بمشاركة الأجهزة الطرفية. تتميز هذه المهام عمومًا بارتفاع التوازي، وانخفاض الترابط، وتحمل القدرة الحوسبية غير المتجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني من خلال شبكات P2P، وبروتوكول Swarm، والمحسنات الموزعة.
اللامركزية تدريب المشاريع الكلاسيكية التحليل
في الوقت الحالي، تشمل المشاريع البارزة في مجال التدريب اللامركزي والتعلم الفيدرالي بشكل رئيسي Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، وتمثل الاتجاهات المتقدمة في الأبحاث النظرية الحالية؛ بينما طرق التنفيذ لـ Gensyn وFlock.io واضحة نسبيًا، حيث يمكن رؤية تقدم أولي في الهندسة. ستحلل هذه المقالة التقنيات الأساسية والهندسة المعمارية وراء هذه المشاريع الخمسة، وستستكشف أيضًا الفروقات والعلاقات التكاملية بينها في نظام تدريب الذكاء الاصطناعي اللامركزي.
Prime Intellect: رائد الشبكة التعاونية المعززة القابلة للتحقق من مسارات التدريب
تسعى Prime Intellect إلى بناء شبكة تدريب AI لا تتطلب الثقة، مما يسمح لأي شخص بالمشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهمته في الحساب. تأمل Prime Intellect في إنشاء نظام تدريب AI اللامركزي الذي يتمتع بالتحقق، والانفتاح، وآلية تحفيز كاملة من خلال ثلاثة وحدات: PRIME-RL + TOPLOC + SHARDCAST.
أولاً، هيكل بروتوكول Prime Intellect وقيمة الوحدات الأساسية
ثانياً، شرح آلية التدريب الأساسية لـ Prime Intellect
PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المفكوك
PRIME-RL هو إطار نمذجة وتنفيذ المهام المصمم لسيناريوهات التدريب اللامركزية من قبل Prime Intellect، وهو مصمم خصيصًا للشبكات غير المتجانسة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف تكييف أولوي، حيث يفصل هيكليًا عملية التدريب والاستدلال وتحميل الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام بشكل مستقل محليًا، والتعاون من خلال واجهات معيارية وآليات التحقق والتجميع. بالمقارنة مع عمليات التعلم تحت الإشراف التقليدية، فإن PRIME-RL أكثر ملاءمة لتحقيق التدريب المرن في بيئات بدون جدولة مركزية، مما يقلل من تعقيد النظام، ويؤسس أيضًا لدعم المهام المتعددة المتوازية وتطور السياسات.
TOPLOC: آلية تحقق سلوك التدريب الخفيفة الوزن
TOPLOC (Trusted Observation & Policy-Locality Check) هو آلية أساسية للتحقق من القابلية للتدريب اقترحها Prime Intellect، تُستخدم لتحديد ما إذا كان العقد قد أكمل فعليًا تعلم سياسة فعالة استنادًا إلى بيانات المراقبة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل يكمل التحقق الهيكلي الخفيف من خلال تحليل مسارات التوافق المحلي بين "سلسلة المراقبة ↔ تحديث السياسة". إنها المرة الأولى التي يتم فيها تحويل مسارات السلوك خلال عملية التدريب إلى كائنات قابلة للتحقق، وهي الابتكار الرئيسي لتحقيق توزيع مكافآت التدريب دون الحاجة إلى الثقة، مما يوفر مسارًا قابلًا للتطبيق لبناء شبكة تدريب تعاونية لامركزية قابلة للتدقيق والتحفيز.
SHARDCAST: بروتوكول تجميع ونشر الوزن غير المتزامن
SHARDCAST هو بروتوكول انتشار ودمج الوزن المصمم من قبل Prime Intellect، والذي تم تحسينه خصيصًا للبيئات الشبكية الحقيقية ذات الحالة المتغيرة للنقاط والقيود على النطاق الترددي. يجمع بين آلية انتشار gossip واستراتيجية المزامنة المحلية، مما يسمح لعدة نقاط بتقديم تحديثات جزئية بشكل مستمر في حالة غير متزامنة، مما يؤدي إلى تقارب تدريجي للوزن وتطور متعدد النسخ. مقارنة بأساليب AllReduce المركزية أو المتزامنة، فإن SHARDCAST يعزز بشكل ملحوظ قابلية التوسع والقدرة على التحمل في التدريب اللامركزي، وهو الأساس الرئيسي لبناء توافق وزني مستقر وتدريب مستمر.
OpenDiLoCo: إطار الاتصال غير المتزامن المتناثر
OpenDiLoCo هو إطار لتحسين الاتصالات تم تنفيذه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect بناءً على مفهوم DiLoCo الذي اقترحته DeepMind، وقد صُمم خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، واختلاف الأجهزة، وعدم استقرار العقد. تعتمد هيكليته على التوازي البياني، من خلال بناء هياكل طوبولوجية نادرة مثل الحلقة، والموسع، وعالم صغير، مما يتجنب التكاليف العالية للتزامن العالمي، ويعتمد فقط على عقد الجوار المحلية لإكمال تدريب النموذج التعاوني. وبالاشتراك مع التحديثات غير المتزامنة وآلية تحمل الأخطاء، يجعل OpenDiLoCo من الممكن لمجموعة GPU الاستهلاكية والأجهزة الطرفية المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير إمكانية المشاركة في التدريب التعاوني العالمي، وهو أحد البنى التحتية الأساسية للتواصل لبناء شبكة تدريب لامركزية.
PCCL: مكتبة الاتصالات التعاونية
PCCL (مكتبة الاتصالات الجماعية الرئيسية) هي مكتبة اتصالات خفيفة الوزن مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب AI اللامركزية، وتهدف إلى حل اختناقات التكيف التي تواجه المكتبات التقليدية (مثل NCCL وGloo) في الأجهزة المتغايرة والشبكات ذات النطاق الترددي المنخفض. تدعم PCCL الطوبولوجيا المتناثرة، وضغط التدرجات، والتزامن بدقة منخفضة واستعادة النقاط، ويمكن تشغيلها على وحدات معالجة الرسوميات الاستهلاكية والعقد غير المستقرة، وهي مكون أساسي يدعم قدرة الاتصالات غير المتزامنة لبروتوكول OpenDiLoCo. إنها تعزز بشكل ملحوظ من قدرة الشبكة على تحمل النطاق الترددي وتوافق الأجهزة، مما يفتح "آخر كيلومتر" من البنية التحتية للاتصالات لبناء شبكة تدريب تعاونية حقيقية مفتوحة وغير موثوقة.
ثالثاً، شبكة Prime Intellect للتحفيز وتوزيع الأدوار
أنشأت Prime Intellect شبكة تدريبية قابلة للتحقق ولا تحتاج إلى إذن، مزودة بآلية تحفيز اقتصادية، مما يسمح لأي شخص بالمشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعمل البروتوكول بناءً على ثلاث فئات من الأدوار الأساسية:
الجهة التي تبدأ المهمة: تحديد بيئة التدريب، النموذج الأولي، دالة المكافأة ومعايير التحقق
عقد التدريب: تنفيذ تدريب محلي، تقديم تحديثات الوزن ومسارات المراقبة
عقد التحقق: استخدام آلية TOPLOC للتحقق من صحة سلوك التدريب والمشاركة في حساب المكافآت وتجميع الاستراتيجيات
تشمل العمليات الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان (SHARDCAST) وتوزيع المكافآت، مما يشكل حلقة تحفيزية تدور حول "سلوك التدريب الحقيقي".
أربعة، INTELLECT-2: إطلاق أول نموذج تدريب لامركزي يمكن التحقق منه
أصدرت Prime Intellect في مايو 2025 INTELLECT-2، وهو النموذج الكبير الأول في العالم الذي تم تدريبه بواسطة عقد لا مركزية غير موثوقة ومتزامنة، ويصل حجم معاييره إلى 32B. تم تدريب نموذج INTELLECT-2 بالتعاون من قبل أكثر من 100 عقدة GPU هترغية موزعة على ثلاث قارات، باستخدام أسلوب غير متزامن بالكامل.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
ثورة نماذج تدريب الذكاء الاصطناعي: من التحكم المركزي إلى التعاون اللامركزي
تطور نماذج تدريب الذكاء الاصطناعي: من التحكم المركزي إلى الثورة التكنولوجية للتعاون اللامركزي
في سلسلة القيمة الكاملة للذكاء الاصطناعي، يعد تدريب النموذج هو المرحلة الأكثر استهلاكًا للموارد وأعلى مستوى من التعقيد التقني، حيث يحدد مباشرة الحد الأقصى لقدرات النموذج وتأثير التطبيق الفعلي. بالمقارنة مع الاستدعاءات الخفيفة في مرحلة الاستدلال، يتطلب عملية التدريب استثمارًا مستمرًا في قوة الحوسبة الكبيرة، وعملية معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من حيث نماذج البنية، يمكن تصنيف طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي يتم مناقشته بشكل رئيسي في هذه المقالة.
تعتبر التدريبات المركزية هي الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب من قبل مؤسسة واحدة ضمن مجموعة محلية عالية الأداء، بدءًا من الأجهزة، والبرامج الأساسية، ونظام جدولة المجموعات، إلى جميع مكونات إطار التدريب، وكلها تُنسق بواسطة نظام تحكم موحد. تتيح هذه البنية التحتية المتعمقة التعاون مشاركة الذاكرة، وتزامن التدرجات، وآليات تحمل الأخطاء لتحقيق أقصى كفاءة، مما يجعلها مناسبة جدًا لتدريب نماذج كبيرة الحجم مثل GPT وGemini، حيث تتمتع بميزة الكفاءة العالية، وقابلية التحكم في الموارد، ولكنها في الوقت نفسه تواجه مشكلات مثل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.
التدريب الموزع هو الطريقة الرئيسية الحالية لتدريب النماذج الكبيرة، حيث تتمثل جوهرها في تقسيم مهام تدريب النموذج ثم توزيعها على عدة آلات للتعاون في التنفيذ، وذلك لتجاوز قيود الحوسبة والتخزين على جهاز واحد. على الرغم من أن لديها خصائص "موزعة" من الناحية الفيزيائية، إلا أن التحكم والتنسيق والتزامن لا يزال يتم من قبل مؤسسة مركزية، وغالبًا ما تعمل في بيئة شبكة محلية سريعة، من خلال تقنية ناقل الربط السريع NVLink، حيث يتم تنسيق المهام الفرعية بواسطة العقدة الرئيسية. تشمل الطرق الرئيسية ما يلي:
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، مقارنةً برئيس واحد يقود عن بُعد موظفين في عدة "مكاتب" للتعاون في إكمال المهام. حاليًا، يتم تدريب تقريبًا جميع النماذج الكبيرة الرائجة بهذه الطريقة.
اللامركزية التدريبية تمثل مسارًا مستقبليًا يتمتع بقدر أكبر من الانفتاح ومقاومة الرقابة. تتمثل الخصائص الأساسية في: عدة نقاط غير موثوقة (قد تكون أجهزة كمبيوتر منزلية، أو وحدات معالجة رسومات سحابية، أو أجهزة طرفية) تتعاون لإنجاز مهام التدريب دون وجود منسق مركزي، عادةً من خلال بروتوكولات تدفع توزيع المهام والتعاون، ومن خلال آليات تحفيز مشفرة لضمان نزاهة المساهمات. التحديات الرئيسية التي تواجه هذا النموذج تشمل:
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين من جميع أنحاء العالم، يساهمون كل على حدة في قوة الحساب لتدريب النموذج بشكل تعاوني، ولكن "التدريب اللامركزي الكبير القابل للتطبيق حقًا" لا يزال تحديًا هندسيًا نظاميًا يتضمن جوانب متعددة مثل بنية النظام، بروتوكولات الاتصال، أمان التشفير، آليات الاقتصاد، والتحقق من النموذج، لكن ما إذا كان يمكن "التعاون بشكل فعال + تحفيز الأمانة + النتائج الصحيحة" لا يزال في مرحلة استكشاف النموذج الأولي المبكرة.
تعلم الفيدرالية كمرحلة انتقالية بين التوزيع واللامركزية، يركز على الاحتفاظ بالبيانات محليًا، وتجميع معلمات النموذج مركزيًا، وهو مناسب للسيناريوهات التي تركز على الامتثال للخصوصية (مثل الرعاية الصحية والمالية). يتمتع تعلم الفيدرالية بهيكل هندسي للتدريب الموزع وقدرة على التعاون المحلي، وفي نفس الوقت يمتلك مزايا توزيع البيانات في التدريب اللامركزي، لكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يمتلك خصائص الانفتاح الكامل ومقاومة الرقابة. يمكن اعتباره "لامركزية خاضعة للسيطرة" في سيناريوهات الامتثال للخصوصية، حيث يكون أكثر اعتدالًا في مهام التدريب، وهياكل الثقة، وآليات الاتصال، مما يجعله أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.
اللامركزية تدريب الحدود، الفرص والطرق الواقعية
من منظور نمط التدريب، فإن التدريب اللامركزي لا يناسب جميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهام، وارتفاع متطلبات الموارد، أو صعوبة التعاون، فإنه بطبيعته غير مناسب للاكتمال بكفاءة بين العقد المتنوعة وغير الموثوقة. على سبيل المثال، يعتمد تدريب النماذج الكبيرة غالبًا على ذاكرة وصول عشوائي عالية، وزمن استجابة منخفض، وعرض نطاق ترددي عالي، مما يجعل من الصعب تقسيمها ومزامنتها بفعالية في الشبكات المفتوحة؛ كما أن المهام التي تتطلب خصوصية البيانات وقيود السيادة (مثل الرعاية الصحية، والمالية، والبيانات الحساسة) مقيدة بالامتثال القانوني والقيود الأخلاقية، ولا يمكن فتحها للمشاركة؛ بينما تفتقر المهام التي لا أساس لها من حوافز التعاون (مثل النماذج المغلقة المصدر أو تدريب النماذج الداخلية) إلى الدافع الخارجي للمشاركة. هذه الحدود تشكل معًا القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو مقولة زائفة. في الواقع، تظهر التدريب اللامركزي آفاق تطبيق واضحة في أنواع المهام الخفيفة الهيكل، وسهلة التوازي، وقابلة للتحفيز. بما في ذلك، على سبيل المثال لا الحصر: تعديل LoRA، مهام التدريب اللاحقة المتوافقة مع السلوك (مثل RLHF، DPO)، تدريب البيانات المجمعة ومهام التوصيف، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، بالإضافة إلى سيناريوهات التدريب التعاوني بمشاركة الأجهزة الطرفية. تتميز هذه المهام عمومًا بارتفاع التوازي، وانخفاض الترابط، وتحمل القدرة الحوسبية غير المتجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني من خلال شبكات P2P، وبروتوكول Swarm، والمحسنات الموزعة.
اللامركزية تدريب المشاريع الكلاسيكية التحليل
في الوقت الحالي، تشمل المشاريع البارزة في مجال التدريب اللامركزي والتعلم الفيدرالي بشكل رئيسي Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، وتمثل الاتجاهات المتقدمة في الأبحاث النظرية الحالية؛ بينما طرق التنفيذ لـ Gensyn وFlock.io واضحة نسبيًا، حيث يمكن رؤية تقدم أولي في الهندسة. ستحلل هذه المقالة التقنيات الأساسية والهندسة المعمارية وراء هذه المشاريع الخمسة، وستستكشف أيضًا الفروقات والعلاقات التكاملية بينها في نظام تدريب الذكاء الاصطناعي اللامركزي.
Prime Intellect: رائد الشبكة التعاونية المعززة القابلة للتحقق من مسارات التدريب
تسعى Prime Intellect إلى بناء شبكة تدريب AI لا تتطلب الثقة، مما يسمح لأي شخص بالمشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهمته في الحساب. تأمل Prime Intellect في إنشاء نظام تدريب AI اللامركزي الذي يتمتع بالتحقق، والانفتاح، وآلية تحفيز كاملة من خلال ثلاثة وحدات: PRIME-RL + TOPLOC + SHARDCAST.
أولاً، هيكل بروتوكول Prime Intellect وقيمة الوحدات الأساسية
ثانياً، شرح آلية التدريب الأساسية لـ Prime Intellect
PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المفكوك
PRIME-RL هو إطار نمذجة وتنفيذ المهام المصمم لسيناريوهات التدريب اللامركزية من قبل Prime Intellect، وهو مصمم خصيصًا للشبكات غير المتجانسة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف تكييف أولوي، حيث يفصل هيكليًا عملية التدريب والاستدلال وتحميل الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام بشكل مستقل محليًا، والتعاون من خلال واجهات معيارية وآليات التحقق والتجميع. بالمقارنة مع عمليات التعلم تحت الإشراف التقليدية، فإن PRIME-RL أكثر ملاءمة لتحقيق التدريب المرن في بيئات بدون جدولة مركزية، مما يقلل من تعقيد النظام، ويؤسس أيضًا لدعم المهام المتعددة المتوازية وتطور السياسات.
TOPLOC: آلية تحقق سلوك التدريب الخفيفة الوزن
TOPLOC (Trusted Observation & Policy-Locality Check) هو آلية أساسية للتحقق من القابلية للتدريب اقترحها Prime Intellect، تُستخدم لتحديد ما إذا كان العقد قد أكمل فعليًا تعلم سياسة فعالة استنادًا إلى بيانات المراقبة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل يكمل التحقق الهيكلي الخفيف من خلال تحليل مسارات التوافق المحلي بين "سلسلة المراقبة ↔ تحديث السياسة". إنها المرة الأولى التي يتم فيها تحويل مسارات السلوك خلال عملية التدريب إلى كائنات قابلة للتحقق، وهي الابتكار الرئيسي لتحقيق توزيع مكافآت التدريب دون الحاجة إلى الثقة، مما يوفر مسارًا قابلًا للتطبيق لبناء شبكة تدريب تعاونية لامركزية قابلة للتدقيق والتحفيز.
SHARDCAST: بروتوكول تجميع ونشر الوزن غير المتزامن
SHARDCAST هو بروتوكول انتشار ودمج الوزن المصمم من قبل Prime Intellect، والذي تم تحسينه خصيصًا للبيئات الشبكية الحقيقية ذات الحالة المتغيرة للنقاط والقيود على النطاق الترددي. يجمع بين آلية انتشار gossip واستراتيجية المزامنة المحلية، مما يسمح لعدة نقاط بتقديم تحديثات جزئية بشكل مستمر في حالة غير متزامنة، مما يؤدي إلى تقارب تدريجي للوزن وتطور متعدد النسخ. مقارنة بأساليب AllReduce المركزية أو المتزامنة، فإن SHARDCAST يعزز بشكل ملحوظ قابلية التوسع والقدرة على التحمل في التدريب اللامركزي، وهو الأساس الرئيسي لبناء توافق وزني مستقر وتدريب مستمر.
OpenDiLoCo: إطار الاتصال غير المتزامن المتناثر
OpenDiLoCo هو إطار لتحسين الاتصالات تم تنفيذه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect بناءً على مفهوم DiLoCo الذي اقترحته DeepMind، وقد صُمم خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، واختلاف الأجهزة، وعدم استقرار العقد. تعتمد هيكليته على التوازي البياني، من خلال بناء هياكل طوبولوجية نادرة مثل الحلقة، والموسع، وعالم صغير، مما يتجنب التكاليف العالية للتزامن العالمي، ويعتمد فقط على عقد الجوار المحلية لإكمال تدريب النموذج التعاوني. وبالاشتراك مع التحديثات غير المتزامنة وآلية تحمل الأخطاء، يجعل OpenDiLoCo من الممكن لمجموعة GPU الاستهلاكية والأجهزة الطرفية المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير إمكانية المشاركة في التدريب التعاوني العالمي، وهو أحد البنى التحتية الأساسية للتواصل لبناء شبكة تدريب لامركزية.
PCCL: مكتبة الاتصالات التعاونية
PCCL (مكتبة الاتصالات الجماعية الرئيسية) هي مكتبة اتصالات خفيفة الوزن مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب AI اللامركزية، وتهدف إلى حل اختناقات التكيف التي تواجه المكتبات التقليدية (مثل NCCL وGloo) في الأجهزة المتغايرة والشبكات ذات النطاق الترددي المنخفض. تدعم PCCL الطوبولوجيا المتناثرة، وضغط التدرجات، والتزامن بدقة منخفضة واستعادة النقاط، ويمكن تشغيلها على وحدات معالجة الرسوميات الاستهلاكية والعقد غير المستقرة، وهي مكون أساسي يدعم قدرة الاتصالات غير المتزامنة لبروتوكول OpenDiLoCo. إنها تعزز بشكل ملحوظ من قدرة الشبكة على تحمل النطاق الترددي وتوافق الأجهزة، مما يفتح "آخر كيلومتر" من البنية التحتية للاتصالات لبناء شبكة تدريب تعاونية حقيقية مفتوحة وغير موثوقة.
ثالثاً، شبكة Prime Intellect للتحفيز وتوزيع الأدوار
أنشأت Prime Intellect شبكة تدريبية قابلة للتحقق ولا تحتاج إلى إذن، مزودة بآلية تحفيز اقتصادية، مما يسمح لأي شخص بالمشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعمل البروتوكول بناءً على ثلاث فئات من الأدوار الأساسية:
تشمل العمليات الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان (SHARDCAST) وتوزيع المكافآت، مما يشكل حلقة تحفيزية تدور حول "سلوك التدريب الحقيقي".
أربعة، INTELLECT-2: إطلاق أول نموذج تدريب لامركزي يمكن التحقق منه
أصدرت Prime Intellect في مايو 2025 INTELLECT-2، وهو النموذج الكبير الأول في العالم الذي تم تدريبه بواسطة عقد لا مركزية غير موثوقة ومتزامنة، ويصل حجم معاييره إلى 32B. تم تدريب نموذج INTELLECT-2 بالتعاون من قبل أكثر من 100 عقدة GPU هترغية موزعة على ثلاث قارات، باستخدام أسلوب غير متزامن بالكامل.