يتزايد الطلب على نشر نماذج اللغة الكبيرة (LLMs) على الأجهزة المحمولة، مدفوعًا بالحاجة إلى الخصوصية وتقليل زمن الاستجابة واستخدام النطاق الترددي بكفاءة. ومع ذلك، فإن متطلبات الذاكرة والحوسبة الواسعة لنماذج اللغة الكبيرة تشكل تحديات كبيرة. هنا يأتي دور لينجواليكند، وهو نظام جديد طوره مجموعة من الباحثين من جامعة كاليفورنيا، إيرفاين، مصمم لتمكين الاستدلال اللامركزي والموزع لنماذج اللغة الكبيرة عبر أجهزة محمولة متعددة، مستفيدًا من قدراتها الجماعية لأداء المهام المعقدة بكفاءة.
التحدي
نشر نماذج اللغة الكبيرة مثل GPT-3 أو BLOOM على الأجهزة المحمولة يشكل تحديًا بسبب:
- قيود الذاكرة: تتطلب نماذج اللغة الكبيرة ذاكرة كبيرة، غالبًا ما تتجاوز سعة الأ جهزة المحمولة الفردية.
- القيود الحسابية: تتميز الأجهزة المحمولة عادةً بقدرة معالجة محدودة، مما يجعل من الصعب تشغيل النماذج الكبيرة.
- مخاوف الخصوصية: إرسال البيانات إلى خوادم مركزية للمعالجة يثير مشاكل تتعلق بالخصوصية.
حل لينجواليكند
يعالج لينجواليكند هذه التحديات من خلال ثلاث استراتيجيات رئيسية:
- تعيين النموذج المحسن:
- يقسم النظام نماذج اللغة الكبيرة إلى رسوم بيانية فرعية أصغر باستخدام التحسين الخطي لمطابقة كل جزء مع قدرات الجهاز.
- هذا يضمن الاستخدام الفعال للموارد ويقلل من نقل البيانات بين الأجهزة.
- توازن الحمل في وقت التشغيل:
- يراقب لينجواليكند أداء الجهاز بنشاط ويعيد توزيع المهام لمنع الاختناقات.
- هذا النهج الديناميكي يضمن الاستخدام الفعال لجميع الموارد المتاحة، مما يعزز استجابة النظام الشاملة.
- الاتصال المحسن:
- توجه خرائط نقل البيانات الفعالة ت دفق المعلومات بين الأجهزة، مع الحفاظ على سلامة هيكل النموذج.
- تقلل هذه الطريقة من زمن الاستجابة وتضمن معالجة البيانات في الوقت المناسب عبر شبكة الأجهزة المحمولة.
يتم تقسيم نموذج لغة كبير واحد (LLM) إلى أجزاء مختلفة (أو قطاعات) وتوزيعه عبر أجهزة محمولة متعددة. يسمح هذا النهج لكل جهاز بالتعامل مع جزء صغير فقط من إجمالي متطلبات الحوسبة والتخزين، مما يجعل من الممكن تشغيل النماذج المعقدة حتى على الأجهزة ذات الموارد المحدودة. إليك تفصيل كيفية عمل ذلك:
تجزئة النموذج وتوزيعه
- تجزئة النموذج:
- يتم تحويل نموذج اللغة الكبير إلى رسم بياني حسابي حيث يتم تمثيل كل عملية داخل الشبكة كعقدة.
- يتم بعد ذلك تقسيم هذا الرسم البياني إلى رسوم بيانية فرعية أصغر، كل منها قادر على العمل بشكل مستقل.
- تعيين النموذج المحسن:
- باستخدام التحسين الخطي، يتم تعيين هذه الرسوم البيانية الفرعية (أو أجزاء النموذج) إلى أجهزة محمول ة مختلفة.
- يأخذ التعيين في الاعتبار القدرات الحسابية وقدرات الذاكرة لكل جهاز، مما يضمن الاستخدام الفعال للموارد ويقلل من النفقات العامة لنقل البيانات بين الأجهزة.
- تنفيذ الاستدلال التعاوني:
- يعالج كل جهاز محمول الجزء المخصص له من النموذج.
- تتواصل الأجهزة مع بعضها البعض لتبادل النتائج الوسيطة حسب الحاجة، مما يضمن إكمال مهمة الاستدلال الشاملة بشكل صحيح.
- يتم توظيف استراتيجيات اتصال محسنة للحفاظ على سلامة بنية النموذج الأصلي وضمان تدفق البيانات بكفاءة.
سيناريو مثال
تخيل تقسيم نموذج لغة كبير مثل GPT-3 إلى عدة أجزاء. قد يتعامل جهاز محمول واحد مع تضمينات الرموز الأولية والطبقات القليلة الأولى من النموذج، بينما يعالج جهاز آخر الطبقات الوسطى، ويكمل جهاز ثالث الطبقات النهائية وينتج المخرجات. خلال هذه العملية، تتشارك الأجهزة المخرجات الوسيطة لضمان تنفيذ استدلال النموذج الكامل بسلاسة.