أقوى من ChatGPT: كيف تفعل Microsoft المزيد بموارد أقل

كشفت شركة مايكروسوفت النقاب عن نموذج لغة جديد يسمى Phi-1. يحتوي الأخير على 1.3 مليار معلمة فقط مقارنة بـ 100 مليار لـ GPT-3.5. ومع ذلك، فإن هذه الإضافة الأخيرة تتفوق عليها في عدة نقاط. يكفي للقيام بالمزيد بموارد أقل وقوة حاسوبية أقل.

واستثمرت مايكروسوفت 10 مليارات دولار في OpenAI، الشركة وراءChatGPT، لا تريد الشركة أن تجد نفسها معتمدة على تكنولوجيا شخص آخر. ولهذا السبب تقوم أيضًا بتطوير نماذج اللغة ومحركاتهاروبوتات الدردشة ذات الذكاء الاصطناعي.مايكروسوفتالمقدمة في أمقالة علمية (PDF)Phi-1، نموذج لغة أصغر من GPT-3.5OpenAI(موجود على ChatGPT)، ولكنه سيكون أكثر قوة.

تعقيد أقل، أداء أكثر: فلسفة مايكروسوفت

وبالتالي فإن Phi-1 هو نموذج لغة لـالذكاء الاصطناعيمخصص لبرمجة الكمبيوتر (في بايثون) وخاصيته الرئيسية هي حجمه. إنها أصغر من العديد من منافسيها وهذا ما يفترضه مصمموها بالكامل.

يعتمد على بنية تسمى "محول» مع 1.3 مليار معلمة. تم تدريبه في ثلاثة أيام فقط من أصل 8GPU A100 من نفيديا. بعض بيانات التدريب تكون يدوية وتأتي من الإنترنت، بينما يتم إنشاء البعض الآخر تلقائيًا عبر GPT-3.5.

مساعد Microsoft 365 // المصدر: Microsoft

ولتحقيق ذلك، فضل باحثو مايكروسوفت جودة البيانات على الكمية التي يستوعبها Phi-1: "من المعروف منذ زمن طويل أن البيانات الأفضل تؤدي إلى نتائج أفضل". بالنسبة لهم "يعد تنظيف البيانات جزءًا مهمًا من إنشاء مجموعات البيانات الحديثة، ويمكن أن يؤدي إلى فوائد ثانوية أخرى مثل مجموعات البيانات الأصغر.»

لماذا يجب أن تكون نماذج اللغة أصغر

وبعيدًا عن العرض الفني البسيط، تريد Microsoft أن تعرض "التأثير الملحوظ للبيانات عالية الجودة في تحسين كفاءة نموذج اللغة في مهام إنشاء التعليمات البرمجية.» من خلال طلب قدر أقل من التدريب وبالتالي قوة حاسوبية أقل، يتمتع Phi-1 بميزة أخرى على منافسيه، مثل GPT-3.5. الميزة البيئية: التسببماجستير» (نماذج اللغات الكبيرة)، تتطلب قدرات حاسوبية كبيرة جدًا، وبالتالي تعمل الخوادم بشكل مستمر لفترة معينة.

مركز بيانات Roubaix 8 // المصدر: OVHcloud

إذا كان الأمر يكلف أموالاً، فإنه يكلف البيئة أيضًا، مع كل الطاقة المنتجة لاستخدام وتبريد الخوادم. كما أن وجود نماذج تحتوي على أقل عدد ممكن من المعلمات يعد أمرًا صديقًا للبيئة أيضًا.

ومع ذلك، لا تزال هناك قيود على تعميم هذه الطريقة: فالحصول على بيانات موثوقة ومُصنفة بشكل جيد أمر مكلف، لدرجة أن تدريب الذكاء الاصطناعي يمكن أن يؤدي إلى استغلال العمال. ويكتب الباحثون أنه من الضروري “التأكد من أن مجموعة البيانات تغطي جميع المحتويات والمفاهيم ذات الصلة التي يريد المرء أن يتعلمها النموذج، وأنها تفعل ذلك بطريقة متوازنة وتمثيلية.»