لدى ChatGPT منافسة: ها هي Dolly، الذكاء الاصطناعي المجاني والمفتوح المصدر

نشرت شركة Databricks الأمريكية نموذج Dolly 2.0 في 12 أبريل، وهو نموذج لغة مجاني مفتوح المصدر. الطموح واضح: جعله ذكاءً اصطناعيًا أكثر أخلاقية وأفضل من ChatGPT.

يواجه اثنان من الذكاء الاصطناعي، ممثلين بالروبوتات، بعضهما البعض // المصدر: الصورة التي أنشأها Frandroid مع Midjourney

لا يمكن إنكار أحد الاتجاهات الرئيسية في مجال التكنولوجيا منذ بداية العامChatGPT، وعلى نطاق أوسع لنماذج اللغة واسعة النطاق (المختصرة باسم LLM باللغة الإنجليزية لـنموذج لغة كبير)، مثلجوجل باردأوكلود. ولكن كل هذه المبادرات حاليا خاصة، معالذكاء الاصطناعيمن هم أيضا. وبالتالي، فإننا لا نعرف كود المصدر الخاص بهم، وهم إلى حد ما صناديق سوداء في نظر عامة الناس.

وهي فلسفة تعتزم شركة Databricks، وهي شركة أمريكية تدعي أنها قادمة من عالم المصادر المفتوحة والأبحاث، تغييرها.نشرت دوللي 2.0 في 12 أبريل، LLM الخاصة بها، والتي تريد التنافس مع ChatGPT.

دوللي 2.0: "ChatGPT" مفتوح المصدر أخيرًا

ولو أردنا أن نكون أكثر دقة، لوجب علينا أن نتحدث عن أجي بي تي-4مفتوح المصدر، لأنه نموذج اللغة الذي نتحدث عنه، وليس وكيل المحادثة (وهو ما هو ChatGPT). يأتي إصدار Dolly 2.0 بعد أسبوعين فقط من إصدار الإصدار الأول. بالنسبة لـ Databricks، فهو "أول ماجستير في إدارة الأعمال (LLM) مفتوح المصدر يتبع التعليمات، تم تطويره بناءً على مجموعة بيانات من التعليمات التي أنشأها الإنسان، ومرخص للبحث والاستخدام التجاري.»

ولذلك فهو نموذج لغوي يعتمد على 12 مليار معلمة. لقول هذا، قد يعتقد المرء أنه أقل كفاءة حقًا من GPT-3.5 الذي يستخدم 175 مليار معلمة، وGPT-4 الذي سيستخدم 100.000 مليار. وذلك دون الأخذ في الاعتبار الاختبارات التي أجريت على GPT-4 والتي أظهرت أن العلاقة بين عدد المعلمات و"العروض» ليست خطية. ويمكن تفسير هذه الفجوة أيضًا من خلال طريقة التدريب وتوفير البيانات. يوضح Databricks أن مجموعة البيانات هي "تم الحصول عليها عن طريق التعهيد الجماعي بين الموظفين».

شعار دوللي // المصدر : Databricks

الكود المصدري لـ Dolly 2.0 مفتوح الوصول، وبالتالي فهو مجاني. يضيف Databricks أن هذا يشمل "كود التدريب ومجموعة البيانات وأوزان النماذج، كلها مناسبة للاستخدام التجاري. وهذا يعني أن أي مؤسسة يمكنها إنشاء وامتلاك وتخصيص شهادات LLM قوية يمكنها التحدث إلى الأشخاص، دون الدفع مقابل الوصول إلى واجهة برمجة التطبيقات (API) أو مشاركة البيانات مع أطراف ثالثة.»

إجابة على السؤال: "كيفية إشعال النار؟" // » المصدر: Databricks

ومن المفارقات أن Databricks تعترف بأن Dolly 1.0 قد تم تدريبها "مقابل 30 دولارا» استخدام OpenAI API من مجموعة بيانات أنشأها فريق Stanford Alpaca. ولكن كما أشار الأخير، فإن شروط استخدام OpenAI تمنع إنشاء نموذج لغة يتنافس مع GPT. إن تدريب Dolly 2.0 بالبيانات التي لا تأتي منه يعني أيضًا القدرة على السماح للمستخدمين بالاستخدام التجاري لـ LLM هذا.

يبدأ هذا من تصميمها: تقول Databricks إنها تولي اهتمامًا كبيرًا لمعالجة البيانات، حيث تم إجراء مسح لـوقتوكشفت في يناير الماضي عن ذلكاستخدمت شركة OpenAI التعاقد من الباطن في كينياعبر شركة تستغل عمالها. نشرت Databricks أيضًا بيانات التدريب المستخدمة، عبر مجموعة تضم 15000 زوج استعلام/إجابة أنشأها حوالي 5000 موظف. ومع ذلك، فإن الطريقة التي تم بها تنفيذ ذلك قد تكون مفتوحة للمناقشة.

مثال آخر على إجابة هذه المرة على سؤال يتعلق بالطهي // المصدر: Databricks

توضح الشركة أن موظفيها "كانوا جميعًا مشغولين جدًا ولديهم وظائف بدوام كامل، ولذلك كان علينا تشجيعهم على القيام بذلك.» ولمعالجة ذلك قامت بتنظيم مسابقة “حيث سيحصل أفضل 20 واضع علامة على مكافأة كبيرة.» يمكننا أن نعتبر أنه من المضر عدم تنظيم ذلك خلال أوقات العمل الرسمية للموظفين، على الرغم من أن المنافسة لم تكن إلزامية. يتم استخدام العلامات لكتابة أسئلة من عدة أنواع (مفتوحة وواسعة ودقيقة ومثيرة للجدل وما إلى ذلك) ولملاحظة إجابات Dolly 2.0.

كيف يمكن لـ Dolly 2.0 التنافس حقًا مع OpenAI وChatGPT

ما لا يذكره منشور مدونة Databricks مثير للاهتمام هو ما لا يذكره. إذا أدرك أن نموذجه هو "من نوع ChatGPT»، لكنه لا ينتقده مع ذلك. ولكن من خلال القراءة بعناية، ندرك أن حجج Dolly 2.0 تصحح سبب انتقاد ChatGPT.

بالنسبة للشركة، هذه الدورات التدريبية هي "مصممة لتمثيل مجموعة واسعة من السلوكيات، من العصف الذهني وتوليد المحتوى إلى استخلاص المعلومات وتوليفها.» إحدى الطرق لمنع إساءة استخدام هذا النوع من LLM. هذا على الرغم منتم انتقاد GPT-3.5 لأنه قدم نصائح قذرة للشباب.

يواجه اثنان من الذكاء الاصطناعي، ممثلين بالروبوتات، بعضهما البعض // المصدر: الصورة التي أنشأها Frandroid مع Midjourney

على حقيقة أنه هومفتوح المصدر، تضع Databricks نفسها في تناقض مع OpenAI، الذي تتمتع خوارزمياته بالحماية. ولكن كما أشارنوميراما، عملت OpenAI في الأصل على مشاريع مفتوحة المصدر. وحققت الشركة تحولًا كبيرًا بعد ذلك، كما أوضح إيليا سوتسكيفر، أحد مؤسسيها، في مقابلة معالحافة. وقال إنه أدرك مدى قوة الذكاء الاصطناعي: فوضعه في أيدي الجميع سيكون فكرة سيئة للغاية. ربما بالنسبة لشركة Databricks، فإن حقيقة جعل الذكاء الاصطناعي متاحًا هي التي من شأنها أن تحمي نفسها من الانتهاكات التي يمكن ارتكابها، على الرغم من أنها لم تذكر هذا البعد.

نظرًا لأنه يمكنك استخدام Dolly على الخادم الخاص بك، فإن هذا يصحح مشكلة حماية البيانات التي يمثلها ChatGPT. وقبل بضعة أسابيع، علمنا ذلكمنعت إيطاليا أداة OpenAI لهذه الأسباب. من جانبه،وجدت سامسونج أن بعض موظفيها عهدوا ببيانات سرية إلى ChatGPT.

ما الذي سيتم استخدامه من أجله Databricks AI؟

إذا أمكننا من خلال ردود Dolly 2.0 أن نعتبر أن هذا الذكاء الاصطناعي يعمل بشكل جيد، تجدر الإشارة إلى أنه بعيد كل البعد عن أن يكون "قوي» من ChatGPT. لكن Databricks تعترف بهذا: "وباعتبارها قطعة فنية وبحثية فنية، فإننا لا نتوقع أن تكون دوللي في طليعة من حيث الكفاءة.»

إن ما يمكن أن ينتج عن Dolly 2.0 سيكون مثيرًا للاهتمام: "نحن نؤمن بأن دوللي ومجموعة البيانات مفتوحة المصدر ستكون بمثابة الأساس لثروة من العمل المستقبلي، والتي يمكن استخدامها لبدء نماذج لغوية أكثر قوة.» هذا قليلًا ما هو LLaMa، LLMميتا. جزئيامفتوح المصدر، وتم تسريب الكود الخاص به على الإنترنت، مما سمح بظهور عدة أدوات. حتى أن أحد المطورين تمكن من ذلكتشغيل الذكاء الاصطناعي على جهاز الكمبيوتر الخاص بك. ومع ذلك فإنه سيكون ضرورياانتبه إلى الأدوات المطورة معه والتي يمكن أن تحتوي علىالبرمجيات الخبيثة.

GPT-4 متخيل بواسطة Midjourney // المصدر: Midjourney بواسطة Frandroid

قد نعتقد أن ميزانية Databricks لا تسمح لها بتدريب ماجستير إدارة الأعمال لفترة كافية. ويجب أن نتذكر أن التدريب أو تشغيل مثل هذا الذكاء الاصطناعي على نطاق واسع أمر مكلف للغاية. لدرجة أنه بالنسبة لأحد قادة جوجل،إذا بدأت في استخدام بحث الذكاء الاصطناعي، فسوف تتضاعف تكاليف تشغيل جوجل في 10. تنمو الخوادم التي تعمل بالذكاء الاصطناعي الذي يتم إنشاؤه تلقائيًا بشكل كبيريمكن أن تؤدي إلى نقص جديد في بطاقات الرسومات.