ChatGpt لديها منافسة: هنا Dolly ، مجاني ومفتوح المصدر الذكاء الاصطناعى

نشرت شركة DataBricks الأمريكية في 12 أبريل Dolly 2.0 ، وهي نموذج مفتوح ولغة مجانية. الطموح واضح: لجعله أكثر أخلاقية وأفضل من ChatGPT.

اثنين من الذكاء الاصطناعى ، يمثلها الروبوتات ، يتنافس // المصدر: الصورة التي أنشأتها Frandroid مع Midjourney

أحد الاتجاهات التقنية الرئيسية منذ بداية العام لا يمكن إنكارهchatgpt، وعلى نطاق أوسع لنماذج اللغة الكبيرة (المختصرة في LLM باللغة الإنجليزيةنموذج لغة كبير)، مثلجوجل باردأوكلود. لكن كل هذه المبادرات هي في الوقت الحالي خاص ، معالذكاء الاصطناعيالتي هي أيضا. لذلك ، لا نعرف رمز المصدر الخاص بهم وأنهم صناديق سوداء إلى حد ما في عيون عامة الناس.

وقال المجتمع الأمريكي إن الفلسفة التي تعتبرها بيانات Databricks ، قائلاً إنه نتيجة لعالم المصدر المفتوح والبحث.نشرت في 12 أبريل Dolly 2.0 في 12 أبريل، LLM الخاص بها ، الذي يريد التنافس مع ChatGPT.

Dolly 2.0: على «chatgpt» enfin مفتوح المصدر

إذا أردنا أن نكون أكثر صحة ، فسيتعين علينا التحدث عن أGPT-4المصدر المفتوح ، لأنه في الواقع نموذج اللغة الذي نتحدث عنه ، وليس لوكيل المحادثة (ما ChatGPT). يأتي منشور Dolly 2.0 فقط بعد أسبوعين من نشر الإصدار الأول. بالنسبة إلى Databricks ، إنها "أول مصدر مفتوح LLM الذي يتبع التعليمات ، التي تم تطويرها على مجموعة من التعليمات التي تم إنشاؤها بواسطة البشر ، بموجب ترخيص للبحث والاستخدام التجاري.»

لذلك هو نموذج لغة يعتمد على 12 مليار معلمة. القول بذلك ، قد يعتقد المرء أنه أقل كفاءة من GPT-3.5 الذي يستخدم 175 مليار معلمة ، وGPT-4 التي ستستخدم 100،000 مليار. هذا دون الاعتماد على الاختبارات التي أجريت على GPT-4 والتي تظهر أن العلاقة بين عدد المعلمات و ""العروضليس خطيا. يتم شرح هذا الاختلاف أيضًا من خلال طريقة التدريب وتزويد البيانات. يوضح DataBricks أن جميع البيانات هي "تم الحصول عليها عن طريق التعهيد الجماعي بين الموظفين».

Le Logo de Dolly // المصدر: Databricks

رمز المصدر Dolly 2.0 هو وصول مجاني ، وبالتالي فهو مجاني. يضيف Databricks أن هذا يشمل "رمز التدريب ومجموعة البيانات وأوزان النموذج ، وكلها تكيف مع الاستخدام التجاري. هذا يعني أنه يمكن لأي مؤسسة إنشاء LLMs القوية وتمتلكها وتخصيصها والتي يمكنها التحدث إلى الأشخاص ، دون دفع للوصول إلى API أو مشاركة البيانات مع أطراف ثالثة.»

إجابة على السؤال: "كيف تبني نيران المخيم؟" // »المصدر: Databricks

ومن المفارقات أن Databricks تدرك أن Dolly 1.0 قد تم تدريبه "مقابل 30 دولارباستخدام API Openai من مجموعة بيانات تم إنشاؤها بواسطة فريق Stanford Alpaca. ولكن كما أشار الأخير ، فإن شروط استخدام Openai تمنع إنشاء نموذج لغة منافسة في GPT. جلب Dolly 2.0 مع البيانات التي لا تأتي ، فإنه أيضًا قادر على السماح للمستخدمين بالاستخدام التجاري لهذا LLM.

يبدأ من تصميمه: DataBricks تقول إنه حذر جدًا من معالجة البيانات ، حيث تم مسحهاوقتكشفت في يناير الماضي ذلكاستخدم Openai التعاقد من الباطن في كينياعبر شركة تدير عمالها. نشرت Databricks أيضًا بيانات التدريب المستخدمة ، عبر لعبة تضم 15000 زوج من الطلبات/الردود التي أنشأها حوالي 5000 موظف. ومع ذلك ، فإن الطريقة التي تم بها وضع هذا يمكن أن تناقش.

مثال آخر على إجابة هذه المرة على سؤال الطهي // المصدر: databricks

تشرح الشركة أن موظفيها "كانوا مشغولين للغاية وأن لديهم وظائف بدوام كامل ، لذلك كان علينا تشجيعهم على القيام بذلك."لعلاج هذا ، نظمت مسابقة"كجزء منها سيحصل أفضل 20 من أفضل اللاعبين على مكافأة كبيرة.يمكننا أن نعتبر ضارًا بعدم تنظيم هذا في وقت العمل الرسمي للموظفين ، حتى لو لم تكن المنافسة إلزامية. وضع العلامات المستخدمة لكتابة أسئلة بعدة أنواع (مفتوحة ، واسعة ، دقيقة ، مثيرة للجدل ، إلخ) وللذكر ردود دوللي 2.0.

كيف يمكن أن تتنافس دوللي 2.0 مع Openai و ChatGpt

حيث يكون منشور مدونة Databricks مثيرًا للاهتمام ، هذا ما لا يقوله. إذا أدرك أن نموذجه هو "de type chatgpt"، لا ينتقده. ولكن من خلال القراءة بعناية ، ندرك أن حجج Dolly 2.0 تصحح ما يتهم بـ ChatGPT.

بالنسبة للشركة ، هذه الدورات التدريبية "تم تصميمه لتمثيل مجموعة واسعة من السلوك ، العصف الذهني وتوليد المحتوى لاستخراج المعلومات والتوليف.طريقة لمنع الانجرافات من هذا النوع من LLM. هذا على الرغم منلقد انتقدنا GPT-3.5 لإعطاء نصيحة قاسية للأصغر سنا.

اثنين من الذكاء الاصطناعى ، يمثلها الروبوتات ، يتنافس // المصدر: الصورة التي أنشأتها Frandroid مع Midjourney

على حقيقة أنهالمصدر المفتوح، يتم وضع DataBricks في تناقض مع Openai ، الذي يتم حماية خوارزمياته. ولكن كما أشارNumerama، عملت Openai على مشاريع مفتوحة المصدر. أوضحت الشركة في وقت لاحق تحولًا ، كما أوضحت إييا سوتسكفر ، أحد مؤسسيها ، خلال مقابلة معحرية. قال إنه أدرك مقدار الذكاء الاصطناعى الذي يمكن أن يكون قويًا ويمكن أن يكون وضعه في كل الأيدي فكرة سيئة للغاية. ربما بالنسبة إلى Databricks ، فإن حقيقة جعل الذكاء الاصطناعى متاحًا بالتحديد والذي سيسمح بحماية نفسه من الانتهاكات التي يمكن ارتكابها ، على الرغم من أنها لم تذكر هذا البعد.

كما يمكنك استخدام Dolly على الخادم الخاص بك ، فإن هذا يصحح مشكلة حماية البيانات التي يمثلها ChatGPT. قبل بضعة أسابيع ، تعلمنا ذلكقامت إيطاليا بمنع أداة Openai لهذه الأسباب. من جانبه ،وجدت Samsung أن بعض موظفيها قد عهدوا بالبيانات السرية إلى ChatGpt.

ماذا ستخدم هذه البيانات AI؟

إذا كان من خلال استجابات Dolly 2.0 ، يمكننا أن نعتبر أن هذا الذكاء الاصطناعي يعمل بشكل جيد ، تجدر الإشارة إلى أنه بعيد عن كونه أيضًا "قويهذا chatgpt. لكن ذلك ، يتعرف Databricks على ذلك: "بصفتنا قطعة أثرية تقنية وبحثي ، لا نتوقع دوللي ما إذا كان في طليعة التكنولوجيا من حيث الكفاءة.»

هذا أكثر ما يمكن أن ينجم عن Dolly 2.0 الذي سيكون مثيرًا للاهتمام: "نعتقد أن Dolly وبيانات المصدر المفتوح ستعمل كأساس لعدد كبير من الأعمال اللاحقة ، والتي يمكن استخدامها لبدء نماذج لغة أكثر قوة.هذا قليلا من لاما ، LLM منميتا. جزئياالمصدر المفتوح، تسربت رمزها على الإنترنت ، مما سمح بظهور العديد من الأدوات. حتى نجح مطور فيتشغيل الذكاء الاصطناعي على جهاز الكمبيوتر الخاص بك. ومع ذلك ، سيكون من الضروريانتبه إلى الأدوات التي تم تطويرها معها ، والتي يمكن أن تحتوي علىالبرامج الضارة.

تخيل GPT-4 من قبل Midjourney // المصدر: Midjourney بواسطة Frandroid

قد يعتقد المرء أن ميزانية Databricks لا تسمح لها بالتسبب في LLM لفترة كافية. يجب أن نتذكر أن هذا النطاق الكبير أو تشغيله هو مكلف للغاية. كثيرًا لأحد قادة Google ،إذا دخل في البحث من قبل الذكاء الاصطناعى ، فسيتم ضرب تكاليف تشغيل Google بمقدار 10. خوادم تدور الجيل التلقائي من الذكاء الاصطناعى تنمو كثيرايمكن أن تؤدي إلى نقص جديد في بطاقات الرسومات.

هل تريد الانضمام إلى مجتمع من المتحمسين؟خلافنامرحبًا بكم ، إنه مكان للمساعدة المتبادلة والعاطفة حول التكنولوجيا.