DALL-E 2: الذكاء الاصطناعي قادر على توليد أي شيء يمكنك تخيله تقريبًا

كشفت شركة OpenAI للتو عن النسخة الجديدة من برنامجها بعنوان DALL-E 2، والذي يسمح بتوليد الصور من وصف بسيط باستخدام الذكاء الاصطناعي. يوفر هذا التكرار الثاني ميزات جديدة ويسمح لك الآن بتحرير الصور.

نتيجة "رائد فضاء يركب حصانًا بأسلوب واقعي" // المصدر: OpenAI

صحيح أكثر من صحيح. فيما يتعلق بالمآثر التي أتاحها الذكاء الاصطناعي، أصبحت OpenAI بلا شك واحدة من رواد هذا القطاع وتستمر في إدهاش المراقبين.

في عام 2015،ايلون ماسكشارك في تأسيس هذه المنظمة المخصصة لالذكاء الاصطناعي. هذه المنظمة نفسها التي ندين لها على وجه الخصوص بأداة تسمى GPT-3 (المحول التوليدي المدرب مسبقًا)، وهي أداة قادرة على توليد كتابات مشابهة لتلك التي يكتبها الإنسان. وهو أيضًا وراء الذكاء الاصطناعي متعدد الوسائط المسمى DALL-E (مزيج من الفنان سلفادور دالي وشخصية ديزني Wall-E) والذي يمكنه إنشاء صور من وصف بسيط (على سبيل المثال، نموذج "لصق السلحفاة").

بعد عام واحد فقط من إطلاق DALL-E، أعلنت الشركة عن إصدار جديد من البرنامج الذي سيكون له الآن دقة إخراج أعلى بالإضافة إلى زمن وصول أقل، مع ميزات جديدة مثل تحرير الصور الموجودة مسبقًا.

من وصف بسيط إلى الصورة

أتاح الإصدار الأول من DALL-E إمكانية إنشاء صور، ودمج العديد منها، ولكن أيضًا توفير منظورات مختلفة لنفس الصورة أو استنتاج عناصر مثل وجود الظلال من وصف بسيط.

النتيجة التي تم الحصول عليها لـ "وعاء من الحساء يشبه الوحش، محبوك بالصوف" // المصدر: OpenAI

تم الحصول على النتيجة لـ "كلب Shiba Inu يرتدي قبعة وياقة مدورة سوداء" // المصدر: OpenAI

النتيجة التي تم الحصول عليها لـ "دمية دب تخلط المواد الكيميائية البراقة مثل العلماء المجانين، Steampunk" // المصدر: OpenAI

وللقيام بذلك، اتبعت النهج الذي استخدمه GTP-3 في اللغة وطبقته على إنتاج الصور عن طريق ضغطها في سلسلة من الكلمات لتتعلم بعد ذلك التنبؤ بما سيحدث.

ولتحقيق ذلك، كان لا بد من دمج الأوصاف بشكل لا لبس فيه ومع كل التفاصيل الضرورية، حتى لو كان الذكاء الاصطناعي لا يزال قادرًا على ملء بعض المناطق الرمادية بنفسه عندما تطلبت الأسطورة ذلك.

في ذلك الوقت، أعلنت شركة OpenAI أنها كانت تعمل على هذا النظام مع اهتمامها بالمخاطر المحتملة التي يمكن أن تسببها مثل هذه الأداة من أجل وضع سياسة محتوى معينة.

لأي غرض وبأي قيود؟

لم يتم تصميم DALL-E أبدًا بهدف أن يصبح منتجًا تجاريًا. ولذلك كانت هذه القدرات محدودة، حيث يعتبر البرنامج في المقام الأول أداة بحث لتجنب أي مشاكل محتملة مثل المعلومات الخاطئة.

نتيجة "رائد فضاء يركب حصانًا بأسلوب واقعي" // المصدر: OpenAI

تتم إزالة الصور التي قد تكون صادمة فعليًا من بيانات التدريب الخاصة بالبرنامج ويتم تطبيق علامة مائية تعمل بالذكاء الاصطناعي تلقائيًا على الصور التي تم إنشاؤها. بالإضافة إلى أن النظام يمنع الحصول على صور بناء على أسماء محددة ( لذلك من المستحيل الحصول على نتيجة إذا قمت بالدخول "إيمانويل ماكرونالذي يقف على يديه على درجات الإليزيه” على سبيل المثال).

إحدى الميزات الجديدة في DALL-E 2 هي السماح للمستخدمين باستخدام ميزة تسمىl'inpaintingلتحديد وتعديل مناطق معينة من الصور الموجودة، ثم من الممكن إضافة أو حذف العناصر بالإضافة إلى ظلالها. من الممكن أيضًا دمج صورتين أو استخدام وظيفة الاختلافات لإنشاء إصدارات مختلفة من صورة موجودة. البرنامج قادر أيضًا على إنشاء صور مربعة بحجم 1024 بكسل مقارنة بـ 256 بكسل سابقًا.

إضافة فلامنغو وردي إلى الصورة // المصدر: OpenAI

صورة موجودة للجزء // المصدر: OpenAI

الاختلاف الناتج عن DALL-E 2 // المصدر: OpenAI

الصورة الأصلية للوحة "الفتاة ذات القرط اللؤلؤي" ليوهانس فيرمير // المصدر: OpenAI

يستخدم DALL-E 2 هنا تقنية التعرف على الصور CLIP التي طورتها OpenAI: وهو نظام يسمح بتلخيص محتوى الصورة كما يفعل الإنسان من أجل تحديد أهم التفاصيل. يؤدي ذلك إلى تحسين عملية التنبؤ وتوفير الصور بمزيد من الواقعية.

لمن هذه التكنولوجيا مخصصة؟

هذا الإصدار الجديد متاح حاليًا للاختبار فقط للشركاء المعتمدين، والذين هم أنفسهم محدودون في ما يمكنهم إنتاجه. وعلى وجه الخصوص، يُحظر على هؤلاء المستخدمين إنتاج صور ليست "صديقة للعائلة"، والذي يتضمن حظرًا على العري والألفاظ البذيئة ورموز الكراهية ونظرية المؤامرة وغيرها من الموضوعات الحساسة.

النتيجة مع DALL-E لـ "لوحة ثعلب يجلس في حقل عند شروق الشمس بأسلوب كلود مونيه" // المصدر: OpenAI

النتيجة مع DALL-E 2 عن "لوحة ثعلب يجلس في حقل عند شروق الشمس بأسلوب كلود مونيه" // المصدر: OpenAI

لا يُسمح أيضًا للمختبرين بتصدير الصور التي تم إنشاؤها إلى منصة خارجية في الوقت الحالي. لكن OpenAI لا تزال تأمل في إضافة وظائف DALL-E 2 لاحقًا إلى واجهات برمجة التطبيقات الخاصة بالمجموعة حتى تتمكن من تشغيل تطبيقات الطرف الثالث، ربما عندما يتم تجميع المشروع بشكل جيد.

للحصول على فرصة لاستخدام هذه التكنولوجيا في الوقت الحالي، ستحتاج إلى التسجيل في قائمة الانتظارموقع OpenAIوعبر أصابعك.


عرضنا على Twitch SURVOLTÉS، كل يوم أربعاء من الساعة 5 مساءً حتى 7 مساءً: قابلنا للحديث عن السيارات الكهربائية أو الدراجات الكهربائية، حول المناقشات والمقابلات والتحليلات والألعاب!