ميتا تكشف عن تقدم هائل في مجال الذكاء الاصطناعي

تكشف Meta AI Labs النقاب عن ImageBind، وهو إنجاز هائل في مجال الذكاء الاصطناعي. يكفي للسماح للذكاء الاصطناعي بفهم عدة مصادر في وقت واحد: الصوت والصورة والنص وحتى الحرارة.

GPT-4 متخيل بواسطة Midjourney // المصدر: Midjourney بواسطة Frandroid

يتيح لك الذكاء الاصطناعي التوليدي إنشاء نص بسرعة باستخدام ChatGPT أو الصور باستخدام Midjourney. من الممكن في بعض الأحيان، خاصة منذ GPT-4، تزويده بصورة لفهمها، لكن عملية الذكاء الاصطناعي ستمر عبر إنشاء نص من هذه الصورة لتتمكن من تنفيذ المعالجة. لذلك نعود دائمًا إلى النص كوسيلة للتواصل مع الذكاء الاصطناعي.

مع ImageBind، تكشف Meta عن طريقة جديدة يمكن أن تُحدث ثورة في الذكاء الاصطناعي بشكله الحالي. تريد الشركة أن تذهب إلى أبعد من ذلك وترى طريقة تسمح للذكاء الاصطناعي بتفسير خمسة مصادر مختلفة تمامًا في وقت واحد.

الاقتراب من البشر

كما ذكرميتا في إعلانهاعتاد الإنسان على استخدام عدة حواس لإنشاء المعلومات، على سبيل المثال رؤية شارع مزدحم وفي نفس الوقت سماع صوت محركات السيارات.

ImageBind // المصدر: ميتا

استلهمت ميتا من هذه الفكرة لتطوير ImageBind، وهو نموذج جديد للذكاء الاصطناعي تريد الشركة جعله مفتوح المصدر. هذا هو النموذج الأول القادر على الجمع بين المعلومات من 6 أنواع مختلفة من المصادر: النص والصورة والصوت والعمق (ثلاثي الأبعاد) والحرارية (الأشعة تحت الحمراء) والسرعة.

مع كل هذا، تعلن Meta أن الذكاء الاصطناعي الخاص بها قادر على الفهم من خلال الصورة ما ستصدره الأجسام الصوتية وأشكالها ثلاثية الأبعاد وما إذا كانت ساخنة أو باردة عند اللمس. بالنسبة لتطبيق آخر، تقول ميتا إن الذكاء الاصطناعي المبني على نموذجه يمكنه الآن تخيل صور من مسار صوتي، على سبيل المثال غابة من صوت المطر على الأشجار.

المصدر: ميتا

تظهر الاختبارات الأولى التي أجرتها Meta أن أداء ImageBind أفضل بكثير من النماذج المتخصصة في طريقة واحدة كمصدر.

ويريد الباحثون الآن المضي قدمًا ودمج المصادر المحتملة الأخرى لنموذجهم، ولا سيما الشم واللمس، من أجل الاقتراب أكثر من القدرات البشرية.


هل تريد العثور على أفضل مقالات Frandroid على أخبار Google؟ يمكنك المتابعةفراندرويد على أخبار جوجلبنقرة واحدة.