تكفي 3 ثوانٍ من التسجيل حتى يقوم Microsoft AI بنسخ صوتك

المعركة جارية في مايكروسوفت حول الذكاء الاصطناعي: فقد طورت الشركة أداة تسمى "Vall-E" والتي تسمح لك بإنشاء نسخ صوتية متماثلة من تسجيل مدته ثلاث ثوان. بالإضافة إلى إعادة إنتاج الصوت ببساطة، يمكن لهذا الذكاء الاصطناعي إعادة إنتاج المشاعر.

مصدر :تصوير توراج عبر Unsplash

وفي بداية عام 2023، لا يمكن إنكار الاتجاه نحو ذلكالذكاء الاصطناعيوأدوات التوليد التلقائي. على جانبمايكروسوفت، أنشأت الشركةهم DALL-E 2، وأوددمج ChatGPT في Bing للتنافس مع Google. أيضًا،ترغب Microsoft في استثمار 10 مليارات دولار في OpenAIلدمج أدوات الذكاء الاصطناعي فيمكتب جناح. بداية مزدحمة للعام الذي لم ينته بعد: باستخدام Vall-E، تستطيع Microsoft إعادة إنتاج الصوت البشري من خلال ثلاث ثوانٍ فقط من التسجيل.

Vall-E: ذكاء مايكروسوفت الاصطناعي الذي يمكنه إعادة إنتاج الصوت

قبل بضعة أيام، أصدرت مايكروسوفت أمقالة علميةتقديم "نهج النمذجة اللغوية لتوليف النص إلى كلام". أداة لتركيب الكلامهذا لا يحول النص إلى صوت فقطالروبوتاتمخلوق من الصفر، ولكن بصوت مخلوق من صوت إنساني حقيقي. ويقول المطورون إنهم قاموا بتدريب نموذجهم لمدة 60 ألف ساعة باللغة الإنجليزية. وبحسبهم فإن هؤلاء "مئات المرات أكثر من الأنظمة الحالية».

الرسم التخطيطي لكيفية عمل Vall-E // المصدر: Microsoft

بقدراته فال-إي”يمكن استخدامه لتجميع كلام شخصي عالي الجودة من خلال تسجيل مدته 3 ثوانٍ فقط لمتحدث غير معروف كدليل صوتي". وبالتالي يمكن نطق الكلمات بالصوت دون أن ينطقها على الإطلاق. بالإضافة إلى ذلك فإن الأداة "يمكن أن يحافظ على عاطفة المتحدث والبيئة الصوتية للضيف الصوتي في التوليف».

ومن الواضح أنه كلما زاد عدد العينات، كلما كان الصوت المعاد إنشاؤه أكثر دقة. إذاالتسجيلات التي تم إنشاؤها ونشرها بواسطة Microsoftليست كلها مقنعة، فقد كانت مع ثلاث ثوان من التسجيل. ومع المزيد من العينات، يمكننا أن نتخيل أن الذكاء الاصطناعي سيكون أكثر كفاءة.

ما الذي يمكن أن يستخدمه هذا التوليف الاستنساخي للكلام؟

في عرض Vall-E، تم تفصيل بعض الاستخدامات المحتملة: "يتيح VALL-E مباشرة العديد من تطبيقات تحويل النص إلى كلام، مثل TTS(تحويل النص إلى كلام، تحويل النص إلى صوت باللغة الفرنسية)وتحرير الصوت وإنشاء المحتوى، جنبًا إلى جنب مع نماذج الذكاء الاصطناعي التوليدية الأخرى مثل GTP-3».

ومع ذلك، يمكن استخدام Vall-E لأغراض أقل صدقًا. لعدة سنوات، التكنولوجياوهمية عميقةأصبحت أكثر شيوعاً: وهي عبارة عن تعديل مقاطع فيديو أو صور لربط وجه شخص ما بجسد لا ينتمي إليه، وذلك بهدف الخداع. إذا لم يكن Vall-E متوفرًا حاليًا، فهذا يعني أن Microsoft لم تضع أي شيء لمنع حدوث هذه المشكلات.

يتخيل المطورون أن "يجب أن تكون نماذج تحرير الكلام مصحوبة بالمكونات ذات الصلة، بما في ذلك البروتوكول للتأكد من موافقة المتحدث على إجراء التحرير ونظام اكتشاف الكلام المحرر».

رسم تخطيطي توضيحي حول Dall-E // المصدر: OpenAI

فإذا كانت الأداة موجودة وكانت العروض التوضيحية مشجعة، فإن التحدي الأكبر الذي يواجه مايكروسوفت ليس تقنياً، بل أخلاقياً. شخصيات عامة، وبعضهم بالفعل ضحايامزيفة عميقة، يمكن أن يكون الأكثر تأثراً بشكل طبيعي. علاوة على ذلك، يمكننا أن نتصور أنه سيتم استخدام Vall-E بالإضافة إلى أداةوهمية عميقةvideo لإنشاء مقاطع فيديو مزيفة فاضحة.

كما يمكن استخدام Vall-E لانتحال شخصية شخص ما على الهاتف. أما بالنسبة للفنانين الذين يستخدمون الذكاء الاصطناعي لتوليد الصور تلقائيًا، فإن أداة مايكروسوفت يمكن أن تعرض وظائف العديد من الأشخاص للخطر: محترفي التعليق الصوتي، والدبلجة، وما إلى ذلك.

ينضم الجميع إلى السباق من أجل الذكاء الاصطناعي التوليدي

وفي الوقت نفسه، هناك أدوات إنشاء تلقائية أخرى قيد التطوير. قبل بضعة أسابيع، قدمت شركة OpenAI، الشركة التي تقف وراء ChatGPT، خدمة OpenAIPoint-E، أداة إنشاء نماذج ثلاثية الأبعاد. مايكروسوفت بعيدة كل البعد عن كونها شركة GAMAM الوحيدة في اللعبة منذ ذلك الحينتمكن Meta من إنشاء مقاطع فيديو من النصوهذاتعمل Google جاهدة على تطوير أدوات تعتمد على الذكاء الاصطناعي.

نتيجة "رائد فضاء يركب حصانًا بأسلوب واقعي" // المصدر: OpenAI

وقد ذهبت شركة أبل إلى أبعد من ذلك منذ ذلك الحينتقوم الشركة بتسويق سلسلة من الكتب الصوتية مع راوي اصطناعي، تم إنشاؤها بواسطة الذكاء الاصطناعي. في لعبة الفيديوعالية في الحياة,حتى أن الشخصية تمت دبلجتها بواسطة الذكاء الاصطناعي.

للذهاب أبعد من ذلك
لقد طرحنا 8 أسئلة تقنية على ChatGPT: ذكاء اصطناعي مذهل، ولكن ليس بلا حدود