ترجمة صوتك بلغة أخرى وبدون لهجة؟ من الممكن مع هذا الذكاء الاصطناعي الجديد

قدم القسم المخصص للذكاء الاصطناعي في Meta ، وهو نموذج من الذكاء الاصطناعى القادر على توليد الكلام ، دون أن يتم تدريبه مع عينات الإدخال.

meta ai voicebox // المصدر: meta

ميتاقدمت AI Voicebox ، واتصل بهذه الأداة "النموذج الأول القادر على التكيف مع مهام توليد الكلام التي لم يتم تشكيلها ، بأداء متقدم" فيمقال إعلانه.

يريد Meta إنشاء الموسيقى والأصوات ... من لا شيء

تعرض شركة Mark Zuckerberg Voicebox كنظام توليد تلقائي بواسطةالذكاء الاصطناعي، مقارنته بأدوات توليد النص أو الصور. هذه المرة ، هو خلق صوت.

تشغيل نموذج الصوت // المصدر: meta

خصوصية هذا النموذج هي أنه لا يحتاج إلى تسجيلات سابقة لإنشاء صوت: لقد تم دفعه بما يكفي من قبل. يتضمن Voicebox نموذجًا يسمى مطابقة التدفق ، والذي لا يتطلب تسجيلات تم إعدادها للتدريب. يتيح هذا Voicebox التعرف على بيانات أكثر تنوعًا ، ولكن بشكل خاص بكميات أكبر. 50000 ساعة من الخطب والنسخ من الكتب الصوتية في المجال العام باللغة الإنجليزية والفرنسية والإسبانية والألمانية والبولندية والبرتغالية "كانت"مبغىبواسطة VoiceBox. تم تدريب الذكاء الاصطناعي "للتنبؤ بقطاع الكلام عندما يتم إعطاؤه الكلام المحيط ونسخ الجزء.هذا يعني أنه من السياق ، فإن VoiceBox قادر على إنتاج الصوت.

The VoiceBox // Source: Meta Scheme

meta يشير إلى أن ""يمكن للنموذج تصنيع الكلام بست لغات ، وكذلك حذف الضوضاء وتحرير المحتوى وتحويل النمط وإنشاء عينات مختلفة."في الوقت الحالي ، أعلن Meta أنه لا يرغب في جعل النموذج أو الكود في متناول الجمهور"بسبب المخاطر المحتملة للاستخدام المسيء.في الواقع ، هذا يمكن أن يجعل من الممكن إنشاءمزيفة عميقة، تسجيلات كاذبة للشخصيات (بما في ذلك سياسية). تكتب الشركة أنها تريد "ابحث عن توازن عادل بين الفتح والمسؤولية.»

يريد Voicebox أن يفعل أفضل من الآخرين

يريد Meta جعل VoiceBox أداة متعددة الاستخدامات ، قادرة على أداء عدة مهام حول الصوت. على سبيل المثال ، يمكن أن يغير المسار ، ليس فقط النهاية ، ولكن أي جزء آخر. تذكر وظيفة الحد من الضوضاءوظيفة صوت RTX متوفرة على بطاقات رسومات NVIDIA. إنه يقلل من الضوضاء عند استخدام الميكروفون الخاص به ، وذلك بفضل الذكاء الاصطناعي. حل تم تبنيه العام الماضيAMD على بطاقات الرسومات الخاصة بهاأيضًا.

المقارنة بين Voicebox ونماذج توليد الصوت الأخرى // المصدر: التعريف

يريد Meta أيضًا السباق مع Microsoft. في يناير ، قدم الأخيرVall-E ، نموذج جيل صوتي منظمة العفو الدولية. كان خصوصيته أنه يتطلب ثلاث ثوان فقط من التسجيل لإعادة إنتاج واحدة. سيكون Voicebox أفضل من Vall-E "على التوليف الصوتي من النص من حيث الوضوح[…]وتشابه الصوت[…]بينما تصل إلى 20 مرة أسرع.»

ما هي الاستخدامات لتوليد الصوت من قبل الذكاء الاصطناعي؟

من الواضح أن Meta تخيلت العديد من الاستخدامات الممكنة لـ VoiceBox وتفصيلها.

ثانيتين بصوت كافٍ لإعادة إنتاجه

بادئ ذي بدء ، هناك تخليق صوتي ، أي توليد الصوت من النص. باستخدام عينة في صوت اثنين ، سيكون Voicebox قادرًا على توليد هذا الصوت نفسه بفضل النص الذي يتم تقديمه إليه.

يعرف VoiceBoix كيفية إعادة إنتاج صوت // المصدر: meta

يتخيل Meta أنه سيسمح "للأشخاص غير القادرين على التحدث عن التعبير عن أنفسهم أو تخصيص الأصوات المستخدمة من قبل الشخصيات غير المفيدة والمساعدين الافتراضيين». تقنيةتستخدم بالفعل من قبل Apple لكتبها الصوتيةعلى سبيل المثال.

ترجمة صوته ، بجميع اللغات ، بلكنة مثالية

من المعروف أن الفرنسيين لا يكونون مرتاحين للغات الأجنبية وله لهجة سيئة للغاية. قد لا يكون هذا هو الحال في المستقبل ، ولكن ليس بفضل بعض دورات اللغة الإضافية. يمكن أن يجعل Voicebox من الممكن إعادة إنتاج صوت ، ولكن بلغة أخرى. الذكاء الاصطناعي قادر بالفعل ، باللغة الإنجليزية أو الفرنسية أو الألمانية أو الإسبانية أو البولندية أو البرتغالية.

Voicebox // المصدر: التعريف

يمكن للمرء أن يتخيل تطبيقات ملموسة فيترجمة جوجلعلى سبيل المثال. في بلد أجنبي ، يمكنك أن تملي على هاتفك الذكي ما نريد ترجمته وسيتحدث الذكاء الاصطناعى بصوتنا ، ولكن بلغة الوجهة. حالة عملية أخرى: مؤتمرات الفيديو. يمكننا ترجمة صوته في الوقت الحقيقي بالداخلتكبيروفرق Microsoftأولقاء جوجل.

جعل الصوت

تخيل أنك ستسجل بودكاست ، أو أي تسجيل صوتي آخر. من خلال الاستماع إليها ، تدرك أن الخلل أو الضربة في الميكروفون يجعل الصوت غير مسموع تقريبًا ، على الأقل غير سار.

Voicebox // المصدر: التعريف

VoiceBox قادر على حل هذه المشكلة عن طريق إعادة تشكيل الجزء الفاسد. يكفي لحفظ التسجيل وتجنب إعادةه.

تدريب أدوات الاعتراف الصوتي

يمكن لـ VoiceBox أيضًا ... تدريب نماذج منظمة العفو الدولية الأخرى ، ونماذج التعرف على الصوت بشكل أكثر دقة. يقول Meta إنه نظرًا لأن VoiceBox يمكنه إنشاء الصوت على وجه التحديد ، يمكن استخدام هذه التسجيلات الصوتية للتسبب في التعرف الصوتي على الذكاء الاصطناعي.

تم تسمية التسجيلات التي تنشئها VoiceBox بالفعل ، ونحن نعرف ما يقال ، حيث تم إنشاؤها باستخدام النص. تحدد مقالة المدونة المنشورة ذلك ""تعتبر نماذج التعرف على الصوت المدربة على البيانات الاصطناعية التي تم إنشاؤها بواسطة VoiceBox فعالة تقريبًا مثل النماذج المرسومة على البيانات الحقيقية». يقول Meta إن هناك فقط 1 ٪ تدهور معدل الخطأ مع VoiceBox مقارنة بتسجيلات التدريب الحقيقية.