باستخدام هذا الذكاء الاصطناعي، يمكن لشركة Microsoft إنشاء صوت أو إزالة الضوضاء المحيطة

قدمت Microsoft SpeechX، وهو ذكاء اصطناعي لتوليد الكلام. أكثر من مجرد مولد صوت، يمكن لهذه الأداة أيضًا تحويل الكلمات أو إزالة الضوضاء المحيطة. هدف الشركة: جعلها أداة متعددة الاستخدامات، وقبل كل شيء أفضل من غيرها.

مصدر :تصوير توراج عبر Unsplash

يناير الماضي،مايكروسوفتكشف فال-E:نموذج الذكاء الاصطناعي لإعادة إنتاج الصوت من ثلاث ثوانٍ من التسجيل. وبعد بضعة أشهر، قدمت الشركة نموذجًا جديدًا يهدف إلى أن يكون أكثر انتشارًا. تُسمى Microsoft SpeechX، وتخطط بالفعل لعدة استخدامات لهذا الغرضالذكاء الاصطناعيمتخصصة في الصوت.

SpeechX: هذه الأداة التي يمكنها فعل كل شيء (تقريبًا) بصوتك

نكتشفه في القسم المخصص للبحث في موقع MicrosoftخطابX، في صفحة نشرت على الإنترنت في 14 أغسطس. نتعلم أنه "نموذج متعدد الاستخدامات لتوليد الكلام يستفيد من الرسائل الصوتية والنصية.» تم تدريبه في إنشائه على 60 ألف ساعة من البيانات الصوتية. بالنسبة لمايكروسوفت "لا تزال النماذج الحالية محدودة في التعامل مع مهام التوليد المختلفة»، وخاصة في الظروف الصوتية السيئة.

كيف يعمل SpeechX // المصدر: Microsoft

الاستخدامات التي صممتها Microsoft متعددة. تذكر الشركةتحويل النص إلى كلام(أي توليد الأصوات من النص)، وإزالة الضوضاء المحيطة، واستخراج الصوت من مكبر الصوت المستهدف، وإزالة الكلام وتحريره (يمكن تحرير الصوت المستهدف مع الحفاظ على بقية المسار الصوتي).

لا تزال Microsoft على الصفحة المخصصة لـ SpeechX، وقد نشرت بعض العروض التوضيحية. على سبيل المثال، لدينا حالةتحويل النص إلى كلام، حيث يقوم SpeechX بإعادة إنتاج الصوت من ثلاث ثوانٍ من التسجيل، مثل Vall-E، عن طريق تغيير الكلمات. ثم قامت مايكروسوفت بجعل هذه الأصوات تنطق نفس الجمل التي ينطقها الذكاء الاصطناعي الخاص بها، من أجل إجراء المقارنة. حتى بدون الأخير، فإن النتائج مثيرة للإعجاب للغاية: إذا اعتبرنا أن جودة الصوت رديئة، فيمكننا التغاضي عن الجانب الآلي إلى حد ما للأصوات المولدة. مع المقارنة يكون الأمر واضحا، ولكن بدونها يكون الأمر أقل وضوحا.

استخدامات SpeechX // المصدر: Microsoft

حيث يكون الأمر أكثر خداعًا في حالة التعديل في الجملة الكاملة. يستطيع SpeechX استبدال بضع كلمات في الجملة المنطوقة. وفي هذه الحالة يتم تمويه الصوت الاصطناعي بالصوت الطبيعي ويصعب التمييز بين الاثنين. نفس الشيء بالنسبة للكلمات الخاطئة. أما بالنسبة لقمع الضوضاء المحيطة، فإن العروض التوضيحية المنشورة تبدو أقل كفاءة منRTX Voice، المعادل في Nvidia. منافس الابنتمتلك AMD أيضًا تقنية مماثلة في بطاقات الرسومات الخاصة بها.

مايكروسوفت ليست الوحيدة التي تعمل على الذكاء الاصطناعي المتخصص في الصوت: على سبيل المثال،قدمت ميتا Voicebox قبل بضعة أشهر، أداة قادرة على ترجمة صوتك إلى لغة أخرى. ومن ناحية أبل،يتم استخدام الذكاء الاصطناعي بالفعل لقراءة الكتب الصوتية.