Jannah Theme License is not validated, Go to the theme options page to validate the license, You need a single license for each domain name.
تقنية

يمكن لأداة الذكاء الاصطناعي الجديدة من Microsoft محاكاة الأصوات بثلاث ثوانٍ من الصوت


على الرغم من التقدم المحرز في مجال إنشاء الفيديو بالذكاء الاصطناعي ، إلا أنه لا يزال يتطلب قدرًا كبيرًا من المواد المصدر ، مثل لقطات الرأس من زوايا مختلفة أو لقطات فيديو ، حتى يتمكن شخص ما من إنشاء نسخة مزيفة مقنعة للغاية من شكلك. عندما يتعلق الأمر بتزوير صوتك ، فهذه قصة مختلفة ، مثل باحثو مايكروسوفت كشفت مؤخرًا عن أداة جديدة للذكاء الاصطناعي يمكنها محاكاة صوت شخص ما باستخدام عينة مدتها ثلاث ثوانٍ فقط منهم يتحدثون.

الأداة الجديدة ، “نموذج لغة الترميز العصبية” المسماة VALL-E ، مبنية على تقنية ضغط الصوت EnCodec من Meta، الذي تم الكشف عنه أواخر العام الماضي ، والذي يستخدم الذكاء الاصطناعي لضغط صوت بجودة أفضل من الأقراص المضغوطة إلى معدلات بيانات أصغر 10 مرات حتى من ملفات MP3 ، دون خسارة ملحوظة في الجودة. تصور Meta EnCodec كطريقة لتحسين جودة المكالمات الهاتفية في المناطق ذات التغطية الخلوية المتقطعة ، أو كطريقة لتقليل طلبات النطاق الترددي لخدمات دفق الموسيقى ، لكن Microsoft تستفيد من التكنولوجيا كطريقة لجعل النص إلى صوت توليف الكلام أكثر يبدو. واقعية تستند إلى عينة مصدر محدودة للغاية.

إن أنظمة تحويل النص الحالية قادرة على إنتاج أصوات واقعية للغاية ، وهذا هو السبب في أن أصوات المساعدين الأذكياء تبدو أصيلة للغاية على الرغم من استجاباتهم اللفظية التي يتم إنشاؤها أثناء التنقل. لكنها تتطلب بيانات تدريب عالية الجودة ونظيفة للغاية ، والتي يتم التقاطها عادةً في استوديو تسجيل بمعدات احترافية. يجعل منهج Microsoft VALL-E قادرًا على محاكاة صوت أي شخص تقريبًا دون قضاء أسابيع في الاستوديو. بدلاً من ذلك ، تم تدريب الأداة باستخدام مجموعة بيانات Meta Libri-lightالذي يحتوي على 60.000 ساعة من الكلام المسجل باللغة الإنجليزية من أكثر من 7000 متحدث فريد “مستخرج ومعالج من LibriVox الكتب المسموعة ، “وهي كلها ملك عام.

قامت Microsoft بمشاركة ملف مجموعة واسعة من عينات VALL-E المتولدة لذلك يمكنك أن تسمع بنفسك مدى قدرة قدرات المحاكاة الصوتية ، ولكن النتائج حاليًا عبارة عن حقيبة مختلطة. تواجه الأداة أحيانًا مشكلة في إعادة إنشاء اللهجات ، بما في ذلك حتى اللكنات الدقيقة من عينات المصدر حيث يبدو المتحدث أيرلنديًا ، وقدرتها على تغيير العاطفة في عبارة معينة تكون أحيانًا مضحكة. ولكن في أغلب الأحيان ، أنتجت VALL-E عينات تبدو طبيعية ودافئة ويكاد يكون من المستحيل تمييزها عن السماعات الأصلية في مقاطع المصدر الثلاث الثانية.

في شكله الحالي ، تدرب على ليبري لايت، VALL-E يقتصر على محاكاة الكلام باللغة الإنجليزية ، وعلى الرغم من أن أداؤه ليس خاليًا من العيوب بعد ، فإنه بلا شك سيتحسن مع توسيع مجموعة البيانات النموذجية الخاصة به. ومع ذلك ، سيكون الأمر متروكًا لباحثي Microsoft لتحسين VALL-E ، حيث لا يقوم الفريق بإصدار الكود المصدري للأداة. في ورقة بحثية صدرت مؤخرًا بالتفصيل تطوير VALL-E ، يفهم منشئوه تمامًا المخاطر التي يمثلها:

نظرًا لأن VALL-E يمكنه توليف الكلام الذي يحافظ على هوية المتحدث ، فقد ينطوي على مخاطر محتملة في إساءة استخدام النموذج ، مثل انتحال التعرف على الصوت أو انتحال شخصية متحدث معين. للتخفيف من هذه المخاطر ، من الممكن بناء نموذج كشف للتمييز بين ما إذا كان مقطع الصوت قد تم تصنيعه بواسطة VALL-E. سنضع أيضا مبادئ مايكروسوفت للذكاء الاصطناعي في الممارسة عند تطوير النماذج “.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى