اما تأثیر آن نیز این است که خبر خوبی برای صداپیشهها و گویندگان نیست، چرا که هوش مصنوعی میتواند گویندگی را به سرعت و بسیار ارزان انجام دهد، اما خب نمیتوان آن را زیاد کرد تا هنرمندانه باشند.
مایکروسافت میگوید، روزی میتوان از این ربات برای برنامههای کاربردی تبدیل متن به گفتار سفارشی یا پیشرفته استفاده کرد، مانند فناوری دیپیک (جعل مهم)، خطر سوء استفاده را نیز به همراه دارد.
مایکروسافت احتمالاً به دلیل خطرات ذاتی این ربات مصنوعی است که میتواند کلمات دلخواه را در دهان شخص دیگری بگذراند، کد آن را به صورت منبعباز قرار نمیدهد، چرا که از آنجایی که VALL-E میتواند میتواند به صورت ترکیبی از هویت را بیان کند. کند، ممکن است خطرات بالقوهای در استفاده نادرست، مانند جعل صدا یا جعل هویت داشته باشد.
ربات مصنوعی مصنوعی VALL-E چیزی است که مایکروسافت آن را «مدل زبان عصبی کدک» (neural codec language model) مینامد که از شبکه فشردهسازی عصبی شرکت «متا» موسوم به Encodec مشتق شده است که صدا را از ورودی متن و نمونههای کوتاهی از آن استفاده میکند. بلندگوی هدف تولید میکند.
این واقعیت که VALL-E لحن احساسی نمونه اصلی را حفظ می کند، نکته برجسته آن است. همچنین کاملاً با محیط آکوستیک مطابقت دارد، بنابراین اگر صدای خود را در سالن پژواک ضبط کند، خروجی VALL-E نیز به نظر میرسد که از همان مکان ساخته شده است.
به گزارش ایسنا، مایکروسافت جدیدترین پژوهشهای خود را در زمینه تبدیل متن به گفتار با مدلی به نام VALL-E نشان میدهد که میتوان صدای افراد را تنها از یک نمونه صوتی سههای شبیهسازی کند.
کار Vall-E در تقلید لهجهها نیز بسیار خوب است و حداقل لهجههای آمریکایی، بریتانیایی و چند لهجه اروپایی را به خوبی تقلید میکند.
پژوهشگران شرکت مایکروسافت این مدل چشمگیر جدید مصنوعی تبدیل متن به گفتار را به نحوی طراحی کرده است که میتواند به یک صدا گوش دهد، سپس آن صدا را تقلید کند و هرچه کاربر دوست دارد، بگوید.
گفتار نه تنها میتواند با صدای گوینده، بلکه با لحن احساسی وی و حتی آکوستیک یک اتاق همخوانی داشته باشد.
نتایج حاصل از این ربات در حال حاضر، ترکیبی است و برخی از آنها شبیه به صدای ماشینی و برخی دیگر به طرز شگفت آوری واقعی هستند.
پیامدهای این نوع فناوری کاملاً واضح است. از جنبه مثبت میتوان این گونه را در نظر گرفت که کاربران میتوانند از این ربات بخواهند مثلا لیست خرید آنها را با صدای هنرپیشگان و صداپیشگان مشهور برایشان بخواند. یا اگر بازیگری در نیمه راه فیلمبرداری یک فیلم فوت کند، میتوانم با استفاده از این فناوری و جلوههای ویژه پروژه را پایان دهم.
مایکروسافت برای بهبود این مدل قصد دارد آموزش خود را «برای بهبود عملکرد مدل در زبانی، سبک گفتاری و شباهت به صدای سخنران» افزایش دهد. همچنین در حال بررسی راههایی برای کاهش کلمات است که نامفهوم یا فراموش شدهاند.
ظهور هوش مصنوعیهای خالق مانند DALL-E، ربات گفتگوگر ChatGPT، الگوریتمهای دیپفیک مختلف و تعداد بیشماری از الگوریتمهای دیگر به نظر میرسد که در چند ماه گذشته در نقطه عطف دنیای خارج از آزمایشگاهها شروع شده و به خارج از آزمایشگاهها وارد میشوند و به واقعی رسیدهاند. این فناوریها نیز مانند همه تغییرات دیگر، فرصتها و خطراتی هستند که به همراه دارند و حاکی از آنها هستند که ما واقعاً در زمان جالبی زندگی میکنیم.
این الگوریتم جدید نمونههای زیادی از الگوریتمهای مصنوعی است که میتوان صدای یک فرد را تقلید کند و کلمات و جملاتی را بیان کند که شخص مورد نظر هرگز آنها را بازگو نکرده است.
پژوهشگران در مقالهای، نحوه آموزش دیدن VALL-E را با ۶۰ هزار ساعت گفتار انگلیسی از بیش از ۷۰۰۰ سخنران در کتابخانه صوتی LibriLight متا شرح دادهاند. صدایی که این ربات سعی میکند تقلید کند با صدای دادههای آموزشی مطابقت داشته باشد.
این گروه دقیقاً نشان می دهد که این کار توسط VALL-E چقدر خوب انجام می شود. بنابراین برای هر عبارتی که میخواهید پیام مصنوعی آن را بگویید، یک سه سهگانه از گوینده برای تقلید کافی است.
انتهای پیام