ربات جدید مایکروسافت هر صدایی را تقلید می‌کند

اما تأثیر آن نیز این است که خبر خوبی برای صداپیشه‌ها و گویندگان نیست، چرا که هوش مصنوعی می‌تواند گویندگی را به سرعت و بسیار ارزان انجام دهد، اما خب نمی‌توان آن را زیاد کرد تا هنرمندانه باشند.

مایکروسافت می‌گوید، روزی می‌توان از این ربات برای برنامه‌های کاربردی تبدیل متن به گفتار سفارشی یا پیشرفته استفاده کرد، مانند فناوری دیپ‌یک (جعل مهم)، خطر سوء استفاده را نیز به همراه دارد.

مایکروسافت احتمالاً به دلیل خطرات ذاتی این ربات مصنوعی است که می‌تواند کلمات دلخواه را در دهان شخص دیگری بگذراند، کد آن را به صورت منبع‌باز قرار نمی‌دهد، چرا که از آنجایی که VALL-E می‌تواند می‌تواند به صورت ترکیبی از هویت را بیان کند. کند، ممکن است خطرات بالقوه‌ای در استفاده نادرست، مانند جعل صدا یا جعل هویت داشته باشد.

ربات مصنوعی مصنوعی VALL-E چیزی است که مایکروسافت آن را «مدل زبان عصبی کدک» (neural codec language model) می‌نامد که از شبکه فشرده‌سازی عصبی شرکت «متا» موسوم به Encodec مشتق شده است که صدا را از ورودی متن و نمونه‌های کوتاهی از آن استفاده می‌کند. بلندگوی هدف تولید می‌کند.

این واقعیت که VALL-E لحن احساسی نمونه اصلی را حفظ می کند، نکته برجسته آن است. همچنین کاملاً با محیط آکوستیک مطابقت دارد، بنابراین اگر صدای خود را در سالن پژواک ضبط کند، خروجی VALL-E نیز به نظر می‌رسد که از همان مکان ساخته شده است.

به گزارش ایسنا، مایکروسافت جدیدترین پژوهش‌های خود را در زمینه تبدیل متن به گفتار با مدلی به نام VALL-E نشان می‌دهد که می‌توان صدای افراد را تنها از یک نمونه صوتی سه‌های شبیه‌سازی کند.

بخوان پروژه چین برای تخمین میزان خطر سیارک‌ها

کار Vall-E در تقلید لهجه‌ها نیز بسیار خوب است و حداقل لهجه‌های آمریکایی، بریتانیایی و چند لهجه اروپایی را به خوبی تقلید می‌کند.

پژوهشگران شرکت مایکروسافت این مدل چشمگیر جدید مصنوعی تبدیل متن به گفتار را به نحوی طراحی کرده است که می‌تواند به یک صدا گوش دهد، سپس آن صدا را تقلید کند و هرچه کاربر دوست دارد، بگوید.

گفتار نه تنها می‌تواند با صدای گوینده، بلکه با لحن احساسی وی و حتی آکوستیک یک اتاق همخوانی داشته باشد.

نتایج حاصل از این ربات در حال حاضر، ترکیبی است و برخی از آنها شبیه به صدای ماشینی و برخی دیگر به طرز شگفت آوری واقعی هستند.

پیامدهای این نوع فناوری کاملاً واضح است. از جنبه مثبت می‌توان این گونه را در نظر گرفت که کاربران می‌توانند از این ربات بخواهند مثلا لیست خرید آنها را با صدای هنرپیشگان و صداپیشگان مشهور برایشان بخواند. یا اگر بازیگری در نیمه راه فیلمبرداری یک فیلم فوت کند، می‌توانم با استفاده از این فناوری و جلوه‌های ویژه پروژه را پایان دهم.

مایکروسافت برای بهبود این مدل قصد دارد آموزش خود را «برای بهبود عملکرد مدل در زبانی، سبک گفتاری و شباهت به صدای سخنران» افزایش دهد. همچنین در حال بررسی راه‌هایی برای کاهش کلمات است که نامفهوم یا فراموش شده‌اند.

ظهور هوش مصنوعی‌های خالق مانند DALL-E، ربات گفتگوگر ChatGPT، الگوریتم‌های دیپ‌فیک مختلف و تعداد بی‌شماری از الگوریتم‌های دیگر به نظر می‌رسد که در چند ماه گذشته در نقطه عطف دنیای خارج از آزمایشگاه‌ها شروع شده و به خارج از آزمایشگاه‌ها وارد می‌شوند و به واقعی رسیده‌اند. این فناوری‌ها نیز مانند همه تغییرات دیگر، فرصت‌ها و خطراتی هستند که به همراه دارند و حاکی از آن‌ها هستند که ما واقعاً در زمان جالبی زندگی می‌کنیم.

بخوان آیا بلاک چین کاربردی فراتر از تجارت کریپتو پیدا کرده است؟

این الگوریتم جدید نمونه‌های زیادی از الگوریتم‌های مصنوعی است که می‌توان صدای یک فرد را تقلید کند و کلمات و جملاتی را بیان کند که شخص مورد نظر هرگز آنها را بازگو نکرده است.

پژوهشگران در مقاله‌ای، نحوه آموزش دیدن VALL-E را با ۶۰ هزار ساعت گفتار انگلیسی از بیش از ۷۰۰۰ سخنران در کتابخانه صوتی LibriLight متا شرح داده‌اند. صدایی که این ربات سعی می‌کند تقلید کند با صدای داده‌های آموزشی مطابقت داشته باشد.

این گروه دقیقاً نشان می دهد که این کار توسط VALL-E چقدر خوب انجام می شود. بنابراین برای هر عبارتی که می‌خواهید پیام مصنوعی آن را بگویید، یک سه سه‌گانه از گوینده برای تقلید کافی است.

انتهای پیام

منبع ربات هوش مصنوعی جدید تبدیل متن به صدای شرکت مایکروسافت موسوم به VALL-E تنها با ۳ ثانیه گوش سپردن به صدای شخص می‌تواند آن را به خوبی تقلید کند و حتی می‌توان احساس گوینده را نیز حفظ کند.

Related Posts