تیمی از محققان هوش مصنوعی در Microsoft Research Asia یک برنامه هوش مصنوعی توسعه داده اند که تصویر ایستا از یک شخص و یک آهنگ صوتی را به انیمیشنی تبدیل می کند که به طور دقیق فرد را در حال صحبت کردن یا خواندن آهنگ صوتی با حالات چهره مناسب به تصویر می کشد.
این تیم مقاله ای را منتشر کرد که در آن توضیح می داد که این برنامه چگونه ساخته شده است arXiv سرور پیش چاپ؛ نمونه های ویدئویی در صفحه پروژه تحقیقاتی موجود است.
تیم تحقیقاتی به دنبال این بودند که تصاویر ثابت صحبت کردن و آواز خواندن او را با استفاده از هر قطعه صوتی پشتیبان، در حالی که حالات چهره باورپذیر را نشان میدادند، متحرک کنند. ظاهراً، آنها موفق به توسعه VASA-1، یک سیستم هوش مصنوعی شدهاند که تصاویر ثابت گرفته شده با دوربین، طراحی شده یا رنگی را به چیزی که آنها به عنوان انیمیشن «همگامسازی عالی» توصیف میکنند، تبدیل میکند.
این گروه با ارسال ویدئوهای کوتاهی از نتایج آزمایش، اثربخشی سیستم خود را نشان داد. در یکی، نسخه کارتونی مونالیزا یک آهنگ رپ را اجرا می کند. در دیگری، تصویر یک زن به اجرای آواز تبدیل شد و در دیگری، نقاشی مردی که در حال سخنرانی است.
در هر دو انیمیشن، حالات چهره با کلمات به گونه ای تغییر می کند که بر آنچه گفته می شود تأکید می کند. محققان همچنین خاطرنشان کردند که علیرغم ماهیت واقعی ویدیوها، بازرسی دقیقتر میتواند نقصها و شواهدی مبنی بر ایجاد مصنوعی آنها را آشکار کند.
تیم تحقیقاتی با آموزش کاربرد آن بر روی هزاران تصویر با طیف وسیعی از حالات چهره به نتایج خود دست یافتند. آنها همچنین خاطرنشان می کنند که این سیستم در حال حاضر تصاویر 512 x 512 پیکسل را با سرعت 45 فریم بر ثانیه تولید می کند. همچنین، تولید ویدئوها با استفاده از پردازنده گرافیکی دسکتاپ Nvidia RTX 4090 به طور متوسط دو دقیقه طول کشید.
تیم تحقیقاتی پیشنهاد می کند که VASA-1 می تواند برای ایجاد آواتارهای بسیار واقعی برای بازی ها یا شبیه سازی ها استفاده شود. در عین حال، آنها احتمال سوء استفاده را می پذیرند و بنابراین سیستم را برای استفاده عمومی در دسترس قرار نمی دهند.
اطلاعات بیشتر:
سیچنگ زو و همکاران، VASA-1: چهره های صحبت کننده مبتنی بر صدا که در زمان واقعی تولید می شوند، arXiv (2024). doi: 10.48550/arxiv.2404.10667
صفحه پروژه: www.microsoft.com/en-us/research/project/vasa-1/
arXiv
© 2024 Web of Science
نقل قول: برنامه Microsoft VASA-1 AI باعث می شود عکس ها با حالات چهره باورنکردنی صحبت کنند و آواز بخوانند (2024، 19 آوریل) بازیابی شده در 19 آوریل 2024 از https://techxplore.com/news/2024-04-microsoft-ai-app- vasa- زبان برنامه نویسی باورپذیر
این برگه یا سند یا نوشته تحت پوشش قانون کپی رایت است. علیرغم هرگونه معامله منصفانه به منظور مطالعه یا تحقیق خصوصی، هیچ بخشی بدون اجازه کتبی قابل تکثیر نیست. محتوا فقط برای مقاصد اطلاعاتی ارائه شده است.