برنامه هوش مصنوعی مایکروسافت VASA-1 باعث می شود عکس ها با حالات چهره باورپذیر صحبت و آواز بخوانند

برنامه هوش مصنوعی مایکروسافت VASA-1 باعث می شود عکس ها با حالات چهره باورپذیر صحبت و آواز بخوانند

برنامه هوش مصنوعی مایکروسافت VASA-1 باعث می شود عکس ها با حالات چهره باورپذیر صحبت و آواز بخوانند

با توجه به یک پرتره، یک کلیپ صوتی گفتار، و در صورت تمایل مجموعه‌ای از سیگنال‌های کنترلی دیگر، رویکرد ما ویدئویی با کیفیت بالا و واقعی از چهره سخنگو با وضوح 512×512 تا حداکثر 40 فریم در ثانیه تولید می‌کند. این روش کلی و قوی است و چهره‌های سخنگو ایجاد شده می‌توانند صادقانه حالات چهره و حرکات سر انسان را تقلید کنند و به سطح بالایی از واقع‌گرایی و وضوح برسند. (همه پرتره های واقعی در این مقاله هویت های مجازی و غیر موجود هستند.) اعتبار: arXiv (2024). doi: 10.48550/arxiv.2404.10667

تیمی از محققان هوش مصنوعی در Microsoft Research Asia یک برنامه هوش مصنوعی توسعه داده اند که تصویر ایستا از یک شخص و یک آهنگ صوتی را به انیمیشنی تبدیل می کند که به طور دقیق فرد را در حال صحبت کردن یا خواندن آهنگ صوتی با حالات چهره مناسب به تصویر می کشد.

این تیم مقاله ای را منتشر کرد که در آن توضیح می داد که این برنامه چگونه ساخته شده است arXiv سرور پیش چاپ؛ نمونه های ویدئویی در صفحه پروژه تحقیقاتی موجود است.

تیم تحقیقاتی به دنبال این بودند که تصاویر ثابت صحبت کردن و آواز خواندن او را با استفاده از هر قطعه صوتی پشتیبان، در حالی که حالات چهره باورپذیر را نشان می‌دادند، متحرک کنند. ظاهراً، آنها موفق به توسعه VASA-1، یک سیستم هوش مصنوعی شده‌اند که تصاویر ثابت گرفته شده با دوربین، طراحی شده یا رنگی را به چیزی که آنها به عنوان انیمیشن «همگام‌سازی عالی» توصیف می‌کنند، تبدیل می‌کند.

این گروه با ارسال ویدئوهای کوتاهی از نتایج آزمایش، اثربخشی سیستم خود را نشان داد. در یکی، نسخه کارتونی مونالیزا یک آهنگ رپ را اجرا می کند. در دیگری، تصویر یک زن به اجرای آواز تبدیل شد و در دیگری، نقاشی مردی که در حال سخنرانی است.

در هر دو انیمیشن، حالات چهره با کلمات به گونه ای تغییر می کند که بر آنچه گفته می شود تأکید می کند. محققان همچنین خاطرنشان کردند که علی‌رغم ماهیت واقعی ویدیوها، بازرسی دقیق‌تر می‌تواند نقص‌ها و شواهدی مبنی بر ایجاد مصنوعی آنها را آشکار کند.







اعتبار: مایکروسافت

تیم تحقیقاتی با آموزش کاربرد آن بر روی هزاران تصویر با طیف وسیعی از حالات چهره به نتایج خود دست یافتند. آنها همچنین خاطرنشان می کنند که این سیستم در حال حاضر تصاویر 512 x 512 پیکسل را با سرعت 45 فریم بر ثانیه تولید می کند. همچنین، تولید ویدئوها با استفاده از پردازنده گرافیکی دسکتاپ Nvidia RTX 4090 به طور متوسط ​​دو دقیقه طول کشید.

تیم تحقیقاتی پیشنهاد می کند که VASA-1 می تواند برای ایجاد آواتارهای بسیار واقعی برای بازی ها یا شبیه سازی ها استفاده شود. در عین حال، آنها احتمال سوء استفاده را می پذیرند و بنابراین سیستم را برای استفاده عمومی در دسترس قرار نمی دهند.

اطلاعات بیشتر:
سیچنگ زو و همکاران، VASA-1: چهره های صحبت کننده مبتنی بر صدا که در زمان واقعی تولید می شوند، arXiv (2024). doi: 10.48550/arxiv.2404.10667

صفحه پروژه: www.microsoft.com/en-us/research/project/vasa-1/

اطلاعات مجله:
arXiv

© 2024 Web of Science

نقل قول: برنامه Microsoft VASA-1 AI باعث می شود عکس ها با حالات چهره باورنکردنی صحبت کنند و آواز بخوانند (2024، 19 آوریل) بازیابی شده در 19 آوریل 2024 از https://techxplore.com/news/2024-04-microsoft-ai-app- vasa- زبان برنامه نویسی باورپذیر

این برگه یا سند یا نوشته تحت پوشش قانون کپی رایت است. علی‌رغم هرگونه معامله منصفانه به منظور مطالعه یا تحقیق خصوصی، هیچ بخشی بدون اجازه کتبی قابل تکثیر نیست. محتوا فقط برای مقاصد اطلاعاتی ارائه شده است.

منبع

بخوان  Lumiere چشمگیر گوگل آینده ساخت ویدیوهای کوتاه هوش مصنوعی را به ما نشان می دهد