گوگل با Lumiere، یک مدل هوش مصنوعی جدید که قادر به ایجاد محتوای شگفتآور با کیفیت بالا است، یک کرک دیگر در تولید متن به ویدئو انجام میدهد.
این غول فناوری مطمئناً از روزهای Imagen Video فاصله زیادی گرفته است. موضوعات در ویدیوهای لومیر دیگر این موجودات کابوس وار با چهره های آب شده نیستند. اکنون همه چیز بسیار واقعی تر به نظر می رسد. لاکپشتهای دریایی شبیه لاکپشتهای دریایی هستند، خز روی حیوانات بافت مناسبی دارد، و افراد در کلیپهای هوش مصنوعی لبخندهای واقعی دارند (بیشتر). علاوه بر این، در سایر هوش مصنوعی های مولد متن به ویدئو، میزان بسیار کمی از حرکت تند و ناگهانی عجیب و غریب دیده می شود. حرکت تا حد زیادی مانند کره صاف است. Inbar Mosseri، سرپرست تیم تحقیقاتی در Google Research، ویدئویی را در کانال یوتیوب خود منتشر کرد نشان دادن قابلیت های Lumiere
گوگل برای اینکه محتوای Lumiere تا حد امکان واقعی به نظر برسد، تلاش زیادی کرده است. تیم توسعه دهنده این کار را با اجرای چیزی به نام معماری U-Net فضا-زمان (STUNet) انجام داد. فناوری پشت STUNet بسیار پیچیده است. اما همانطور که Ars Technica توضیح می دهد، به Lumiere این امکان را می دهد که بفهمد اشیاء در یک ویدیو کجا هستند، چگونه حرکت می کنند و تغییر می کنند و این اقدامات را در همان زمان ارائه می دهد که منجر به ایجاد یک جریان روان می شود.
این برخلاف دیگر پلتفرمهای مولد است که ابتدا فریمهای کلیدی را در کلیپها ایجاد میکنند و سپس شکافها را پر میکنند. انجام این کار منجر به حرکت تند و سریعی می شود که فناوری به آن معروف است.
به خوبی مجهز شده است
علاوه بر تولید متن به ویدیو، Lumiere دارای ویژگی های متعددی در جعبه ابزار خود است که از جمله آنها می توان به پشتیبانی از چندوجهی اشاره کرد.
کاربران می توانند تصاویر یا ویدیوهای منبع را در هوش مصنوعی آپلود کنند تا بتواند آنها را مطابق با مشخصات خود ویرایش کند. به عنوان مثال، می توانید یک تصویر از دختری با گوشواره مروارید توسط یوهانس ورمیر و آن را به یک کلیپ کوتاه تبدیل کنید که در آن به جای خیره شدن بیپروا لبخند میزند. Lumiere همچنین دارای قابلیتی به نام Cinemagraph است که می تواند بخش های هایلایت شده تصاویر را متحرک کند.
گوگل این را با انتخاب پروانه ای که روی گل نشسته است نشان می دهد. به لطف هوش مصنوعی، ویدئوی خروجی پروانه بال های خود را تکان می دهد در حالی که گل های اطراف آن ثابت می مانند.
وقتی صحبت از ویدیو به میان میآید، چیزها به ویژه چشمگیر میشوند. Video Inpainting، ویژگی دیگر، عملکردی مشابه Cinemagraph دارد، زیرا هوش مصنوعی میتواند بخشهایی از کلیپها را ویرایش کند. لباس سبز طرح دار زنانه را می توان به طلایی براق یا مشکی تبدیل کرد. Lumiere با ارائه سبکسازی ویدئو برای تغییر سوژههای ویدئویی یک قدم جلوتر میرود. یک ماشین معمولی که در جاده رانندگی می کند می تواند به وسیله نقلیه ای تبدیل شود که کاملاً از چوب یا آجر لگو ساخته شده است.
هنوز در کار است
مشخص نیست که آیا برنامههایی برای عرضه عمومی Lumiere وجود دارد یا گوگل قصد دارد آن را به عنوان یک سرویس جدید پیادهسازی کند.
شاید بتوانیم شاهد نمایش هوش مصنوعی در گوشی پیکسل آینده به عنوان تکامل Magic Editor باشیم. اگر با آن آشنایی ندارید، Magic Editor از «پردازش هوش مصنوعی» استفاده می کند [to] بهطور هوشمندانه فضاها یا اشیاء را در عکسهای پیکسل 8 تغییر دهید. از نظر ما، نقاشی با ویدئو، پیشرفتی طبیعی برای فناوری است.
در حال حاضر، به نظر می رسد که تیم قرار است آن را پشت درهای بسته نگه دارد. هر چقدر هم که این هوش مصنوعی چشمگیر باشد، همچنان مشکلات خود را دارد. انیمیشن های جرکی وجود دارد. در موارد دیگر، آزمودنیها دارای اندامهایی هستند که به شکل خمیده در میآیند. اگر میخواهید بیشتر بدانید، مقاله تحقیقاتی گوگل در مورد Lumiere را میتوانید در اینجا پیدا کنید وب سایت arXiv دانشگاه کرنل. هشدار داده می شود: این یک خواندن متراکم است.
و مطمئن شوید که جمع بندی TechRadar از بهترین مولدهای هنر هوش مصنوعی برای سال 2024 را بررسی کنید.