نقل قول: نرم افزار نماهای کاملاً جدیدی را از ویدیوی موجود ایجاد می کند (2023، 13 ژوئیه) بازیابی شده در 13 ژوئیه 2023 از
این برگه یا سند یا نوشته تحت پوشش قانون کپی رایت است. به غیر از هرگونه معامله منصفانه به منظور مطالعه یا تحقیق خصوصی، هیچ بخشی بدون اجازه کتبی قابل تکثیر نیست. محتوای مذکور فقط به هدف اطلاع رسانی ایجاد شده است.
روشهای موجود برای ارائه نماهای جدید از صحنههای ثابت، مانند مواردی که یک عکس را سه بعدی نشان میدهند، شبکه دوبعدی پیکسلها را از یک تصویر میگیرند و شکل و ظاهر سهبعدی هر شی در عکس را بازسازی میکنند. DynIBar با تخمین چگونگی حرکت اشیاء در طول زمان، این کار را یک قدم فراتر می برد. اما در نظر گرفتن هر چهار بعد یک مسئله ریاضی فوق العاده دشوار ایجاد می کند.
به لطف الگوریتمی که توسط محققان دانشگاه کرنل و Google Research ساخته شده است، فیلمسازان به زودی قادر خواهند بود ویدیوی لرزان را تثبیت کنند، دیدگاه ها را تغییر دهند و جلوه های فریز فریم، زوم و جلوه های حرکت آهسته ایجاد کنند – بدون فیلمبرداری هیچ فیلم جدیدی.
Qianqian Wang، یکی از نویسندگان این مقاله، دانشجوی دکترا در زمینه علوم کامپیوتر در Cornell Tech، گفت: “ما ایده کلاسیک رندر مبتنی بر تصویر را ترکیب کردیم و این باعث می شود روش ما بتواند صحنه های بسیار پیچیده و ویدیوهای طولانی تر را مدیریت کند.” وانگ روشی را برای استفاده ابداع کرد رندر مبتنی بر تصویر برای ترکیب نماهای جدید از تصاویر ثابت، که نرم افزار جدید بر روی آن ساخته شده است.
محققان این مشکل را با استفاده از یک رویکرد گرافیکی کامپیوتری که در دهه 1990 به نام رندر مبتنی بر تصویر توسعه یافت، ساده کردند. در آن زمان، برای روشهای گرافیک کامپیوتری سنتی ارائه صحنههای پیچیده با بسیاری از قطعات کوچک – مانند درخت برگدار – دشوار بود، بنابراین محققان گرافیک روشهایی را توسعه دادند که از یک صحنه عکس میگرفتند و سپس قطعات را تغییر میدادند و دوباره ترکیب میکردند تا تصاویر جدید تولید کنند. به این ترتیب، بیشتر پیچیدگی در تصویر منبع ذخیره می شد و می توانست سریعتر بارگذاری شود.
نوآ اسناولی، دانشمند تحقیقاتی در Google Research و دانشیار علوم کامپیوتر در Cornell Tech و در دانشگاه می گوید: «در حالی که این تحقیق هنوز در روزهای اولیه خود است، من واقعاً در مورد کاربردهای بالقوه آینده برای استفاده شخصی و حرفه ای هیجان زده هستم. کالج کامپیوتر و علوم اطلاعات کورنل آن اس.
مانع بعدی این است که بفهمیم چگونه می توان تصاویر جدید را در زمانی که اطلاعات پیکسلی از ویدیوی اصلی وجود ندارد، مانند زمانی که سوژه خیلی سریع حرکت می کند یا کاربر می خواهد زاویه دید را 180 درجه بچرخاند، ارائه دهد. Snavely و Wang تصور میکنند که به زودی میتوان تکنیکهای مولد هوش مصنوعی، مانند تولیدکنندههای متن به تصویر را برای پر کردن این شکافها به کار برد.
ارائه شده توسط دانشگاه کرنل
اسناولی میگوید: «در چند سال گذشته، ما شاهد پیشرفتهای عمدهای در روشهای سنتز نما بودهایم – الگوریتمهایی که میتوانند مجموعهای از تصاویر را برای ثبت یک صحنه از مجموعهای از دیدگاههای مجزا تهیه کنند و میتوانند نماهای جدیدی از آن صحنه ارائه دهند. با این حال، اکثر این روش ها در صحنه هایی با حرکت افراد یا حیوانات خانگی، تکان دادن درختان و غیره شکست می خورند. این یک مشکل بزرگ است زیرا بسیاری از چیزهای جالب در جهان چیزهایی هستند که حرکت می کنند.
کد این تلاش پژوهشی است به صورت رایگان در دسترس است، اگرچه این پروژه در مراحل اولیه است و هنوز در ابزارهای ویرایش ویدیوی تجاری ادغام نشده است.
Snavely این کار را با عنوان “DynIBaR: Neural Dynamic Image-Rendering” در کنفرانس IEEE/CVF 2023 در مورد بینایی کامپیوتری و تشخیص الگو، در 20 ژوئن، جایی که جایزه افتخاری برای جایزه بهترین مقاله دریافت کرد. ژنگچی لی، دکترای Google Research نویسنده اصلی این مطالعه بود.
با وجود پیشرفت، این ویژگیها ممکن است به این زودیها به گوشی هوشمند شما ارائه نشوند. این نرم افزار چندین ساعت طول می کشد تا فقط 10 یا 20 ثانیه ویدیو را پردازش کند، حتی در یک کامپیوتر قدرتمند. اسناولی گفت که در کوتاه مدت، این فناوری ممکن است برای استفاده در نرم افزارهای ویرایش آفلاین ویدیو مناسب تر باشد.
نرم افزار، به نام DynIBar، نماهای جدید را با استفاده از اطلاعات پیکسلی ویدیوی اصلی ترکیب می کند و حتی با اجسام متحرک و دوربین های ناپایدار کار می کند. این کار پیشرفت بزرگی نسبت به تلاشهای قبلی است، که تنها چند ثانیه ویدیو تولید میکرد و اغلب سوژههای متحرک را تار یا پرگل نشان میداد.