اپل می گوید قصد دارد تا اواخر سال جاری ویژگی های هوش مصنوعی مولد را به آیفون ها معرفی کند. مشخص نیست که آنها چه هستند، با این حال، یک مقاله تحقیقاتی اخیراً منتشر شده نشان می دهد که یکی از آنها ممکن است نوع جدیدی از نرم افزار ویرایش باشد که می تواند تصاویر را از طریق پیام های متنی تغییر دهد.
MGIE یا MLLM-Guided (مدل زبان بزرگ چندوجهی) ویرایش تصویر نامیده می شود. فن آوری است نتیجه یک همکاری بین اپل و محققان دانشگاه کالیفرنیا، سانتا باربارا. در این مقاله آمده است که MGIE قادر به «سبک فتوشاپ» است [modifications]از ترفندهای ساده مانند برش تا ویرایش های پیچیده تر مانند حذف اشیا از تصویر. این امر توسط MLLM (مدل زبان بزرگ چند وجهی)، نوعی از هوش مصنوعی که قادر به پردازش همزمان “متن و تصاویر” است، ممکن شده است.
VentureBeat در گزارش خود توضیح میدهد که MLLMها «قابلیتهای قابلتوجهی در درک مدلهای متقابل» نشان میدهند، اگرچه علیرغم کارآیی فرضیشان، بهطور گسترده در نرمافزار ویرایش تصویر پیادهسازی نشدهاند.
تظاهرات عمومی
روش کار MGIE بسیار ساده است. شما یک تصویر را در موتور هوش مصنوعی آپلود میکنید و دستورالعملهای واضح و مختصر در مورد تغییراتی که میخواهید ایجاد کند به آن میدهید. VentureBeat می گوید مردم باید “راهنمایی صریح” ارائه دهند. به عنوان مثال، می توانید تصویری از یک روز روشن و آفتابی آپلود کنید و به MGIE بگویید “آسمان را آبی تر کند.” رنگ آسمان را کمی اشباع می کند، اما ممکن است آنطور که می خواهید واضح نباشد. شما باید آن را بیشتر راهنمایی کنید تا به نتایج دلخواه برسید.
MGIE در حال حاضر در دسترس است GitHub به عنوان یک پروژه منبع باز. محققان «کد، داده، [pre-trained models]و همچنین یک دفترچه یادداشت به مردم یاد می دهد که چگونه از هوش مصنوعی برای ویرایش وظایف استفاده کنند. یک نیز وجود دارد نسخه ی نمایشی وب در دسترس عموم است در پلتفرم فناوری مشترک Hugging Face. با دسترسی به این نسخه ی نمایشی، تصمیم گرفتیم که هوش مصنوعی اپل را برای یک چرخش خارج کنیم.
در آزمایش خود، تصویری از گربه ای را که از Unsplash گرفته بودیم آپلود کردیم و سپس به MGIE دستور دادیم تا چندین تغییر ایجاد کند. و طبق تجربه ما، درست بود. در یک نمونه، به آن گفتیم که پسزمینه را از آبی به قرمز تغییر دهد. با این حال، MGIE در عوض پسزمینه را سایه تیرهتر از آبی با بافتی استاتیک مانند کرد. در موردی دیگر، موتور را وادار کردیم که پسزمینهای بنفش با ضربات رعد و برق اضافه کند و چیزی بسیار پویاتر ایجاد کرد.
گنجاندن در آیفون های آینده
در زمان نوشتن این مقاله، ممکن است در هنگام تلاش برای تولید محتوا، زمانهای صف طولانی را تجربه کنید. اگر کار نکرد، صفحه Hugging Face پیوندی به آن دارد همان هوش مصنوعی که در Gradio میزبانی شد که ما استفاده کردیم به نظر نمی رسد تفاوتی بین این دو وجود داشته باشد.
حال سوال این است: آیا این فناوری برای آیفون آینده یا iOS 18 عرضه خواهد شد؟ شاید. همانطور که در ابتدا به آن اشاره شد، تیم کوک، مدیر عامل شرکت به سرمایه گذاران گفت که ابزارهای هوش مصنوعی در اواخر سال به دستگاه های آن می آیند، اما جزئیات خاصی ارائه نکرد. شخصاً میتوانیم MGIE تبدیل به نسخه آیفون ویرایشگر جادویی Google را ببینیم. قابلیتی که می تواند محتویات یک عکس را به طور کامل تغییر دهد. اگر مقاله تحقیقاتی arXiv را بخوانید، مطمئناً به نظر می رسد که این مسیری است که اپل با هوش مصنوعی خود در پیش گرفته است.
MGIE هنوز در حال پیشرفت است. خروجی ها کامل نیستند. یکی از تصاویر نمونه نشان می دهد که بچه گربه تبدیل به یک هیولا شده است. اما ما انتظار داریم که تمام اشکالات در خط حل شود. اگر رویکرد عملی تری را ترجیح می دهید، راهنمای TechRadar را در مورد بهترین ویرایشگرهای عکس برای سال 2024 بررسی کنید.