Google Deepmind اخیرا اعلام کرده است جمینی، مدل جدید هوش مصنوعی خود برای رقابت با ChatGPT OpenAI. در حالی که هر دو مدل نمونههایی از “هوش مصنوعی مولد” هستند، که یاد میگیرند الگوهای اطلاعات آموزشی ورودی را برای تولید دادههای جدید (تصاویر، کلمات یا رسانههای دیگر) پیدا کنند، ChatGPT یک مدل زبان بزرگ (LLM) است که بر تولید متن تمرکز دارد.
همانطور که ChatGPT یک برنامه وب برای مکالمات است که مبتنی بر شبکه عصبی معروف به GPT است (آموزش داده شده بر روی مقادیر بسیار زیاد متن)، Google یک برنامه وب مکالمه به نام دارد. بارد که بر اساس مدلی به نام LaMDA (آموزش داده شده در دیالوگ) بود. اما گوگل اکنون آن را بر اساس Gemini ارتقا می دهد.
چیزی که Gemini را از مدل های قبلی هوش مصنوعی مولد مانند LaMDA متمایز می کند، این است که یک “مدل چند وجهی” است. این بدان معناست که مستقیماً با چندین حالت ورودی و خروجی کار می کند: علاوه بر پشتیبانی از ورودی و خروجی متن، از تصاویر، صدا و ویدئو نیز پشتیبانی می کند. بر این اساس، نام اختصاری جدیدی در حال ظهور است: LMM (مدل چندوجهی بزرگ) که نباید با LLM اشتباه گرفته شود.
در ماه سپتامبر، OpenAI یک مدل اعلام کرد به نام GPT-4Vision که می تواند با تصاویر، صدا و متن نیز کار کند. با این حال، این یک مدل کاملاً چندوجهی به روشی که Gemini وعده داده است نیست.
به عنوان مثال، در حالی که ChatGPT-4 که توسط GPT-4V تغذیه می شود، می تواند با ورودی های صوتی کار کند و خروجی های گفتاری تولید کند. OpenAI تایید کرده است که این کار با تبدیل گفتار به متن در ورودی با استفاده از مدل یادگیری عمیق دیگری به نام Whisper انجام می شود. ChatGPT-4 همچنین متن را با استفاده از مدلی متفاوت در خروجی به گفتار تبدیل می کند، به این معنی که خود GPT-4V صرفاً با متن کار می کند.
به همین ترتیب، ChatGPT-4 می تواند تصاویر را تولید کند، اما این کار را با تولید پیام های متنی انجام می دهد که به یک مدل یادگیری عمیق جداگانه Dall-E 2 نامیده می شود که توضیحات متن را به تصویر تبدیل می کند.
در مقابل، گوگل Gemini را به گونهای طراحی کرد که «چند وجهی بومی» باشد. این بدان معنی است که مدل اصلی به طور مستقیم طیفی از انواع ورودی (صوت، تصاویر، ویدئو و متن) را کنترل می کند و می تواند مستقیماً آنها را نیز خروجی دهد.
حکم
تمایز بین این دو رویکرد ممکن است آکادمیک به نظر برسد، اما مهم است. نتیجه گیری کلی از گزارش فنی گوگل و دیگر تست های کیفی تا به امروز این است که نسخه عمومی فعلی Gemini، به نام Gemini 1.0 Pro، به طور کلی به خوبی GPT-4 نیست و از نظر قابلیت هایش بیشتر شبیه به GPT 3.5 است.
گوگل نیز اعلام کرد نسخه قدرتمندتر Gemini، به نام Gemini 1.0 Ultra، و نتایجی ارائه کرد که نشان میداد قدرتمندتر از GPT-4 است. با این حال، ارزیابی این موضوع به دو دلیل دشوار است. دلیل اول این است که گوگل هنوز Ultra را منتشر نکرده است، بنابراین در حال حاضر نمی توان نتایج را به طور مستقل تأیید کرد.
دلیل دومی که چرا ارزیابی ادعاهای گوگل دشوار است این است که تصمیم گرفت یک ویدیوی نمایشی تا حدی فریبنده منتشر کند، در زیر ببینید. این ویدیو مدل Gemini را نشان می دهد که به صورت تعاملی و روان در یک جریان ویدیویی زنده نظر می دهد.
با این حال، همانطور که در ابتدا توسط بلومبرگ گزارش شد، تظاهرات در ویدیو به صورت واقعی انجام نشد. به عنوان مثال، مدل از قبل چند کار خاص را یاد گرفته بود، مانند ترفند سه فنجان و توپ، که در آن جمینی ردیابی می کند که توپ زیر کدام فنجان است. برای انجام این کار، دنباله ای از تصاویر ثابت ارائه شده بود که در آن دست های مجری بر روی فنجان های در حال تعویض است.
آینده امیدوار کننده
با وجود این مسائل، من معتقدم که Gemini و مدلهای چندوجهی بزرگ گامی به جلو برای هوش مصنوعی مولد هستند. این هم به دلیل قابلیت های آینده آنها و هم به دلیل چشم انداز رقابتی ابزارهای هوش مصنوعی است. همانطور که در مقاله قبلی اشاره کردم، GPT-4 بر روی حدود 500 میلیارد کلمه آموزش داده شد – اساساً تمام متن های با کیفیت خوب و در دسترس عموم.
عملکرد مدلهای یادگیری عمیق عموماً با افزایش پیچیدگی مدل و مقدار دادههای آموزشی هدایت میشود. این منجر به این سؤال شده است که چگونه می توان به پیشرفت های بیشتری دست یافت، زیرا ما تقریباً داده های آموزشی جدید برای مدل های زبان را تمام کرده ایم. با این حال، مدلهای چندوجهی ذخایر جدیدی از دادههای آموزشی را در قالب تصاویر، صدا و فیلم باز میکنند.
هوش مصنوعیهایی مانند Gemini که میتوانند مستقیماً روی همه این دادهها آموزش ببینند، احتمالاً در آینده قابلیتهای بسیار بیشتری خواهند داشت. به عنوان مثال، من انتظار دارم که مدل های آموزش دیده در ویدیو توسعه پیدا کنند نمایش های داخلی پیچیده چیزی که “فیزیک ساده لوحانه” نامیده می شود. این درک اولیه ای است که انسان ها و حیوانات در مورد علیت، حرکت، گرانش و سایر پدیده های فیزیکی دارند.
من همچنین در مورد معنای این موضوع برای چشم انداز رقابتی هوش مصنوعی هیجان زده هستم. در سال گذشته، با وجود ظهور بسیاری از مدلهای هوش مصنوعی مولد، مدلهای GPT OpenAI غالب بودهاند و سطحی از عملکرد را نشان میدهند که سایر مدلها نتوانستهاند به آن نزدیک شوند.
جمینی گوگل نشان دهنده ظهور یک رقیب بزرگ است که به پیشبرد میدان کمک خواهد کرد. البته، OpenAI تقریباً به طور قطع روی GPT-5 کار میکند و میتوان انتظار داشت که چندوجهی نیز باشد و قابلیتهای جدید قابل توجهی را نشان دهد.
تمام آنچه گفته شد، من مشتاق ظهور مدلهای چندوجهی بسیار بزرگ هستم که منبع باز و غیرتجاری هستند، که امیدوارم در سالهای آینده در راه باشند.
من همچنین برخی از ویژگی های پیاده سازی Gemini را دوست دارم. به عنوان مثال، گوگل نسخه ای به نام آن را اعلام کرده است جمینی نانو، بسیار سبک تر است و می تواند مستقیماً روی تلفن های همراه اجرا شود.
مدلهای سبک وزن مانند این تأثیر زیستمحیطی محاسبات هوش مصنوعی را کاهش میدهند و از منظر حفظ حریم خصوصی مزایای زیادی دارند و من مطمئن هستم که این توسعه منجر به پیروی رقبا خواهد شد.
این مقاله بازنشر شده است از گفتگو تحت مجوز Creative Commons. را بخوانید مقاله اصلی.
نقل قول: Gemini گوگل: آیا مدل جدید هوش مصنوعی واقعا بهتر از ChatGPT است؟ (2023، 15 دسامبر) در 15 دسامبر 2023 از
این برگه یا سند یا نوشته تحت پوشش قانون کپی رایت است. به غیر از هرگونه معامله منصفانه به منظور مطالعه یا تحقیق خصوصی، هیچ بخشی بدون اجازه کتبی قابل تکثیر نیست. محتوای مذکور فقط به هدف اطلاع رسانی ایجاد شده است.