آیا مدل جدید هوش مصنوعی واقعا بهتر از ChatGPT است؟


chatgpt

اعتبار: دامنه عمومی Pixabay/CC0

Google Deepmind اخیرا اعلام کرده است جمینی، مدل جدید هوش مصنوعی خود برای رقابت با ChatGPT OpenAI. در حالی که هر دو مدل نمونه‌هایی از “هوش مصنوعی مولد” هستند، که یاد می‌گیرند الگوهای اطلاعات آموزشی ورودی را برای تولید داده‌های جدید (تصاویر، کلمات یا رسانه‌های دیگر) پیدا کنند، ChatGPT یک مدل زبان بزرگ (LLM) است که بر تولید متن تمرکز دارد.

همانطور که ChatGPT یک برنامه وب برای مکالمات است که مبتنی بر شبکه عصبی معروف به GPT است (آموزش داده شده بر روی مقادیر بسیار زیاد متن)، Google یک برنامه وب مکالمه به نام دارد. بارد که بر اساس مدلی به نام LaMDA (آموزش داده شده در دیالوگ) بود. اما گوگل اکنون آن را بر اساس Gemini ارتقا می دهد.

چیزی که Gemini را از مدل های قبلی هوش مصنوعی مولد مانند LaMDA متمایز می کند، این است که یک “مدل چند وجهی” است. این بدان معناست که مستقیماً با چندین حالت ورودی و خروجی کار می کند: علاوه بر پشتیبانی از ورودی و خروجی متن، از تصاویر، صدا و ویدئو نیز پشتیبانی می کند. بر این اساس، نام اختصاری جدیدی در حال ظهور است: LMM (مدل چندوجهی بزرگ) که نباید با LLM اشتباه گرفته شود.

در ماه سپتامبر، OpenAI یک مدل اعلام کرد به نام GPT-4Vision که می تواند با تصاویر، صدا و متن نیز کار کند. با این حال، این یک مدل کاملاً چندوجهی به روشی که Gemini وعده داده است نیست.

به عنوان مثال، در حالی که ChatGPT-4 که ​​توسط GPT-4V تغذیه می شود، می تواند با ورودی های صوتی کار کند و خروجی های گفتاری تولید کند. OpenAI تایید کرده است که این کار با تبدیل گفتار به متن در ورودی با استفاده از مدل یادگیری عمیق دیگری به نام Whisper انجام می شود. ChatGPT-4 همچنین متن را با استفاده از مدلی متفاوت در خروجی به گفتار تبدیل می کند، به این معنی که خود GPT-4V صرفاً با متن کار می کند.

به همین ترتیب، ChatGPT-4 می تواند تصاویر را تولید کند، اما این کار را با تولید پیام های متنی انجام می دهد که به یک مدل یادگیری عمیق جداگانه Dall-E 2 نامیده می شود که توضیحات متن را به تصویر تبدیل می کند.

در مقابل، گوگل Gemini را به گونه‌ای طراحی کرد که «چند وجهی بومی» باشد. این بدان معنی است که مدل اصلی به طور مستقیم طیفی از انواع ورودی (صوت، تصاویر، ویدئو و متن) را کنترل می کند و می تواند مستقیماً آنها را نیز خروجی دهد.






حکم

تمایز بین این دو رویکرد ممکن است آکادمیک به نظر برسد، اما مهم است. نتیجه گیری کلی از گزارش فنی گوگل و دیگر تست های کیفی تا به امروز این است که نسخه عمومی فعلی Gemini، به نام Gemini 1.0 Pro، به طور کلی به خوبی GPT-4 نیست و از نظر قابلیت هایش بیشتر شبیه به GPT 3.5 است.

گوگل نیز اعلام کرد نسخه قدرتمندتر Gemini، به نام Gemini 1.0 Ultra، و نتایجی ارائه کرد که نشان می‌داد قدرتمندتر از GPT-4 است. با این حال، ارزیابی این موضوع به دو دلیل دشوار است. دلیل اول این است که گوگل هنوز Ultra را منتشر نکرده است، بنابراین در حال حاضر نمی توان نتایج را به طور مستقل تأیید کرد.

دلیل دومی که چرا ارزیابی ادعاهای گوگل دشوار است این است که تصمیم گرفت یک ویدیوی نمایشی تا حدی فریبنده منتشر کند، در زیر ببینید. این ویدیو مدل Gemini را نشان می دهد که به صورت تعاملی و روان در یک جریان ویدیویی زنده نظر می دهد.

با این حال، همانطور که در ابتدا توسط بلومبرگ گزارش شد، تظاهرات در ویدیو به صورت واقعی انجام نشد. به عنوان مثال، مدل از قبل چند کار خاص را یاد گرفته بود، مانند ترفند سه فنجان و توپ، که در آن جمینی ردیابی می کند که توپ زیر کدام فنجان است. برای انجام این کار، دنباله ای از تصاویر ثابت ارائه شده بود که در آن دست های مجری بر روی فنجان های در حال تعویض است.

آینده امیدوار کننده

با وجود این مسائل، من معتقدم که Gemini و مدل‌های چندوجهی بزرگ گامی به جلو برای هوش مصنوعی مولد هستند. این هم به دلیل قابلیت های آینده آنها و هم به دلیل چشم انداز رقابتی ابزارهای هوش مصنوعی است. همانطور که در مقاله قبلی اشاره کردم، GPT-4 بر روی حدود 500 میلیارد کلمه آموزش داده شد – اساساً تمام متن های با کیفیت خوب و در دسترس عموم.

عملکرد مدل‌های یادگیری عمیق عموماً با افزایش پیچیدگی مدل و مقدار داده‌های آموزشی هدایت می‌شود. این منجر به این سؤال شده است که چگونه می توان به پیشرفت های بیشتری دست یافت، زیرا ما تقریباً داده های آموزشی جدید برای مدل های زبان را تمام کرده ایم. با این حال، مدل‌های چندوجهی ذخایر جدیدی از داده‌های آموزشی را در قالب تصاویر، صدا و فیلم باز می‌کنند.

هوش مصنوعی‌هایی مانند Gemini که می‌توانند مستقیماً روی همه این داده‌ها آموزش ببینند، احتمالاً در آینده قابلیت‌های بسیار بیشتری خواهند داشت. به عنوان مثال، من انتظار دارم که مدل های آموزش دیده در ویدیو توسعه پیدا کنند نمایش های داخلی پیچیده چیزی که “فیزیک ساده لوحانه” نامیده می شود. این درک اولیه ای است که انسان ها و حیوانات در مورد علیت، حرکت، گرانش و سایر پدیده های فیزیکی دارند.

من همچنین در مورد معنای این موضوع برای چشم انداز رقابتی هوش مصنوعی هیجان زده هستم. در سال گذشته، با وجود ظهور بسیاری از مدل‌های هوش مصنوعی مولد، مدل‌های GPT OpenAI غالب بوده‌اند و سطحی از عملکرد را نشان می‌دهند که سایر مدل‌ها نتوانسته‌اند به آن نزدیک شوند.

جمینی گوگل نشان دهنده ظهور یک رقیب بزرگ است که به پیشبرد میدان کمک خواهد کرد. البته، OpenAI تقریباً به طور قطع روی GPT-5 کار می‌کند و می‌توان انتظار داشت که چندوجهی نیز باشد و قابلیت‌های جدید قابل توجهی را نشان دهد.

تمام آنچه گفته شد، من مشتاق ظهور مدل‌های چندوجهی بسیار بزرگ هستم که منبع باز و غیرتجاری هستند، که امیدوارم در سال‌های آینده در راه باشند.

من همچنین برخی از ویژگی های پیاده سازی Gemini را دوست دارم. به عنوان مثال، گوگل نسخه ای به نام آن را اعلام کرده است جمینی نانو، بسیار سبک تر است و می تواند مستقیماً روی تلفن های همراه اجرا شود.

مدل‌های سبک وزن مانند این تأثیر زیست‌محیطی محاسبات هوش مصنوعی را کاهش می‌دهند و از منظر حفظ حریم خصوصی مزایای زیادی دارند و من مطمئن هستم که این توسعه منجر به پیروی رقبا خواهد شد.

ارائه شده توسط The Conversation


این مقاله بازنشر شده است از گفتگو تحت مجوز Creative Commons. را بخوانید مقاله اصلی.گفتگو

نقل قول: Gemini گوگل: آیا مدل جدید هوش مصنوعی واقعا بهتر از ChatGPT است؟ (2023، 15 دسامبر) در 15 دسامبر 2023 از

این برگه یا سند یا نوشته تحت پوشش قانون کپی رایت است. به غیر از هرگونه معامله منصفانه به منظور مطالعه یا تحقیق خصوصی، هیچ بخشی بدون اجازه کتبی قابل تکثیر نیست. محتوای مذکور فقط به هدف اطلاع رسانی ایجاد شده است.





منبع

بخوان  نگران نباشید - Google Drive در حال حاضر محدودیت فایل جدید خود را حذف می کند