ChatGPT‌ زود پیر شد! – ايسنا

این رفتار تیم نسخه‌های ارائه شده در ماه مارس ۲۰۲۳ و ماه ژوئن ۲۰۲۳ از مدل‌های GPT-3.5 و GPT-4 را در چهار وظیفه ارزیابی کردند. اولی حل مسائل ریاضی، دومی پاسخ دادن به سوالات حساس یا خطرناک، سومی تولید کد و چهارمی ارزیابی مدل‌ها در استدلال بصری بود.

پژوهشگران می‌گویند خبر خوب این است که GPT-4 نسبت به عملیات جیلبریک (Jailbreak) قوی‌تر از GPT-3.5 بود.

قابلیت های متنوع مدل های زبانی بزرگ

افزایش افزایش در مدل‌های زبانی بزرگ به هذیان‌گویی

در مقابل، مطالعه دیگری توسط گروهی از محققان شرکت مایکروسافت که میلیاردها دلار در OpenAI سرمایه‌گذاری کرده است انجام شده است و جالب است که نتایج آن نشان می‌دهد که GPT-4 گامی مهم به سوی هوش مصنوعی عمومی (AGI) است که در صنعت مصنوعی مصنوعی می‌گویند که ادعایی خطرناک است.

آنها می‌افزایند: به کاربران یا شرکت‌هایی که به مدل‌های خدمات زبانی بزرگ در جریان کار خود متکی هستند، توصیه می‌کنند که تحلیل‌های نظارتی مشابه را که ما در اینجا روی آنها انجام می‌دهیم، پیاده‌سازی می‌کنند.

به گزارش ایسنا و به نقل از استنفوردبه نظر می‌رسد که مرحله ماه عسل برای مدل‌های زبانی بزرگ (LLM) که با عجله برای نفوذ به فضای هوش مصنوعی معرفی شدند، به پایان رسیدند، چرا که بر اساس مطالعاتی که توسط پژوهشگران دانشگاه استنفورد و کالیفرنیا برکلی انجام شده، عملکرد مدل‌های زبانی بزرگ شرکت OpenAI در طول زمان به طور قابل توجهی کاهش یافته است.

پژوهشگران دانشگاه استنفورد و کالیفرنیا برکلی با عملکرد بزرگ مدل‌های زبانی GPT-3.5 و GPT-4 توسعه یافته توسط شرکت OpenAI ادعا می‌کنند که عملکرد و دقت گفتگوگر ChatGPT را در طول زمان کاهش یافته است.

بخوان  با اولین زنی که به مدار ماه می‌رود بیشتر آشنا شوید

با این حال، پژوهشگران دریافتند که عملکرد و رفتار GPT-3.5 و GPT-4 در نسخه های مربوط به ماه های مارس و ژوئن متفاوت است.

گزارش شرکت OpenAI هنگام معرفی GPT-4 در ماه مه امسال ادعا می کند که GPT-4 بسیار قابل اعتماد و خلاق است و می تواند دستورالعمل های ظریف را نسبت به GPT-3.5 انجام دهد.

مدل GPT-4 در نسخه مارس ۲۰۲۳، می‌توانست اعداد اول را با دقت ۹۷.۶ شناسایی کند، اما این تیم دریافت کرد که در نسخه ژوئن ۲۰۲۳ در همان سؤالات با دقت غیر منتظره ۲.۴ درصد عملکرد بسیار ضعیفی داشت. همچنین نسخه ژوئن ۲۰۲۳ مدل GPT-3.5 در همان وظیفه بسیار بهتر از نسخه مارس ۲۰۲۳ بود.

انتهای پیام



منبع

همچنین اخیراً نشان داده شده است که GPT-4 امتحانات حقوقی را در حوزه‌های حرفه‌ای مانند پزشکی و با موفقیت پشت سر می‌گذارد.

پژوهشگران با توجه به این که این مدل‌ها می‌توانند بر اساس داده‌ها، بازخورد کاربران و تغییرات طراحی، بهروز شوند، می‌خواهند ببینند که آیا این مدل‌های زبانی بزرگ در حال بهبود هستند یا نه؟

در حالی که جهان با ChatGPT مسحور شده است، این مطالعه قوی است که توسعه دهندگان باید به طور مداوم رفتار مدل زبان های بزرگ را در برنامه های تولیدی شان ارزیابی و نظارت کنند.

جیلبریک نوعی دستکاری است که در آن یک درخواست برای پنهان کردن یک سوال مخرب و فرار از مرزهای حفاظتی ساخته می‌شود و مدل زبانی بزرگ را برای ایجاد پاسخ‌هایی دستکاری می‌کند که می‌تواند به ایجاد بدافزار کمک کند.

این تیم همچنین دریافت می کند که نسخه ماه ژوئن GPT-4 نسبت به ماه مارس کمتری به پاسخگویی به سوالات حساس داشت و هر دو مدل GPT-4 و GPT-3.5 در کد تولید در ژوئن نسبت به ماه مارس اشتباهات بیشتری داشت.

بخوان  آمازون دستیار هوش مصنوعی جدیدی را آزمایش می کند تا به سوالات شما در حین خرید پاسخ دهد

پژوهشگران می‌گویند: ما می‌خواهیم یافته‌های ارائه‌شده در اینجا را در یک مطالعه بزرگ‌مدت با ارزیابی GPT-3.5، GPT-4 و سایر مدل‌های زبانی بزرگ در طول زمان به‌روزرسانی کنیم.