این رفتار تیم نسخههای ارائه شده در ماه مارس ۲۰۲۳ و ماه ژوئن ۲۰۲۳ از مدلهای GPT-3.5 و GPT-4 را در چهار وظیفه ارزیابی کردند. اولی حل مسائل ریاضی، دومی پاسخ دادن به سوالات حساس یا خطرناک، سومی تولید کد و چهارمی ارزیابی مدلها در استدلال بصری بود.
پژوهشگران میگویند خبر خوب این است که GPT-4 نسبت به عملیات جیلبریک (Jailbreak) قویتر از GPT-3.5 بود.
قابلیت های متنوع مدل های زبانی بزرگ
افزایش افزایش در مدلهای زبانی بزرگ به هذیانگویی
در مقابل، مطالعه دیگری توسط گروهی از محققان شرکت مایکروسافت که میلیاردها دلار در OpenAI سرمایهگذاری کرده است انجام شده است و جالب است که نتایج آن نشان میدهد که GPT-4 گامی مهم به سوی هوش مصنوعی عمومی (AGI) است که در صنعت مصنوعی مصنوعی میگویند که ادعایی خطرناک است.
آنها میافزایند: به کاربران یا شرکتهایی که به مدلهای خدمات زبانی بزرگ در جریان کار خود متکی هستند، توصیه میکنند که تحلیلهای نظارتی مشابه را که ما در اینجا روی آنها انجام میدهیم، پیادهسازی میکنند.
به گزارش ایسنا و به نقل از استنفوردبه نظر میرسد که مرحله ماه عسل برای مدلهای زبانی بزرگ (LLM) که با عجله برای نفوذ به فضای هوش مصنوعی معرفی شدند، به پایان رسیدند، چرا که بر اساس مطالعاتی که توسط پژوهشگران دانشگاه استنفورد و کالیفرنیا برکلی انجام شده، عملکرد مدلهای زبانی بزرگ شرکت OpenAI در طول زمان به طور قابل توجهی کاهش یافته است.
پژوهشگران دانشگاه استنفورد و کالیفرنیا برکلی با عملکرد بزرگ مدلهای زبانی GPT-3.5 و GPT-4 توسعه یافته توسط شرکت OpenAI ادعا میکنند که عملکرد و دقت گفتگوگر ChatGPT را در طول زمان کاهش یافته است.
با این حال، پژوهشگران دریافتند که عملکرد و رفتار GPT-3.5 و GPT-4 در نسخه های مربوط به ماه های مارس و ژوئن متفاوت است.
گزارش شرکت OpenAI هنگام معرفی GPT-4 در ماه مه امسال ادعا می کند که GPT-4 بسیار قابل اعتماد و خلاق است و می تواند دستورالعمل های ظریف را نسبت به GPT-3.5 انجام دهد.
مدل GPT-4 در نسخه مارس ۲۰۲۳، میتوانست اعداد اول را با دقت ۹۷.۶ شناسایی کند، اما این تیم دریافت کرد که در نسخه ژوئن ۲۰۲۳ در همان سؤالات با دقت غیر منتظره ۲.۴ درصد عملکرد بسیار ضعیفی داشت. همچنین نسخه ژوئن ۲۰۲۳ مدل GPT-3.5 در همان وظیفه بسیار بهتر از نسخه مارس ۲۰۲۳ بود.
انتهای پیام
همچنین اخیراً نشان داده شده است که GPT-4 امتحانات حقوقی را در حوزههای حرفهای مانند پزشکی و با موفقیت پشت سر میگذارد.
پژوهشگران با توجه به این که این مدلها میتوانند بر اساس دادهها، بازخورد کاربران و تغییرات طراحی، بهروز شوند، میخواهند ببینند که آیا این مدلهای زبانی بزرگ در حال بهبود هستند یا نه؟
در حالی که جهان با ChatGPT مسحور شده است، این مطالعه قوی است که توسعه دهندگان باید به طور مداوم رفتار مدل زبان های بزرگ را در برنامه های تولیدی شان ارزیابی و نظارت کنند.
جیلبریک نوعی دستکاری است که در آن یک درخواست برای پنهان کردن یک سوال مخرب و فرار از مرزهای حفاظتی ساخته میشود و مدل زبانی بزرگ را برای ایجاد پاسخهایی دستکاری میکند که میتواند به ایجاد بدافزار کمک کند.
این تیم همچنین دریافت می کند که نسخه ماه ژوئن GPT-4 نسبت به ماه مارس کمتری به پاسخگویی به سوالات حساس داشت و هر دو مدل GPT-4 و GPT-3.5 در کد تولید در ژوئن نسبت به ماه مارس اشتباهات بیشتری داشت.
پژوهشگران میگویند: ما میخواهیم یافتههای ارائهشده در اینجا را در یک مطالعه بزرگمدت با ارزیابی GPT-3.5، GPT-4 و سایر مدلهای زبانی بزرگ در طول زمان بهروزرسانی کنیم.