مهندسان و OpenAI روش‌هایی را برای ارزیابی مدل‌های زبان بزرگ برای برنامه‌های امنیت سایبری توصیه می‌کنند

مهندسان و OpenAI روش‌هایی را برای ارزیابی مدل‌های زبان بزرگ برای برنامه‌های امنیت سایبری توصیه می‌کنند

کد کامپیوتر

اعتبار: دامنه عمومی Pixabay/CC0

موسسه مهندسی نرم افزار دانشگاه کارنگی ملون (SEI) و OpenAI مقاله سفیدی را منتشر کردند که نشان داد مدل های زبان بزرگ (LLM) می توانند دارایی برای متخصصان امنیت سایبری باشند، اما باید با استفاده از سناریوهای واقعی و پیچیده برای درک بهتر توانایی ها و خطرات فناوری ارزیابی شوند. LLM ها زیربنای پلتفرم های هوش مصنوعی (AI) مولد امروزی مانند Gemini گوگل، هوش مصنوعی Bing مایکروسافت و ChatGPT هستند که در نوامبر 2022 توسط OpenAI منتشر شدند.

این پلتفرم ها از کاربران انسانی درخواست می گیرند، از یادگیری عمیق در مجموعه داده های بزرگ استفاده می کنند و متن، تصاویر یا کد قابل قبولی تولید می کنند. برنامه های کاربردی برای LLM در سال گذشته در صنایعی از جمله هنرهای خلاقانه، پزشکی، حقوق و مهندسی نرم افزار و اکتساب افزایش یافته است.

در حالی که در روزهای اولیه، چشم انداز استفاده از LLM برای امنیت سایبری به طور فزاینده ای وسوسه انگیز است. به نظر می‌رسد که فناوری در حال رشد برای حوزه داده‌های سنگین، عمیقاً فنی و اغلب پر زحمت امنیت سایبری، نیروی مناسبی را چند برابر کند. فشار را اضافه کنید تا جلوتر از مهاجمان سایبری دارای LLM، از جمله بازیگران وابسته به دولت باقی بمانید، و این فریب حتی روشن‌تر می‌شود.

با این حال، دشوار است که بدانیم LLM ها در عملیات سایبری چقدر می توانند در عملیات سایبری توانمند باشند یا در صورت استفاده توسط مدافعان چقدر خطرناک هستند. به نظر می رسد گفتگو در مورد ارزیابی توانایی LLMها در هر زمینه حرفه ای بر دانش نظری آنها مانند پاسخ به سؤالات امتحان استاندارد متمرکز است. یک مطالعه اولیه نشان داد که GPT-3.5 Turbo در یک آزمون رایج تست نفوذ شرکت کرد.

بر اساس مقاله SEI و OpenAI “ملاحظات برای ارزیابی مدل های زبان بزرگ برای وظایف امنیت سایبری”، LLM ممکن است در یادآوری واقعی عالی باشد، اما کافی نیست.

سام پرل، تحلیلگر ارشد امنیت سایبری در بخش CERT SEI و یکی از نویسندگان مقاله، می گوید: «یک LLM ممکن است چیزهای زیادی بداند، اما آیا می داند که چگونه آن را به درستی در نظم درست استقرار دهد و چگونه معاوضه کند؟ “

تمرکز بر دانش نظری، پیچیدگی و تفاوت های ظریف وظایف امنیت سایبری در دنیای واقعی را نادیده می گیرد. در نتیجه، متخصصان امنیت سایبری نمی توانند بدانند که چگونه و چه زمانی LLM ها را در عملیات خود بگنجانند.

با توجه به این مقاله، راه حل این است که LLM ها را بر روی همان شاخه های دانشی که یک اپراتور امنیت سایبری انسانی آزمایش می شود، ارزیابی کنیم: دانش نظری یا اطلاعات پایه کتاب درسی. دانش عملی، مانند حل مشکلات امنیت سایبری مستقل؛ و دانش کاربردی، یا دستیابی به اهداف سطح بالاتر در موقعیت های باز.

آزمایش یک انسان از این طریق به اندازه کافی سخت است. آزمایش یک شبکه عصبی مصنوعی مجموعه ای منحصر به فرد از موانع را ارائه می دهد. حتی تعریف وظایف در زمینه ای به تنوع امنیت سایبری سخت است. جف جناری، سرپرست تیم و مهندس ارشد در بخش SEI CERT و یکی از نویسندگان مقاله، گفت: «حمله به چیزی بسیار متفاوت از انجام پزشکی قانونی یا ارزیابی یک فایل گزارش است. برای هر کار باید به دقت فکر شود و ارزیابی مناسب طراحی شود.»

هنگامی که وظایف تعریف می شوند، یک ارزیابی باید هزاران یا حتی میلیون ها سوال را مطرح کند. LLMها برای تقلید از موهبت ذهن انسان برای دقت معنایی به تعداد زیادی نیاز دارند. برای ایجاد حجم مورد نیاز سوالات به اتوماسیون نیاز است. که در حال حاضر برای دانش نظری قابل انجام است.

اما ابزار مورد نیاز برای تولید سناریوهای کاربردی یا کاربردی کافی – و اجازه دادن به یک LLM با یک سیستم اجرایی – وجود ندارد. در نهایت، محاسبه معیارهای مربوط به تمام آن پاسخ‌ها به آزمون‌های عملی و کاربردی، روبریک‌های جدیدی از صحت را می‌طلبد.

در حالی که این فناوری به پیشرفت می رسد، کاغذ سفید چارچوبی برای طراحی ارزیابی های امنیت سایبری واقع بینانه از LLM ارائه می دهد که با چهار توصیه کلی شروع می شود:

  • کار دنیای واقعی را برای ارزیابی تعریف کنید.
  • وظایف را به درستی نشان دهید.
  • ارزیابی را قوی کنید.
  • نتایج را به طور مناسب قاب کنید.

Shing-hon Lau، محقق ارشد امنیت هوش مصنوعی در بخش CERT SEI و یکی از نویسندگان همکار مقاله، خاطرنشان می‌کند که این راهنمایی تغییر تمرکز از تمرکز انحصاری بر LLMها را برای امنیت سایبری یا هر زمینه‌ای تشویق می‌کند. ما باید به ارزیابی خود مدل فکر نکنیم و به سمت ارزیابی سیستم بزرگتری که حاوی مدل است یا اینکه چگونه استفاده از یک مدل توانایی انسان را افزایش می دهد حرکت کنیم.

نویسندگان SEI بر این باورند که LLM ها در نهایت اپراتورهای امنیت سایبری انسانی را در نقش حمایتی به جای اینکه به طور مستقل کار کنند، تقویت می کنند. جناری گفت، با این وجود، LLM ها همچنان نیاز به ارزیابی دارند. “متخصصان سایبری باید بفهمند که چگونه از یک LLM برای پشتیبانی از یک کار به بهترین شکل استفاده کنند، سپس خطر آن استفاده را ارزیابی کنند. در حال حاضر پاسخ به هر یک از این سوالات دشوار است اگر شواهد شما توانایی یک LLM برای پاسخ دادن به سوالات مبتنی بر واقعیت باشد. “

SEI مدت‌هاست که سختگیری مهندسی را برای امنیت سایبری و هوش مصنوعی اعمال کرده است. ترکیب این دو رشته در مطالعه ارزیابی‌های LLM یکی از راه‌هایی است که SEI در تحقیقات امنیت سایبری هوش مصنوعی پیشرو است. سال گذشته، SEI همچنین تیم پاسخگویی به حوادث امنیتی هوش مصنوعی (AISIRT) را راه اندازی کرد تا به ایالات متحده توانایی مقابله با خطرات ناشی از رشد سریع و استفاده گسترده از هوش مصنوعی را بدهد.

OpenAI سال گذشته به SEI در مورد ارزیابی‌های امنیت سایبری LLM نزدیک شد و به دنبال درک بهتر ایمنی مدل‌های زیربنای پلتفرم‌های هوش مصنوعی خود بود. نویسندگان OpenAI مقاله جوئل پریش و گیریش ساستری دانش دست اولی درباره امنیت سایبری LLM و سیاست های مربوطه ارائه کردند. در نهایت، همه نویسندگان امیدوارند که این مقاله حرکتی را به سمت اقداماتی آغاز کند که می تواند به کسانی که تصمیم می گیرند LLM ها را در عملیات سایبری قرار دهند، آگاه کند.

جناری گفت: «سیاست گذاران باید بدانند که چگونه از این فناوری در ماموریت به بهترین شکل استفاده کنند. “اگر آنها ارزیابی دقیقی از قابلیت ها و خطرات داشته باشند، در موقعیت بهتری قرار خواهند گرفت تا در واقع از آنها به طور موثر استفاده کنند.”

اطلاعات بیشتر:
ملاحظاتی برای ارزیابی مدل های زبان بزرگ برای وظایف امنیت سایبری. insights.sei.cmu.edu/library/c … cybersecurity-tasks/

ارائه شده توسط دانشگاه کارنگی ملون

نقل قول: مهندسان و OpenAI روش‌هایی را برای ارزیابی مدل‌های زبان بزرگ برای برنامه‌های امنیت سایبری توصیه می‌کنند (2024، 2 آوریل) بازیابی شده در 3 آوریل 2024 از https://techxplore.com/news/2024-04-openai-ways-large-language-cybersecurity.html

این برگه یا سند یا نوشته تحت پوشش قانون کپی رایت است. به غیر از هرگونه معامله منصفانه به منظور مطالعه یا تحقیق خصوصی، هیچ بخشی بدون اجازه کتبی قابل تکثیر نیست. محتوای مذکور فقط به هدف اطلاع رسانی ایجاد شده است.



منبع

بخوان  اولین ماموریت «راکت لب» از خاک آمریکا ۲۳ ژانویه انجام می‌شود