هوش مصنوعی مولد به دلیل توانایی خود در ایجاد متن و تصاویر بسیار مورد توجه قرار گرفته است. اما این رسانه ها تنها بخشی از داده هایی را نشان می دهند که امروزه در جامعه ما تکثیر می شوند. هر بار که یک بیمار از سیستم پزشکی عبور می کند، یک طوفان بر یک پرواز تأثیر می گذارد یا یک فرد با یک برنامه نرم افزاری تعامل می کند، داده ها تولید می شود.
استفاده از هوش مصنوعی مولد برای ایجاد دادههای مصنوعی واقعی حول آن سناریوها میتواند به سازمانها کمک کند تا بیماران را به طور مؤثرتری درمان کنند، هواپیماها را تغییر مسیر دهند، یا پلتفرمهای نرمافزاری را بهبود بخشند – بهویژه در سناریوهایی که دادههای دنیای واقعی محدود یا حساس هستند.
در سه سال گذشته، MIT spinout DataCebo یک سیستم نرم افزاری تولیدی به نام Synthetic Data Vault ارائه کرده است تا به سازمان ها کمک کند تا داده های مصنوعی را برای انجام کارهایی مانند آزمایش برنامه های نرم افزاری و آموزش مدل های یادگیری ماشینی ایجاد کنند.
Synthetic Data Vault یا SDV بیش از 1 میلیون بار دانلود شده است و بیش از 10000 دانشمند داده از کتابخانه منبع باز برای تولید داده های جدولی مصنوعی استفاده می کنند. بنیانگذاران – دانشمند پژوهشی اصلی Kalyan Veeramachaneni و فارغ التحصیل Neha Patki '15، SM '16- معتقدند که موفقیت شرکت به دلیل توانایی SDV در ایجاد انقلابی در تست نرم افزار است.
SDV ویروسی می شود
در سال 2016، گروه Veeramachaneni در آزمایشگاه دادهها به هوش مصنوعی مجموعهای از ابزارهای مولد منبع باز AI را برای کمک به سازمانها برای ایجاد دادههای مصنوعی که با ویژگیهای آماری دادههای واقعی مطابقت دارد، رونمایی کرد.
شرکت ها می توانند از داده های مصنوعی به جای اطلاعات حساس در برنامه ها استفاده کنند و در عین حال روابط آماری بین نقاط داده را حفظ کنند. شرکتها همچنین میتوانند از دادههای مصنوعی برای اجرای نرمافزار جدید از طریق شبیهسازی استفاده کنند تا قبل از انتشار عمومی، عملکرد آن را ببینند.
گروه Veeramachaneni با این مشکل مواجه شد زیرا با شرکت هایی کار می کرد که می خواستند داده های خود را برای تحقیق به اشتراک بگذارند.
Patki توضیح می دهد: “MIT به شما کمک می کند تا همه این موارد استفاده مختلف را ببینید.” شما با شرکتهای مالی و شرکتهای مراقبتهای بهداشتی کار میکنید و همه این پروژهها برای تدوین راهحلها در صنایع مفید هستند.»
در سال 2020، محققان DataCebo را برای ایجاد ویژگی های SDV بیشتر برای سازمان های بزرگتر تأسیس کردند. از آن زمان، موارد استفاده به همان اندازه که متفاوت بوده اند، چشمگیر بوده اند.
به عنوان مثال، با شبیه ساز پرواز جدید DataCebo، خطوط هوایی می توانند برای رویدادهای آب و هوایی نادر به گونه ای برنامه ریزی کنند که تنها با استفاده از داده های تاریخی غیرممکن باشد. در برنامه دیگری، کاربران SDV سوابق پزشکی را برای پیشبینی نتایج سلامتی بیماران مبتلا به فیبروز کیستیک ترکیب کردند. تیمی از نروژ اخیراً از SDV برای ایجاد دادههای مصنوعی دانشآموزی استفاده کرد تا ارزیابی کند که آیا سیاستهای مختلف پذیرش شایستهسالانه و عاری از تعصب هستند.
در سال 2021، پلتفرم علم داده Kaggle میزبان مسابقه ای برای دانشمندان داده بود که از SDV برای ایجاد مجموعه داده های مصنوعی برای جلوگیری از استفاده از داده های اختصاصی استفاده کردند. تقریباً 30000 دانشمند داده شرکت کردند و بر اساس داده های واقع بینانه شرکت راه حل هایی ساختند و نتایج را پیش بینی کردند.
و همانطور که DataCebo رشد کرده است، به ریشه های MIT خود وفادار مانده است: همه کارکنان فعلی شرکت فارغ التحصیلان MIT هستند.
تست نرم افزار سوپر شارژ
اگرچه ابزارهای منبع باز آنها برای موارد مختلف استفاده می شود، این شرکت بر روی افزایش کشش خود در تست نرم افزار متمرکز است.
Veeramachaneni می گوید: «برای آزمایش این نرم افزارها به داده نیاز دارید. “به طور سنتی، توسعه دهندگان به صورت دستی اسکریپت هایی را برای ایجاد داده های مصنوعی می نویسند. با مدل های تولیدی، که با استفاده از SDV ایجاد می شوند، می توانید از نمونه ای از داده های جمع آوری شده یاد بگیرید و سپس حجم زیادی از داده های مصنوعی را نمونه برداری کنید (که دارای ویژگی های مشابه داده های واقعی است) یا سناریوهای خاص و موارد لبه ایجاد کنید و از داده ها برای آزمایش برنامه خود استفاده کنید.”
برای مثال، اگر بانکی بخواهد برنامهای را آزمایش کند که برای رد نقل و انتقالات از حسابهایی که پولی در آنها وجود ندارد، باید بسیاری از حسابها را در حال انجام معاملات همزمان شبیهسازی کند. انجام این کار با داده های ایجاد شده به صورت دستی زمان زیادی می برد. با مدل های تولیدی DataCebo، مشتریان می توانند هر لبه ای را که می خواهند آزمایش کنند، ایجاد کنند.
پتکی میگوید: «این معمول است که صنایع دادههایی دارند که از نظر ظرفیت حساس هستند. “اغلب وقتی در دامنهای با دادههای حساس هستید، با مقررات سروکار دارید، و حتی اگر مقررات قانونی وجود نداشته باشد، به نفع شرکتها است که در مورد اینکه چه کسی در چه زمانی به چه زمانی دسترسی پیدا میکند، کوشا باشند. داده های مصنوعی همیشه از منظر حفظ حریم خصوصی بهتر است.”
مقیاس گذاری داده های مصنوعی
Veeramachaneni بر این باور است که DataCebo در حال پیشرفت در زمینه چیزی است که آن را داده های سازمانی مصنوعی یا داده های تولید شده از رفتار کاربر در برنامه های نرم افزاری شرکت های بزرگ می نامد.
Veeramachaneni میگوید: «دادههای سازمانی از این نوع پیچیده هستند و برخلاف دادههای زبان، هیچ دسترسی جهانی به آن وجود ندارد. “وقتی مردم از نرمافزار در دسترس عموم ما استفاده میکنند و اگر روی یک الگوی خاص کار میکند گزارش میدهند، ما بسیاری از این الگوهای منحصربهفرد را یاد میگیریم و این به ما امکان میدهد الگوریتمهایمان را بهبود ببخشیم. از یک منظر، ما در حال ساخت مجموعهای از این الگوهای پیچیده هستیم. که برای زبان و تصاویر به راحتی در دسترس است.”
DataCebo همچنین اخیراً ویژگی هایی را برای بهبود سودمندی SDV منتشر کرده است، از جمله ابزارهایی برای ارزیابی “واقع گرایی” داده های تولید شده، به نام کتابخانه SDMetrics و همچنین راهی برای مقایسه عملکرد مدل ها به نام SDGym.
ویراماچاننی می گوید: «این در مورد اطمینان از اعتماد سازمان ها به این داده های جدید است. (ابزارهای ما دادههای مصنوعی قابل برنامهریزی را ارائه میدهند، به این معنی که ما به شرکتها اجازه میدهیم بینش و شهود خاص خود را برای ساخت مدلهای شفافتر وارد کنند.”
از آنجایی که شرکتها در هر صنعتی برای استفاده از هوش مصنوعی و سایر ابزارهای علم داده عجله دارند، DataCebo در نهایت به آنها کمک میکند تا این کار را به روشی شفافتر و مسئولانهتر انجام دهند.
ویراماچاننی میگوید: «در چند سال آینده، دادههای مصنوعی از مدلهای تولیدی، همه کار دادهها را متحول خواهند کرد. ما معتقدیم 90 درصد از عملیات سازمانی را می توان با داده های مصنوعی انجام داد.
ارائه شده توسط موسسه فناوری ماساچوست
این داستان با حسن نیت از MIT News (web.mit.edu/newsoffice/)، یک سایت محبوب که اخبار مربوط به تحقیقات، نوآوری و آموزش MIT را پوشش می دهد، بازنشر شده است.
نقل قول: استفاده از هوش مصنوعی مولد برای بهبود تست نرم افزار (2024، 5 مارس) در 6 مارس 2024 از https://techxplore.com/news/2024-03-generative-ai-software.html بازیابی شده است.
این برگه یا سند یا نوشته تحت پوشش قانون کپی رایت است. به غیر از هرگونه معامله منصفانه به منظور مطالعه یا تحقیق خصوصی، هیچ بخشی بدون اجازه کتبی قابل تکثیر نیست. محتوای مذکور فقط به هدف اطلاع رسانی ایجاد شده است.