مدلهای هوش مصنوعی برای انجام عملکردهای خود تا حد امکان به دادههای مفید نیاز دارند، اما برخی از بزرگترین توسعهدهندگان هوش مصنوعی تا حدی به ویدیوهایی که بدون اجازه سازندگان از یوتیوب برداشته شدهاند تکیه میکنند و این برخلاف قوانین خود یوتیوب است، همانطور که در تحقیقات کشف شد. اخبار اثبات و سیمی.
این رسانه ها فاش کردند که اپل، انویدیا، آنتروپیک و سایر شرکت های بزرگ هوش مصنوعی، مدل های خود را با استفاده از مجموعه داده ای به نام زیرنویس یوتیوب که شامل رونوشت های نزدیک به 175000 ویدیو در 48000 کانال است، آموزش داده اند، همه بدون اطلاع سازندگان ویدیو.
مجموعه داده زیرنویسهای YouTube شامل متن زیرنویسهای ویدیویی است که اغلب به چندین زبان ترجمه شده است. این مجموعه داده توسط EleutherAI ایجاد شده است، که هدف مجموعه داده را کاهش موانع توسعه هوش مصنوعی برای کسانی که خارج از شرکت های بزرگ فناوری هستند، توصیف می کند. این تنها یک جزء از مجموعه داده بسیار بزرگتر EleutherAI به نام Pile است. علاوه بر رونوشتهای یوتیوب، این انبوه حاوی مقالات ویکیپدیا، سخنرانیهای پارلمان اروپا و، بر اساس این گزارش، حتی ایمیلهایی از انرون است.
با این حال، Pile در بین شرکت های بزرگ فناوری طرفداران زیادی دارد. به عنوان مثال، اپل از Pile برای آموزش مدل هوش مصنوعی OpenELM خود استفاده کرد، در حالی که یک مدل هوش مصنوعی Salesforce که دو سال پیش منتشر شد با Pile آموزش داده شد و از آن زمان تاکنون بیش از 86000 بار دانلود شده است.
مجموعه دادههای ترجمههای YouTube شامل مجموعهای از کانالهای محبوب در اخبار، آموزش و سرگرمی است. این شامل محتوای ستارههای اصلی YouTube مانند MrBeast و Marques Brownlee میشود. ویدیوهای آنها همه برای آموزش مدل های هوش مصنوعی استفاده شده است. Proof News یک ابزار جستجو ایجاد کرده است که مجموعه را جستجو می کند تا ببیند آیا ویدیو یا کانال خاصی در مجموعه وجود دارد یا خیر. همانطور که در زیر مشاهده می کنید، حتی چند ویدیوی TechRadar در مجموعه وجود دارد.
اشتراک مخفیانه
به نظر میرسد مجموعه دادههای ترجمه YouTube با شرایط خدمات YouTube، که به صراحت حذف خودکار ویدیوها و دادههای مرتبط را الزامی میکند، در تضاد است. با این حال، این دقیقاً همان چیزی است که مجموعه داده مبتنی بر اسکریپت است که زیرنویسها را از طریق YouTube API دانلود میکند. تحقیقات گزارش داد که دانلودکننده خودکار ویدیوهای حاوی نزدیک به 500 عبارت جستجو را مرتب کرده است.
این کشف باعث تعجب و خشم بسیاری در میان سازندگان YouTube شد که توسط Proof و Wired مصاحبه کردند. نگرانی در مورد استفاده غیرمجاز از محتوا کاملاً منطقی بود و برخی از سازندگان از این ایده که کار آنها بدون پرداخت هزینه یا مجوز در مدلهای هوش مصنوعی استفاده میشود، نگران بودند. این به ویژه برای کسانی که متوجه شدند مجموعه داده شامل رونوشتهایی از ویدیوهای حذف شده است، صادق است و در یک مورد، دادهها از سوی سازندهای گرفته شده است که از آن زمان کل حضور آنلاین آنها را حذف کرده است.
این گزارش شامل هیچ نظری از EleutherAI نیست. اما او خاطرنشان کرد که این سازمان ماموریت خود را دموکراتیک کردن دسترسی به فناوریهای هوش مصنوعی با ارائه مدلهای آموزشدیده توصیف میکند. اگر این جمعآوری دادهها دقیق باشد، ممکن است با منافع سازندگان محتوا و پلتفرمها تضاد داشته باشد. نبردهای قانونی و نظارتی پیرامون هوش مصنوعی قبلاً پیچیده بوده است. این نوع افشاگری احتمالاً چشم انداز اخلاقی و قانونی را برای توسعه هوش مصنوعی متزلزل تر می کند. پیشنهاد تعادل بین نوآوری و مسئولیت اخلاقی برای هوش مصنوعی آسان است، اما تولید آن بسیار دشوارتر خواهد بود.