
در هر تصویر از مجموعه داده های سفارشی HuTics، دست های کاربران به رنگ آبی و شی به رنگ سبز تجسم می شود. HuTics برای آموزش یک مدل یادگیری ماشین استفاده می شود. اعتبار: ©2022 Yatani and Zhou
بسیاری از سیستمهای رایانهای که افراد روزانه با آنها در تعامل هستند، برای کار کردن نیاز به دانش در مورد جنبههای خاصی از جهان یا مدلها دارند. این سیستم ها باید آموزش ببینند و اغلب نیاز به یادگیری نحوه تشخیص اشیاء از داده های ویدئویی یا تصویری دارند. این داده ها اغلب حاوی محتوای اضافی است که دقت مدل ها را کاهش می دهد. بنابراین، محققان راهی برای گنجاندن حرکات طبیعی دست در فرآیند آموزش پیدا کردند. به این ترتیب، کاربران می توانند راحت تر به ماشین ها در مورد اشیاء آموزش دهند و ماشین ها نیز می توانند به طور موثرتری یاد بگیرند.
احتمالاً قبلاً اصطلاح یادگیری ماشینی را شنیده اید، اما آیا با آموزش ماشینی آشنایی دارید؟ یادگیری ماشینی چیزی است که در پشت صحنه زمانی اتفاق میافتد که کامپیوتر از دادههای ورودی برای ایجاد مدلهایی استفاده میکند که بعداً میتوانند برای انجام عملکردهای مفید مورد استفاده قرار گیرند. اما آموزش ماشینی قسمتی است که تا حدودی کمتر مورد بررسی قرار گرفته است، که به نحوه دریافت داده های ورودی توسط کامپیوتر برای شروع می پردازد.
در مورد سیستمهای بصری، برای مثال سیستمهایی که میتوانند اشیا را تشخیص دهند، مردم باید اشیا را به رایانه نشان دهند تا بتواند در مورد آنها اطلاعات کسب کند. اما روشهایی که معمولاً این کار انجام میشود اشکالاتی دارد که محققان آزمایشگاه سیستمهای هوشمند تعاملی دانشگاه توکیو به دنبال بهبود آن بودند.
ژونگی ژو، دانشجوی فارغ التحصیل می گوید: «در یک سناریوی معمولی آموزش شی، افراد می توانند یک شی را نزدیک دوربین نگه دارند و آن را به اطراف حرکت دهند تا رایانه بتواند آن را از همه زوایای آن تجزیه و تحلیل کند تا یک مدل بسازد.
با این حال، ماشینها فاقد توانایی تکاملیافته ما برای جداسازی اشیا از محیطشان هستند، بنابراین مدلهایی که میسازند میتوانند ناخواسته شامل اطلاعات غیرضروری از پسزمینه تصاویر آموزشی باشند. این اغلب به این معنی است که کاربران باید زمان خود را برای اصلاح مدلهای تولید شده صرف کنند، که میتواند نسبتاً یک مشکل باشد. کار فنی و زمان بر است. ما فکر کردیم باید راه بهتری برای انجام این کار وجود داشته باشد که هم برای کاربران و هم برای رایانه ها بهتر باشد، و با سیستم جدید ما، LookHere، من معتقدم که آن را پیدا کرده ایم.”
ژو، با همکاری پروفسور کوجی یاتانی، LookHere را برای رسیدگی به دو مشکل اساسی در آموزش ماشین ایجاد کرد: اول، مشکل کارایی آموزش، با هدف به حداقل رساندن زمان کاربران، و دانش فنی مورد نیاز. و دوم، کارایی یادگیری – چگونه می توان از داده های یادگیری بهتر برای ماشین ها اطمینان حاصل کرد تا مدل هایی از آنها ایجاد کنند.
LookHere با انجام کاری جدید و بهطور شگفتانگیز شهودی به این موارد دست مییابد. این دستگاه حرکات دست کاربران را در نحوه پردازش یک تصویر قبل از اینکه دستگاه آن را در مدل خود که به نام HuTics شناخته می شود، وارد کند، ترکیب می کند. به عنوان مثال، یک کاربر می تواند به دوربین اشاره کند یا یک شی را به گونه ای به دوربین نشان دهد که بر اهمیت آن در مقایسه با سایر عناصر موجود در صحنه تأکید کند. این دقیقاً چگونه است که افراد ممکن است اشیا را به یکدیگر نشان دهند. و با حذف جزئیات اضافی، به لطف تأکید بیشتر بر آنچه واقعاً در تصویر مهم است، رایانه داده های ورودی بهتری را برای مدل های خود به دست می آورد.
ژو گفت: «این ایده کاملاً ساده است، اما اجرای آن بسیار چالش برانگیز بود. “هرکسی متفاوت است و هیچ مجموعه استانداردی از حرکات دست وجود ندارد. بنابراین، ما ابتدا 2040 ویدئوی نمونه از 170 نفر را که اشیا را به دوربین ارائه می کردند در HuTics جمع آوری کردیم. این دارایی ها حاشیه نویسی شدند تا مشخص کنند چه بخشی از جسم و چه قسمت هایی از آن است. تصویر فقط دستان شخص بود.
“LookHere با HuTics آموزش دیده است، و در مقایسه با سایر روش های تشخیص اشیا، بهتر می تواند تعیین کند که چه قسمت هایی از یک تصویر دریافتی باید برای ساخت مدل های آن استفاده شود. برای اطمینان از اینکه تا حد امکان در دسترس است، کاربران می توانند از تلفن های هوشمند خود برای کار با آن استفاده کنند. LookHere و پردازش واقعی روی سرورهای راه دور انجام میشود. ما همچنین کد منبع و مجموعه دادههای خود را منتشر کردیم تا دیگران بتوانند در صورت تمایل بر روی آن بسازند.”
ژو و یاتانی با توجه به کاهش تقاضا برای زمان کاربران که LookHere برای مردم فراهم می کند، دریافتند که می تواند مدل هایی را تا 14 برابر سریعتر از برخی از سیستم های موجود بسازد. در حال حاضر، LookHere با ماشینهای آموزشی درباره اشیاء فیزیکی سر و کار دارد و منحصراً از دادههای بصری برای ورودی استفاده میکند. اما در تئوری، این مفهوم را می توان برای استفاده از انواع دیگر داده های ورودی مانند داده های صوتی یا علمی گسترش داد. و مدل های ساخته شده از این داده ها نیز از پیشرفت های مشابهی در دقت بهره مند خواهند شد.
این تحقیق به عنوان بخشی از سی و پنجمین سمپوزیوم سالانه ACM در زمینه نرم افزار و فناوری رابط کاربری.
رویکرد جدید یادگیری ماشینی، عکسهای دیجیتال را زنده میکند
ژونگی ژو و همکاران، آموزش ماشین تعاملی آگاه از حرکت با حاشیه نویسی اشیاء درجا، سی و پنجمین سمپوزیوم سالانه ACM در زمینه نرم افزار و فناوری رابط کاربری (2022). DOI: 10.1145/3526113.3545648
نقل قول: نرم افزار جدید به افراد غیرمتخصص اجازه می دهد تا به طور مستقیم ماشین ها را با استفاده از ژست ها آموزش دهند (2022، 31 اکتبر) بازیابی شده در 31 اکتبر 2022 از
این برگه یا سند یا نوشته تحت پوشش قانون کپی رایت است. به غیر از هرگونه معامله منصفانه به منظور مطالعه یا تحقیق خصوصی، هیچ بخشی بدون اجازه کتبی قابل تکثیر نیست. محتوای مذکور فقط به هدف اطلاع رسانی ایجاد شده است.