نرم افزار جدید به افراد غیرمتخصص اجازه می دهد تا به طور مستقیم ماشین ها را با استفاده از ژست ها آموزش دهند


یادگیری ماشینی، از شما

در هر تصویر از مجموعه داده های سفارشی HuTics، دست های کاربران به رنگ آبی و شی به رنگ سبز تجسم می شود. HuTics برای آموزش یک مدل یادگیری ماشین استفاده می شود. اعتبار: ©2022 Yatani and Zhou

بسیاری از سیستم‌های رایانه‌ای که افراد روزانه با آن‌ها در تعامل هستند، برای کار کردن نیاز به دانش در مورد جنبه‌های خاصی از جهان یا مدل‌ها دارند. این سیستم ها باید آموزش ببینند و اغلب نیاز به یادگیری نحوه تشخیص اشیاء از داده های ویدئویی یا تصویری دارند. این داده ها اغلب حاوی محتوای اضافی است که دقت مدل ها را کاهش می دهد. بنابراین، محققان راهی برای گنجاندن حرکات طبیعی دست در فرآیند آموزش پیدا کردند. به این ترتیب، کاربران می توانند راحت تر به ماشین ها در مورد اشیاء آموزش دهند و ماشین ها نیز می توانند به طور موثرتری یاد بگیرند.

احتمالاً قبلاً اصطلاح یادگیری ماشینی را شنیده اید، اما آیا با آموزش ماشینی آشنایی دارید؟ یادگیری ماشینی چیزی است که در پشت صحنه زمانی اتفاق می‌افتد که کامپیوتر از داده‌های ورودی برای ایجاد مدل‌هایی استفاده می‌کند که بعداً می‌توانند برای انجام عملکردهای مفید مورد استفاده قرار گیرند. اما آموزش ماشینی قسمتی است که تا حدودی کمتر مورد بررسی قرار گرفته است، که به نحوه دریافت داده های ورودی توسط کامپیوتر برای شروع می پردازد.

در مورد سیستم‌های بصری، برای مثال سیستم‌هایی که می‌توانند اشیا را تشخیص دهند، مردم باید اشیا را به رایانه نشان دهند تا بتواند در مورد آنها اطلاعات کسب کند. اما روش‌هایی که معمولاً این کار انجام می‌شود اشکالاتی دارد که محققان آزمایشگاه سیستم‌های هوشمند تعاملی دانشگاه توکیو به دنبال بهبود آن بودند.






مدل ساخته شده با HuTics به LookHere اجازه می دهد تا از ژست ها و موقعیت های دست استفاده کند تا زمینه اضافی برای سیستم برای انتخاب و شناسایی شی که با رنگ قرمز برجسته شده است فراهم کند. اعتبار: ©2022 Yatani and Zhou

ژونگی ژو، دانشجوی فارغ التحصیل می گوید: «در یک سناریوی معمولی آموزش شی، افراد می توانند یک شی را نزدیک دوربین نگه دارند و آن را به اطراف حرکت دهند تا رایانه بتواند آن را از همه زوایای آن تجزیه و تحلیل کند تا یک مدل بسازد.

با این حال، ماشین‌ها فاقد توانایی تکامل‌یافته ما برای جداسازی اشیا از محیط‌شان هستند، بنابراین مدل‌هایی که می‌سازند می‌توانند ناخواسته شامل اطلاعات غیرضروری از پس‌زمینه تصاویر آموزشی باشند. این اغلب به این معنی است که کاربران باید زمان خود را برای اصلاح مدل‌های تولید شده صرف کنند، که می‌تواند نسبتاً یک مشکل باشد. کار فنی و زمان بر است. ما فکر کردیم باید راه بهتری برای انجام این کار وجود داشته باشد که هم برای کاربران و هم برای رایانه ها بهتر باشد، و با سیستم جدید ما، LookHere، من معتقدم که آن را پیدا کرده ایم.”

ژو، با همکاری پروفسور کوجی یاتانی، LookHere را برای رسیدگی به دو مشکل اساسی در آموزش ماشین ایجاد کرد: اول، مشکل کارایی آموزش، با هدف به حداقل رساندن زمان کاربران، و دانش فنی مورد نیاز. و دوم، کارایی یادگیری – چگونه می توان از داده های یادگیری بهتر برای ماشین ها اطمینان حاصل کرد تا مدل هایی از آنها ایجاد کنند.

LookHere با انجام کاری جدید و به‌طور شگفت‌انگیز شهودی به این موارد دست می‌یابد. این دستگاه حرکات دست کاربران را در نحوه پردازش یک تصویر قبل از اینکه دستگاه آن را در مدل خود که به نام HuTics شناخته می شود، وارد کند، ترکیب می کند. به عنوان مثال، یک کاربر می تواند به دوربین اشاره کند یا یک شی را به گونه ای به دوربین نشان دهد که بر اهمیت آن در مقایسه با سایر عناصر موجود در صحنه تأکید کند. این دقیقاً چگونه است که افراد ممکن است اشیا را به یکدیگر نشان دهند. و با حذف جزئیات اضافی، به لطف تأکید بیشتر بر آنچه واقعاً در تصویر مهم است، رایانه داده های ورودی بهتری را برای مدل های خود به دست می آورد.

ژو گفت: «این ایده کاملاً ساده است، اما اجرای آن بسیار چالش برانگیز بود. “هرکسی متفاوت است و هیچ مجموعه استانداردی از حرکات دست وجود ندارد. بنابراین، ما ابتدا 2040 ویدئوی نمونه از 170 نفر را که اشیا را به دوربین ارائه می کردند در HuTics جمع آوری کردیم. این دارایی ها حاشیه نویسی شدند تا مشخص کنند چه بخشی از جسم و چه قسمت هایی از آن است. تصویر فقط دستان شخص بود.

“LookHere با HuTics آموزش دیده است، و در مقایسه با سایر روش های تشخیص اشیا، بهتر می تواند تعیین کند که چه قسمت هایی از یک تصویر دریافتی باید برای ساخت مدل های آن استفاده شود. برای اطمینان از اینکه تا حد امکان در دسترس است، کاربران می توانند از تلفن های هوشمند خود برای کار با آن استفاده کنند. LookHere و پردازش واقعی روی سرورهای راه دور انجام می‌شود. ما همچنین کد منبع و مجموعه داده‌های خود را منتشر کردیم تا دیگران بتوانند در صورت تمایل بر روی آن بسازند.”

ژو و یاتانی با توجه به کاهش تقاضا برای زمان کاربران که LookHere برای مردم فراهم می کند، دریافتند که می تواند مدل هایی را تا 14 برابر سریعتر از برخی از سیستم های موجود بسازد. در حال حاضر، LookHere با ماشین‌های آموزشی درباره اشیاء فیزیکی سر و کار دارد و منحصراً از داده‌های بصری برای ورودی استفاده می‌کند. اما در تئوری، این مفهوم را می توان برای استفاده از انواع دیگر داده های ورودی مانند داده های صوتی یا علمی گسترش داد. و مدل های ساخته شده از این داده ها نیز از پیشرفت های مشابهی در دقت بهره مند خواهند شد.

این تحقیق به عنوان بخشی از سی و پنجمین سمپوزیوم سالانه ACM در زمینه نرم افزار و فناوری رابط کاربری.


رویکرد جدید یادگیری ماشینی، عکس‌های دیجیتال را زنده می‌کند


اطلاعات بیشتر:
ژونگی ژو و همکاران، آموزش ماشین تعاملی آگاه از حرکت با حاشیه نویسی اشیاء درجا، سی و پنجمین سمپوزیوم سالانه ACM در زمینه نرم افزار و فناوری رابط کاربری (2022). DOI: 10.1145/3526113.3545648

ارائه شده توسط دانشگاه توکیو


نقل قول: نرم افزار جدید به افراد غیرمتخصص اجازه می دهد تا به طور مستقیم ماشین ها را با استفاده از ژست ها آموزش دهند (2022، 31 اکتبر) بازیابی شده در 31 اکتبر 2022 از

این برگه یا سند یا نوشته تحت پوشش قانون کپی رایت است. به غیر از هرگونه معامله منصفانه به منظور مطالعه یا تحقیق خصوصی، هیچ بخشی بدون اجازه کتبی قابل تکثیر نیست. محتوای مذکور فقط به هدف اطلاع رسانی ایجاد شده است.





منبع