به‌روزرسانی Google Docs می‌تواند تایپ صوتی را واقعاً مفید کند

Google Docs به‌روزرسانی بزرگی دریافت می‌کند که به زودی می‌تواند ویژگی تایپ صوتی آن را برای رونویسی جلسات بسیار مفیدتر و محبوب‌تر کند.

چند سالی است که پردازشگر کلمه ابری قابلیت تایپ هندزفری با صدای شما را ارائه کرده است (فقط به Tools > Voice typing، با میکروفون روشن بروید). اما به‌روزرسانی‌ای که در اوایل فوریه ارائه می‌شود، شاهد برخی پیشرفت‌ها در این ویژگی، به‌علاوه امکان استفاده از آن در مرورگرهای وب فراتر از Chrome است.

گوگل می‌گوید این ارتقا به کاهش خطاهای رونویسی و به حداقل رساندن صدای از دست رفته در حین رونویسی کمک می‌کند. محدودیت های تجسم فعلی باعث شده است که جایگاه خود را در برابر بهترین برنامه های گفتار به متن مانند Otter.ai که به طور گسترده توسط تیم TechRadar استفاده می شود، از دست بدهد. ابزارهای تشخیص گفتار و دسترسی مایکروسافت نیز اخیراً در برنامه هایی مانند Word جهش های بزرگی داشته اند.

اما اگر معادل داخلی Google Docs بتواند با دقت رقبای چشمگیر خود مطابقت داشته باشد، می تواند به ابزاری بسیار پرکاربرد تبدیل شود. به خصوص که در Google Slides نیز برای نمایش کلمات یک گوینده در زمان واقعی کار می کند.

این ویژگی همچنین باید به لطف ارتقای دیگر به بهبود ادامه دهد. پشتیبانی را برای “اکثر مرورگرهای اصلی” گسترش داد. گوگل هنوز نگفته است که کدام مرورگرها، اما به جرات می توان گفت که Safari، Firefox و Microsoft Edge می توانند شامل شوند.

ما احتمالاً متوجه خواهیم شد که در ماه آینده چه زمانی به‌روزرسانی آغاز می‌شود. کاربران Google Workspace که مشترک به‌روزرسانی‌های Rapid Release هستند، از امروز شاهد ورود آن خواهند بود، اما بیشتر ما شاهد عرضه تدریجی آن طی دو هفته از 6 فوریه خواهیم بود.

بخوان اولین موشک چاپ سه‌بعدی جهان پرتاب شد اما به مدار نرسید

تجزیه و تحلیل: هوش مصنوعی یاد می گیرد که مفید باشد

تلفنی که کتاب صوتی اپل با روایت هوش مصنوعی را نشان می دهد

(اعتبار تصویر: اپل)

گوگل در مورد اینکه چه فناوری به ارتقای تایپ صوتی آن در Google Docs کمک می‌کند صریح نیست، اما اگر به کسب‌وکارها برای بهبود خدماتی مانند تعامل با مشتری پیشنهاد شود، احتمالاً مشابه رابط مبتنی بر هوش مصنوعی است.

فناوری هوش مصنوعی در فضای بصری با امثال Dall-E و Midjourney همراه با ربات‌های چت مانند ChatGPT به سرعت در حال پیشرفت است. تشخیص دست خط نیز تقویت شده است. اما گفتار یکی از مفیدترین زمینه ها برای توسعه هوش مصنوعی است، هم از نظر قابلیت استفاده و هم برای دسترسی. و نرم افزار قابل اعتماد گفتار به متن فقط شروع کار است.

مایکروسافت اخیراً از یک فناوری هوش مصنوعی جدید ترسناک، اما بالقوه مفید به نام Vall-E رونمایی کرده است که می تواند صداهای انسان را تقلید کنید (در برگه جدید باز می شود) فقط بر اساس یک نمونه سه ثانیه ای. با موضوعی مشابه، اپل اخیراً اولین مجموعه از کتاب‌های صوتی خود را با راویان مجهز به هوش مصنوعی (در بالا) عرضه کرده است.

این پیشرفت‌ها پرسش‌های اخلاقی گسترده‌ای را در مورد پتانسیل جعل هویت ایجاد می‌کند، به همین دلیل است که فناوری پشت هر دو در حال حاضر قفل شده و برای مصرف‌کنندگان در دسترس نیست. اما جعبه پاندورا از فناوری مبتنی بر صدا به طرز چشمگیری باز شده است.

در حال حاضر، پیشرفت های سریع در فناوری گفتار به نوشتار که در ابزارهایی مانند Google Docs (و در واقع بهترین نرم افزار تبدیل متن به گفتار) یافت می شود، مفیدترین ثمرات این الگوریتم های جدید هوش مصنوعی هستند. در حالی که این نرم‌افزار یادداشت‌های جلسه ما را می‌گیرد، ما پاپ کورن را برای بحث‌های اخلاقی اجتناب‌ناپذیر در مورد تقلید کننده‌های صدای نسل بعدی انتخاب خواهیم کرد.

بخوان چند بار می توانید توئیت خود را ویرایش کنید؟

منبع

Related Posts