Google Docs بهروزرسانی بزرگی دریافت میکند که به زودی میتواند ویژگی تایپ صوتی آن را برای رونویسی جلسات بسیار مفیدتر و محبوبتر کند.
چند سالی است که پردازشگر کلمه ابری قابلیت تایپ هندزفری با صدای شما را ارائه کرده است (فقط به Tools > Voice typing، با میکروفون روشن بروید). اما بهروزرسانیای که در اوایل فوریه ارائه میشود، شاهد برخی پیشرفتها در این ویژگی، بهعلاوه امکان استفاده از آن در مرورگرهای وب فراتر از Chrome است.
گوگل میگوید این ارتقا به کاهش خطاهای رونویسی و به حداقل رساندن صدای از دست رفته در حین رونویسی کمک میکند. محدودیت های تجسم فعلی باعث شده است که جایگاه خود را در برابر بهترین برنامه های گفتار به متن مانند Otter.ai که به طور گسترده توسط تیم TechRadar استفاده می شود، از دست بدهد. ابزارهای تشخیص گفتار و دسترسی مایکروسافت نیز اخیراً در برنامه هایی مانند Word جهش های بزرگی داشته اند.
اما اگر معادل داخلی Google Docs بتواند با دقت رقبای چشمگیر خود مطابقت داشته باشد، می تواند به ابزاری بسیار پرکاربرد تبدیل شود. به خصوص که در Google Slides نیز برای نمایش کلمات یک گوینده در زمان واقعی کار می کند.
این ویژگی همچنین باید به لطف ارتقای دیگر به بهبود ادامه دهد. پشتیبانی را برای “اکثر مرورگرهای اصلی” گسترش داد. گوگل هنوز نگفته است که کدام مرورگرها، اما به جرات می توان گفت که Safari، Firefox و Microsoft Edge می توانند شامل شوند.
ما احتمالاً متوجه خواهیم شد که در ماه آینده چه زمانی بهروزرسانی آغاز میشود. کاربران Google Workspace که مشترک بهروزرسانیهای Rapid Release هستند، از امروز شاهد ورود آن خواهند بود، اما بیشتر ما شاهد عرضه تدریجی آن طی دو هفته از 6 فوریه خواهیم بود.
تجزیه و تحلیل: هوش مصنوعی یاد می گیرد که مفید باشد
گوگل در مورد اینکه چه فناوری به ارتقای تایپ صوتی آن در Google Docs کمک میکند صریح نیست، اما اگر به کسبوکارها برای بهبود خدماتی مانند تعامل با مشتری پیشنهاد شود، احتمالاً مشابه رابط مبتنی بر هوش مصنوعی است.
فناوری هوش مصنوعی در فضای بصری با امثال Dall-E و Midjourney همراه با رباتهای چت مانند ChatGPT به سرعت در حال پیشرفت است. تشخیص دست خط نیز تقویت شده است. اما گفتار یکی از مفیدترین زمینه ها برای توسعه هوش مصنوعی است، هم از نظر قابلیت استفاده و هم برای دسترسی. و نرم افزار قابل اعتماد گفتار به متن فقط شروع کار است.
مایکروسافت اخیراً از یک فناوری هوش مصنوعی جدید ترسناک، اما بالقوه مفید به نام Vall-E رونمایی کرده است که می تواند صداهای انسان را تقلید کنید (در برگه جدید باز می شود) فقط بر اساس یک نمونه سه ثانیه ای. با موضوعی مشابه، اپل اخیراً اولین مجموعه از کتابهای صوتی خود را با راویان مجهز به هوش مصنوعی (در بالا) عرضه کرده است.
این پیشرفتها پرسشهای اخلاقی گستردهای را در مورد پتانسیل جعل هویت ایجاد میکند، به همین دلیل است که فناوری پشت هر دو در حال حاضر قفل شده و برای مصرفکنندگان در دسترس نیست. اما جعبه پاندورا از فناوری مبتنی بر صدا به طرز چشمگیری باز شده است.
در حال حاضر، پیشرفت های سریع در فناوری گفتار به نوشتار که در ابزارهایی مانند Google Docs (و در واقع بهترین نرم افزار تبدیل متن به گفتار) یافت می شود، مفیدترین ثمرات این الگوریتم های جدید هوش مصنوعی هستند. در حالی که این نرمافزار یادداشتهای جلسه ما را میگیرد، ما پاپ کورن را برای بحثهای اخلاقی اجتنابناپذیر در مورد تقلید کنندههای صدای نسل بعدی انتخاب خواهیم کرد.