تأخیر OpenAI در راه اندازی حالت صوتی چشمگیر ChatGPT بسیاری از طرفداران ربات چت هوش مصنوعی را ناراحت کرده است، اما ممکن است اکنون آنها شروع به کار کنند. توسعه دهنده فرانسوی هوش مصنوعی Kyutai یک دستیار صوتی هوش مصنوعی به نام Moshi را معرفی کرده است.
Moshi برای ارائه مکالمات واقعی با کاربران از طریق صدا، مانند الکسا یا دستیار گوگل، طراحی شده است، اما از مدلهای زبان بزرگتر که زیربنای ChatGPT و رقبای آن هستند، در این مورد، مدل Helium 7B، پشتیبانی میشود. به گفته کیوتای، موشی می تواند با لهجه های مختلف صحبت کند و 70 سبک مختلف احساسی و گفتاری دارد. هوش مصنوعی حتی می تواند دو جریان صوتی را به طور همزمان مدیریت کند و به Moshi اجازه می دهد به طور همزمان گوش کند و صحبت کند.
توسعه Kyotai Mushi شامل ضبط بیش از 100000 دیالوگ مصنوعی با استفاده از فناوری متن به گفتار (TTS) بود. هدف کمک به موشی بود که تفاوتهای ظریف و لحن ارتباط انسانی را بیاموزد. این برند حتی با یک صداپیشه حرفه ای برای بهبود کیفیت صدای موشی همکاری کرد.
این دستیار هوش مصنوعی آموزش متن و صدا را ادغام میکند و برای کار با چندین سیستم پشتیبان بهینه شده است، به این معنی که میتواند روی دستگاههایی مانند لپتاپ بدون نیاز به تعامل با ابر اجرا شود. این شرکت این را به عنوان راهی برای حفظ حریم خصوصی و امنیت با جلوگیری از انتقال داده های حساس از طریق اینترنت تبلیغ می کند. شما می توانید نسخه ی نمایشی Moshi را در اینجا تماشا کنید.
گفتگو را باز کنید
Kyotai اعلام کرد که Moshi یک پروژه متن باز، شامل کدهای مدل و چارچوب خواهد بود که پایه و اساس نوآوری های بیشتر را فراهم می کند. رویکرد منبع باز ممکن است به کاهش شکایاتی که شرکتهای بزرگ هوش مصنوعی در رابطه با ایمنی و اخلاقیات مربوط به مدلهای بسته خود با آنها رسیدگی میکنند، کمک کند. حامیان قوتای، از جمله میلیاردر فرانسوی خاویر نیل، رویکرد منبع باز را ترویج می کنند.
Qtai همچنین روی ادغام سیستمهای تشخیص صدا، واترمارک و ردیابی امضا در اپلیکیشن Moshi کار میکند. این ویژگی ها به تشخیص صدای تولید شده توسط هوش مصنوعی، افزایش پاسخگویی و قابلیت ردیابی کمک می کند و در عین حال اطمینان می دهد که محتوای تولید شده توسط هوش مصنوعی قابل نظارت و تأیید است.
برنامه Moshi هنوز در حال توسعه است، اما قرارگیری صوتی ارائه قابل توجه است. رویکرد صوتی میتواند به عنوان یک کاتالیزور برای سایر نسخههای دارای قابلیت صوتی رقبای ChatGPT عمل کند یا در صورتی که Moshi مورد توجه قرار گیرد و محبوب شود، اضافه شدن LLM به الکسا و سایر دستیارهای صوتی را تسریع بخشد.
اگر میخواهید Moshi را امتحان کنید، یک نسخه آزمایشی آنلاین در دسترس است، و میتوانید برای دسترسی زودهنگام به ربات چت کامل در آنجا نیز ثبتنام کنید.