当微软和谷歌为谁的人工智能聊天机器人更好而大动干戈时,这并不是机器学习和语言模型的唯一用途。除了传闻中计划在今年的年度I/O活动中展示20多种由人工智能驱动的产品外,谷歌正在朝着建立一个支持1000种不同语言的人工智能语言模型的目标迈进。在周一发布的更新中,谷歌分享了有关通用语音模型(USM)的更多信息,谷歌将这一系统描述为实现其目标的 "关键第一步"。
去年11月,该公司宣布其计划创建一个支持全球1000种最常用语言的语言模型,同时还披露了其USM模型。谷歌将USM描述为 "一个最先进的语音模型系列",它有20亿个参数,在1200万小时的语音和超过300种语言的280亿个句子中进行训练。YouTube已经使用USM来生成封闭式字幕,它还支持自动语音识别(ASR)。这可以自动检测和翻译语言,包括英语、普通话、阿姆哈拉语、宿务语、阿萨姆语等等。
现在,谷歌说USM支持超过100种语言,并将作为 "基础 "来建立一个更加广泛的系统。Meta公司正在开发一个类似的人工智能翻译工具,目前仍处于早期阶段。你可以在谷歌发布的研究论文中阅读更多关于USM和它如何工作的信息。
该技术的一个目标可能是在增强现实的眼镜内,就像谷歌去年在I/O活动中展示的概念一样,能够检测并提供实时翻译,就在你眼前出现。不过,这项技术似乎还有点遥远,谷歌在I/O大会期间对阿拉伯语的错误表述证明了它是多么容易出错。