近日,Meta发布了一款名为Voicebox的人工智能语音模型。与一般侧重于文本和图像的模型不同,Voicebox能够生成用于回复的音频消息。据了解,该模型仅需2秒钟的音频样本,便能准确辨别音频细节和音色,并将文字结果转换为语音输出。目前,Voicebox支持英语、法语、德语和西班牙语。Voicebox还具备基于语音片段前后内容补齐中间缺失部分的能力。
此技术可为虚拟助手或元宇宙中的NPC提供自然真实的语音效果。对于无障碍功能而言,Voicebox还能为声带受损者提供一定程度的帮助。然而,Voicebox目前尚处于研发阶段。Meta表示,此类人工智能技术可能会在虚假伪造方面产生潜在危害,因此公司正努力寻找有效区分真实语音和Voicebox生成音频的方法。在找到解决方案之前,该模型不会向公众公开提供。