你想象过吗?苹果集团创始人乔布斯“死而复生”,和播客主持人讨论自己的大学时光、对计算机的看法、工作状态以及信仰等等。如此赛博的场景,竟然真地在现实中发生了,它来自一档名为Podcast.ai的播客的第一期节目。
这是一个完全由是一个完全由AI生成的播客。Podcast.ai通过乔布斯的传记,和收集网络上关于他的所有录音,用Play.ht的语言模型大量训练,最终生成了一段美国知名播客主持人Joe Rogan采访乔布斯的播客内容。在这期播客里,乔布斯的各种语音、语调都模拟的非常相似。
某种程度上说,借由AI,我们的声音就能实现“数字永生”,又或者,你可以听到任何你想要的人声。听起来是不是非常诱人?
事实上,对于国内用户来说,拥有专属于自己的AI声音并不是遥远的梦想。2022科大讯飞全球1024开发者节的技术发布会上,科大讯飞AI研究院副院长高建清分享了科大讯飞在语音合成技术领域的新突破——多风格多情感合成系统SMART-TTS。
2月19日,科大讯飞官方微信视频号中发布了一条关于节气《雨水》的视频。深沉厚重的男低音,自带质感,让这段视频的level至少上了一个等级。你肯定猜到了,这段配音由SMART-TTS系统合成,其语气的变化、语句的停顿、声音的细腻程度都和真人所差无几。
最近大火的ChatGPT是AIGC+文字领域的产品,而SMART-TTS则是AIGC在声音领域的应用。在许多人潜意识中,语音合成往往带着一股机器味儿,不仅生硬而且很容易分辨。为了让机器声音能媲美人类,专注语音技术20多年,讯飞始终坚持源头技术创新,持续进行探索。2008年首次让语音合成效果超过了普通人说话水平。2019年,科大讯飞在国际语音合成大赛的自然度、相似度两项指标荣获第一,连续14年稳坐冠军宝座。讯飞在语音合成方面已实现人声自然饱满,逼真度高,富有表现力,人机交互更具真实感,同时提供适应新闻播报、阅读听书、语音助手等多种场景的100+发音人。在线语音合成可支持37个语种、11种方言、2种民族语言。
而SMART-TTS在多情感、多风格方面实现了新的突破。SMART-TTS系统可提供“高兴、抱歉、撒娇、严肃、悲伤、困惑、害怕、鼓励、生气、安慰、宠溺”等11种情感,每种情感具备40档强弱度不同的调节能力;也能提供声音的创造能力,如停顿、重音、语速等,可以根据自己喜好调节,真正实现了合成系统媲美具备个性化特点的真人表达能力。
很多人想知道,在哪里定制属于自己的AI声音?讯飞有声APP和讯飞开放平台都开放了SMART-TTS语音合成系统,开发者可以在讯飞有声APP直接下载体验,或在讯飞开放平台进行调用。另外,科大讯飞最新推出的AIGC内容创作基地——讯飞智作,包括的各种AIGC工具中已上线了SMART-TTS聆系列主播,助力内容创作者更高效地输出优质的音视频作品。
在讯飞智作中,已经开放了讯飞配音、真人配音、虚拟人视频、PPT生成视频等功能。以讯飞配音为例,用户可以在100多位合成主播中选择适合的声音,有性别、年龄、领域、风格、语种等众多选择标准,自由调节速度、语调、音量、情感系数等多重变量。可以预想到,AIGC在讯飞智作中的应用能够给音视频生产领域带来全新的变革,内容生产者们以较低的成本获得适合内容的高质量音视频,创作的效率大大提高,还可以让不能开口说话的事物配音,《假如国宝会说话》的跨年特别呈现中,SMART-TTS语音合成系统让文物拥有了亲切自然的音色,讲述自己的风姿与古人的智慧。
SMART-TTS语音合成系统已经落地很多需要声音的场景,也将有更多功能向用户、企业开放,自然流畅、富有情感的合成语音将走进千家万户。打开导航时它有力可靠、阅读有声书时它让人身临其境、疲惫时它温柔甜美带来力量......结合讯飞虚拟数字人技术,还可以实现定制智能聊天对象,建立有具体形象的AI助手、AI伴侣不无可能,也许我们还可以与拥有自己声音的AI进行交互。这不就是我们曾经幻想过的美好未来吗。
讯飞智作是人人都可触碰到的AIGC应用,如今AIGC的大时代正在到来。这个已经开始的技术变革对我们来说意味着什么?这一波AI产品可能的应用场景有哪些?未来可能会形成怎样的新AI产业生态...这些问题暂且还没有明晰的答案。但在大浪潮的初始,这些探索者值得被持续关注。