铜灵 发自 凹非寺
量子位 出品 | 公众号 QbitAI
文字转语音(TTS)领域又有了新进展。
这一次,百度提出了一种非自回归序列到序列的模型ParaNet,引入了一个完全并行的神经TTS系统,将文本转换成光谱图。
和此前百度提出的实时语音合成系统Deep Voice 3相比,ParaNet可在保证准确率相当的情况下,将速度提升到17.5倍。
这是如何做到的?
双刃的自回归特性
文字转语音(TTS)也称为语音合成,目前已经在人机交互、虚拟助手和内容创造等方面广泛应用了。
传统的TTS系统基于多级人工调配(hand-engineered),依赖此特征作为输入或进行预训练。
在这种方法中,基于自回归的深度神经网络模型已经取得了比较先进的研究,包括高保真度的音频合成、更简单的序列到序列(seq2seq)的pipeline。
其中,最流行的神经TTS pipeline通常包含两部分:
一是自回归seq2seq模型,从文本中生成梅尔光谱图;
二是自回归神经声码器(比如WaveNet),能够从梅尔光谱图中生成原始波形。
这种pipeline对专业知识深度的要求变少了,只需要成对的音频和评分,用于训练数据。
然而,这种模型的自回归特性也让合成速度变得很慢,因为它们以高时间分辨率连续运行波形样本或声学特征。
针对这个问题,也有不少研究在对其进行改进,比如谷歌的并行WaveNet(parallel WaveNet)和百度ClariNet,已经提出了并行波形合成的方法,但仍然依赖与自回归或递归组件生成音频帧级别的特征。
也就是说,此前的所有研究在为并行研究优化的现代硬件上,综合速度都有很大的提升空间。
在论文Parallel Neural Text-to-Speech中,百度研究院的研究人员提出的非自回归的文本-图谱模型ParaNet,引入了一个完全并行的神经TTS系统,想解决速度的问题。
在上面这张图中,a图为自回归seq2seq模型,虚线表示了推理过程中自回归解码的梅尔频谱图,b图为非自回归ParaNet模型,它从预先训练好的自回归模型中提取注意力。
ParaNet是首个非自回归基于注意力架构的TTS模型,这是一个完全卷积的结构,可将文本转换成梅尔频谱图。
ParaNet的架构如下图所示:
可以看出,其编码器提供了(key,value)作为文本表示。解码器中的第一个注意块获取位置编码作为查询指令,然后是非因果(non-causal)卷积块和注意块。
此外,研究人员通过应用逆向自回归流(inverse autoregressive flow , IAF )作为并行神经声码器。它可以通过单一前向反馈从文本合成语音。
研究人员用不同的方法评估了ParaNet的语音合成效果。
结果显示,ParaNet在语音合成的速度上,比百度此前的Deep Voice 3架构提升了17.5倍,将运行50次的平均推理延迟从1.418秒降低到0.081秒。
并且,在合成语音的质量上,两种方法基本持平。
此外,研究人员发现,在给出100句测试集上测试文本到光谱模型的注意力误差时还发现,具有注意力mask的非自回归ParaNet在合成过程中的误差最小。
华人团队
这篇论文来自百度研究院,参与其中的四位共同一作均为华人。
作者之一的 Kainan Peng ,其Linkedin资料显示,自2015年从北京理工大学毕业后,Kainan继而去CMU攻读了电气与计算机工程的硕士。
2017年,Kainan入职了百度,参与了多篇顶会论文的研究,包括NIPS spotlight 2017的Deep Voice 2、被ICLR2018接收的Deep Voice 3、NIPS spotlight 2018论文Voice Cloning和ICLR 2019接收的研究ClariNet。
另一位作者 Wei Ping 是百度硅谷研究院的高级研究员。Wei Ping的履历同样闪闪发光,哈工大计算机科学本科、清华硕士、加州大学的博士。毕业后,Wei Ping在微软、加州大学就职过。
加入百度不到一年的时间以来,Wei Ping主导了百度基于WaveNet的并行音频波形生成模型ClariNet。
此外,百度研究院的 Zhao Song 和 Kexin Zhao 也参与了这项研究。
传送门
论文地址:
https://128.84.21.199/abs/1905.08459
项目主页:
https://parallel-neural-tts-demo.github.io/
— 完 —
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
?'?' ? 追踪AI技术和产品新动态
评论留言