【技术实现步骤摘要】
一种语音合成方法和系统
本申请涉及自然语言处理
,尤其涉及一种语音合成方法和系统。
技术介绍
语音合成是指人工合成人类语音的技术。在计算领域,语音合成可以通过软件程序和/或硬件组成的语音合成系统实现。语音合成系统一般以文本作为输入,输出文本对应的语音。通俗来说,语音合成系统可以实现让计算机像人类一样朗读文字。目前,一些基于神经网络构建的语音合成系统在训练时需要对训练数据,例如文本以及文本对应的语音数据进行对齐标注,对齐标注过程一般通过人工或者辅助对齐工具实现,其一致性和准确性得不到保证,存在原始训练数据固有偏差,降低了语音合成系统的准确性,且该对齐处理需要一定的工作量。另外,一些基于序列到序列Sequence-to-Sequence神经网络构建的语音合成系统虽然可以不需要对训练数据进行对齐标注,但是其采用了递归的解码方式,导致语音合成系统无法实现并行预测,效率很低,无法满足实时合成的需求,并且对计算机处理能力有很高的要求。
技术实现思路
本申请实施例提供了一种语音合成方法和系统,以提高语音合 ...
【技术保护点】
1.一种语音合成方法,其特征在于,包括:/n获取训练数据,所述训练数据包括成对设置的文本发音单元序列和语音频谱单元序列,所述文本发音单元序列包含至少一个文本发音单元,所述语音频谱单元序列包含至少一个语音特征帧;/n将所述文本发音单元序列进行编码,得到对应的编码序列,所述编码序列包含至少一个元素,每个元素对应所述文本发音单元序列中的一个文本发音单元;/n将所述编码序列中的每个元素复制目标次数,并按照各个元素在所述编码序列中的先后顺序对所有复制后的元素进行排列,得到扩增编码序列;/n将所述扩增编码序列进行解码,得到语音频谱单元预测序列,所述语音频谱单元预测序列与所述语音频谱单元 ...
【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:
获取训练数据,所述训练数据包括成对设置的文本发音单元序列和语音频谱单元序列,所述文本发音单元序列包含至少一个文本发音单元,所述语音频谱单元序列包含至少一个语音特征帧;
将所述文本发音单元序列进行编码,得到对应的编码序列,所述编码序列包含至少一个元素,每个元素对应所述文本发音单元序列中的一个文本发音单元;
将所述编码序列中的每个元素复制目标次数,并按照各个元素在所述编码序列中的先后顺序对所有复制后的元素进行排列,得到扩增编码序列;
将所述扩增编码序列进行解码,得到语音频谱单元预测序列,所述语音频谱单元预测序列与所述语音频谱单元序列的损失距离作为训练所述语音合成系统的监督信号;
当所述语音合成系统训练收敛后,将所述语音频谱单元预测序列耦合至声码器,所述声码器用于根据所述语音频谱单元预测序列生成语音信号数据并输出。
2.根据权利要求1所述的方法,其特征在于,所述语音频谱单元序列通过以下步骤获取:
去除训练语音的首部和尾部包含的无声音内容;
在去除无声音内容后的训练语音的首部和尾部增加预设时长的静音内容;
对增加了静音内容的训练语音进行频谱转换,得到所述语音频谱单元序列。
3.根据权利要求1所述的方法,其特征在于,所述将所述文本发音单元序列进行编码,得到对应的编码序列,包括:
对所述文本发音单元序列进行独热onehot编码;
使用全连接网络对所述文本发音单元序列的onehot编码结果进行向量化处理,得到词嵌入序列,或者,使用预先训练的词嵌入模型将所述发音单元序列的onehot编码转换成所述词嵌入序列;
使用具备上下文视野的编码器encoder对所述词嵌入序列进行编码,得到所述编码序列。
4.根据权利要求1所述的方法,其特征在于,所述目标次数通过以下方法确定:
将所述语音频谱单元序列包含的所述语音特征帧的数量除以所述文本发音单元序列的文本发音单元的数量,并对结果取整作为所述目标次数。
5.根据权利要求1所述的方法,其特征在于,所述将所述扩增编码序列进行解码,得到语音频谱单元预测序列,包括:
使用具备上下文视野的解码器decoder对所述扩增编码序列进行解码,所述具备上下文视野的解码器以当前元素的...
【专利技术属性】
技术研发人员:易中华,
申请(专利权)人:北京帝派智能科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。