【技术实现步骤摘要】
语音合成方法、装置、电子设备和存储介质
[0001]本公开涉及人工智能
,尤其涉及深度学习、语音技术等领域,具体涉及语音合成方法、装置、电子设备和存储介质。
技术介绍
[0002]随着互联网技术的发展,越来越多的行业开始使用虚拟数字人与用户进行语音交互,例如媒体、客服行业。而虚拟数字人在工作过程中需要语言自然流畅,能够应答灵活的提出问题,尽量做到语言表达上与真人如出一辙。
[0003]因此,如何提高虚拟数字人的语音合成的准确度,是需要解决的技术问题。
技术实现思路
[0004]本公开提供了一种用于语音合成的方法、装置、设备以及存储介质。
[0005]根据本公开的一方面,提供了一种语音合成方法,包括:
[0006]获取源语音;
[0007]根据所述源语音的幅度分量和/或相位分量,对所述源语音中的噪声进行抑制,以得到降噪语音;
[0008]对所述降噪语音进行语音识别,以得到对应的文本信息;
[0009]将所述降噪语音的文本信息,以及设定的标签输入训练得到的声学 ...
【技术保护点】
【技术特征摘要】
1.一种语音合成方法,包括:获取源语音;根据所述源语音的幅度分量和/或相位分量,对所述源语音中的噪声进行抑制,以得到降噪语音;对所述降噪语音进行语音识别,以得到对应的文本信息;将所述降噪语音的文本信息,以及设定的标签输入训练得到的声学模型,以得到与所述文本信息匹配的预测声学特征;根据所述预测声学特征,生成目标语音。2.根据权利要求1所述的方法,其中,所述根据所述源语音的幅度分量和/或相位分量,对所述源语音中的噪声进行抑制,以得到降噪语音,包括:对所述源语音进行子带分解,以得到至少一个子带;提取所述至少一个子带的幅度分量的特征以得到幅度特征,以及提取所述至少一个子带的相位分量的特征以得到相位特征;根据所述至少一个子带的幅度特征确定所述至少一个子带的幅度抑制因子,以及根据所述至少一个子带的相位特征确定所述至少一个子带的相位修正因子;采用所述至少一个子带的幅度抑制因子对所述源语音中对应子带进行幅度抑制,以及采用所述至少一个子带的相位修正因子对所述源语音中对应子带进行相位修正,以得到降噪语音。3.根据权利要求2所述的方法,其中,所述根据所述至少一个子带的幅度特征确定所述至少一个子带的幅度抑制因子,包括:将所述至少一个子带的幅度特征,输入预测模型的编码器,以得到所述至少一个子带的幅度隐状态;将所述至少一个子带的幅度隐状态输入所述预测模型的至少一注意力层,以采用所述注意力层中的残差模块对输入确定残差,并将所述残差输入频率注意力模块得到所述同一个子带的幅度隐状态在时间维度的幅度相关性,和/或将所述残差输入频率变换模块得到不同子带之间的幅度隐状态在频率维度的幅度相关性;将所述时间维度的幅度相关性和/或所述频率维度的幅度相关性,以及所述至少一个子带的幅度隐状态,输入所述预测模型的解码器进行解码,以得到所述至少一个子带的幅度抑制因子。4.根据权利要求2所述的方法,其中,所述根据所述至少一个子带的相位特征确定所述至少一个子带的相位修正因子,包括:将所述至少一个子带的相位特征,输入预测模型的编码器,以得到所述至少一个子带的相位隐状态;将所述至少一个子带的相位隐状态输入所述预测模型的至少一注意力层,以采用所述注意力层中的残差模块对输入确定残差,并将所述残差输入频率注意力模块得到所述同一个子带的相位隐状态在时间维度的相位相关性,和/或将所述残差输入频率变换模块得到不同子带之间的相位隐状态在频率维度的相位相关性;将所述时间维度的相位相关性和/或所述频率维度的相位相关性,以及所述至少一个子带的相位隐状态,输入所述预测模型的解码器进行解码,以得到所述至少一个子带的相
位修正因子。5.根据权利要求1
‑
4任一项所述的方法,其中,所述对所述降噪语音进行语音识别,以得到对应的文本信息,包括:对所述降噪语音进行语音识别,以得到后验概率图特征;其中,所述后验概率图特征,用于表征所述降噪语音中至少一个声学片段属于设定语言学单元的概率;将所述后验概率图特征作为所述降噪语音的文本信息。6.一种语音合成装置,包括:获取模块,用于获取源语音;降噪模块,用于根据所述源语音的幅度分量和/或相位分量,对所述源语音中的噪声进行抑制,以得到降噪语音;识别模块,用于对所述降噪语音进行语音识别,以得到对应的文本信息;处理模块,用于将所述降噪语音的文本信...
【专利技术属性】
技术研发人员:彭博,康永国,高聪,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。