【技术实现步骤摘要】
本专利技术涉及自然语言处理和深度学习,更为具体的,涉及一种基于自回归类深度学习语音合成的可控输出方法及设备。
技术介绍
1、自回归类深度学习语音合成方法建立文本端输入与mel频谱端输出的映射关系,基于已生成的部分来预测后续语音,这使得生成的语音在整体结构和局部细节上都较为自然和连贯,更接近真实人类语音。常用的自回归类深度学习语音合成模型在推理阶段会利用随机采样策略提升语音的多样性。尽管随机采样策略的引入使得语音更加流畅、自然,但是也可能加重漏词、重复、说错词现象。
2、通过优化自回归类深度学习语音合成模型的训练可以较好改善漏词、重复、说错词现象,但是数据的收集、标注以及模型的训练都会耗费大量的时间。通过嵌入语音识别模块及校对模块对自回归类深度学习合成的语音进行检查,能够有效改善漏词、重复、说错词现象,并且无需训练。具体而言,通过自回归类深度学习语音合成方法合成参考文本、参考语音、目标文本对应的语音,提取合成语音对应的待校对文本,分别对待校对文本和目标文本进行文本规范化处理和音素提取,然后对待校对文本和目标文本的音素进行字符匹
...【技术保护点】
1.一种基于自回归类深度学习语音合成的可控输出方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于自回归类深度学习语音合成的可控输出方法,其特征在于,在步骤S1中,所述提取目标文本和参考文本的特征,具体包括子步骤:利用bert模型提取目标文本和参考文本的特征,具体包括子步骤:
3.根据权利要求1所述的基于自回归类深度学习语音合成的可控输出方法,其特征在于,在步骤S1中,所述提取参考音频的特征,具体包括子步骤:利用hubert模型提取参考音频的特征,且hubert模型在特征提取时只对部分音频帧进行预测,而利用未被掩码的部分来预测被掩码的
...【技术特征摘要】
1.一种基于自回归类深度学习语音合成的可控输出方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于自回归类深度学习语音合成的可控输出方法,其特征在于,在步骤s1中,所述提取目标文本和参考文本的特征,具体包括子步骤:利用bert模型提取目标文本和参考文本的特征,具体包括子步骤:
3.根据权利要求1所述的基于自回归类深度学习语音合成的可控输出方法,其特征在于,在步骤s1中,所述提取参考音频的特征,具体包括子步骤:利用hubert模型提取参考音频的特征,且hubert模型在特征提取时只对部分音频帧进行预测,而利用未被掩码的部分来预测被掩码的部分,从而使模型能够在未见输入的情况下正确预测音频内容。
4.根据权利要求1所述的基于自回归类深度学习语音合成的可控输出方法,其特征在于,在步骤s1中,所述将提取好的特征送入自回归类深度学习模型进行语音合成,具体包括子步骤:所述自回归类深度学习模型由transformer模型和vits模型的解码部分组成,且语音合成的执行过程具体包括子步骤:
5.根据权利要求2所述的基于自回归类深度学习语音合成的可控输出方法,其特征在于,所述文本向量在模型训练过程中自动学习,用于刻画文本的全局语义信息,并与单字的语义信息相融合。
6.根据权利要求2所述的基于自回归类深度学习语音合成的可控输出方法,其特征在于,所述位置向量通过对字向量的位置进行编码,使得文本不同位置的字能表达不同的语义信息。
7.根据权利要求4所述的基于自回归类深度学习语音合成的可控输出方法,其特征在于,所述vits解码部分使用hifigan的声码器作为其核心组件。
8.根据权利要求1所述的基于自回...
【专利技术属性】
技术研发人员:陈尧森,姚羽,温序铭,
申请(专利权)人:成都索贝数码科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。