基于自回归类深度学习语音合成的可控输出方法及设备技术

技术编号：42493310 阅读：37 留言：0更新日期：2024-08-21 13:10

本发明专利技术公开了一种基于自回归类深度学习语音合成的可控输出方法及设备，属于自然语言处理和深度学习领域，包括步骤：基于自回归类深度学习语音合成完成对参考文本、参考语音、目标文本的语音合成；基于语音识别提取合成语音的待校对文本信息；基于校对匹配去除目标文本和待校对文本中所有非文字部分，分别提取目标文本音素和待校对文本音素，对目标文本音素和待校对文本音素进行音素匹配，输出匹配结果。若匹配结果为成功，则输出语音，否则重新进行以上步骤，直至校对匹配成功。本发明专利技术可实现自回归类深度学习语音合成的自动校对，改善自回归类深度学习语音合成中出现的漏词、重复、说错词的问题，提升自回归类深度学习语音合成的稳定性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理和深度学习，更为具体的，涉及一种基于自回归类深度学习语音合成的可控输出方法及设备。

技术介绍

1、自回归类深度学习语音合成方法建立文本端输入与mel频谱端输出的映射关系，基于已生成的部分来预测后续语音，这使得生成的语音在整体结构和局部细节上都较为自然和连贯，更接近真实人类语音。常用的自回归类深度学习语音合成模型在推理阶段会利用随机采样策略提升语音的多样性。尽管随机采样策略的引入使得语音更加流畅、自然，但是也可能加重漏词、重复、说错词现象。

2、通过优化自回归类深度学习语音合成模型的训练可以较好改善漏词、重复、说错词现象，但是数据的收集、标注以及模型的训练都会耗费大量的时间。通过嵌入语音识别模块及校对模块对自回归类深度学习合成的语音进行检查，能够有效改善漏词、重复、说错词现象，并且无需训练。具体而言，通过自回归类深度学习语音合成方法合成参考文本、参考语音、目标文本对应的语音，提取合成语音对应的待校对文本，分别对待校对文本和目标文本进行文本规范化处理和音素提取，然后对待校对文本和目标文本的音素进行字符匹...

【技术保护点】

1.一种基于自回归类深度学习语音合成的可控输出方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于自回归类深度学习语音合成的可控输出方法，其特征在于，在步骤S1中，所述提取目标文本和参考文本的特征，具体包括子步骤：利用bert模型提取目标文本和参考文本的特征，具体包括子步骤：

3.根据权利要求1所述的基于自回归类深度学习语音合成的可控输出方法，其特征在于，在步骤S1中，所述提取参考音频的特征，具体包括子步骤：利用hubert模型提取参考音频的特征，且hubert模型在特征提取时只对部分音频帧进行预测，而利用未被掩码的部分来预测被掩码的部分，从而使模型能够...

【技术特征摘要】

1.一种基于自回归类深度学习语音合成的可控输出方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于自回归类深度学习语音合成的可控输出方法，其特征在于，在步骤s1中，所述提取目标文本和参考文本的特征，具体包括子步骤：利用bert模型提取目标文本和参考文本的特征，具体包括子步骤：

3.根据权利要求1所述的基于自回归类深度学习语音合成的可控输出方法，其特征在于，在步骤s1中，所述提取参考音频的特征，具体包括子步骤：利用hubert模型提取参考音频的特征，且hubert模型在特征提取时只对部分音频帧进行预测，而利用未被掩码的部分来预测被掩码的部分，从而使模型能够在未见输入的情况下正确预测音频内容。

4.根据权利要求1所述的基于自回归类深度学习语音合成的可控输出方法，其特征在于，在步骤s1中，所述将提取好的特征送入自回归类深度学习模型进行语音合成，具体包括子步骤：所述自回归类深度学习模型由transformer模型和vits模型的解码部分组成，且语音合成的执行过程具体包括子步骤：

5.根据权利要求2所述的基于自回归类深度学习语音合成的可控输出方法，其特征在于，所述文本向量在模型训练过程中自动学习，用于刻画文本的全局语义信息，并与单字的语义信息相融合。

6.根据权利要求2所述的基于自回归类深度学习语音合成的可控输出方法，其特征在于，所述位置向量通过对字向量的位置进行编码，使得文本不同位置的字能表达不同的语义信息。

7.根据权利要求4所述的基于自回归类深度学习语音合成的可控输出方法，其特征在于，所述vits解码部分使用hifigan的声码器作为其核心组件。

8.根据权利要求1所述的基于自回...

【专利技术属性】
技术研发人员：陈尧森，姚羽，温序铭，
申请(专利权)人：成都索贝数码科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人