一种语音处理方法、装置、设备、介质及程序产品制造方法及图纸

技术编号：43986460 阅读：34 留言：0更新日期：2025-01-10 20:09

本申请实施例公开了一种语音处理方法、装置、设备、介质及程序产品。其中的方法包括：获取待转换的文本和参考语音；对文本进行特征提取处理，得到文本嵌入向量；对参考语音进行连续语音标记处理，得到多维语音嵌入向量；基于多维语音嵌入向量和文本嵌入向量，对文本进行语音预测处理，得到预测语音序列；对预测语音序列进行转换处理，生成文本朗读语音。采用本申请实施例能够在文本转语音过程中最大幅度地保留参考语音的声学细节，从而提升文本转语音的转换效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，尤其涉及人工智能领域，具体涉及一种语音处理方法、一种语音处理装置、一种计算机设备、一种计算机可读存储介质及一种计算机程序产品。

技术介绍

1、文本转语音技术是以文本和参考语音作为输入，输出以参考语音为风格对文本进行朗读的文本朗读语音的技术。

2、目前，文本转语音技术是基于离散语音标记器对参考语音进行离散标记，来实现针对参考语音的声学细节的提取。然而，离散语音标记器是将输入的参考语音离散为单一的数值，这会损失参考语音的大量声学细节，从而导致文本转语音过程中针对参考语音的语音特征提取存在损失，降低文本转语音的转换效果。

技术实现思路

1、本申请实施例提供一种语音处理方法、装置、设备、介质及程序产品，能够在文本转语音过程中最大幅度地保留参考语音的声学细节，从而提升文本转语音的转换效果。

2、一方面，本申请实施例提供了一种语音处理方法，该方法包括：

3、获取待转换的文本和参考语音；

4、对文本进行特征提取处理，得到文本嵌入向量，文本...

【技术保护点】

1.一种语音处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述对所述参考语音进行连续语音标记处理，得到多维语音嵌入向量，包括：

3.如权利要求2所述的方法，其特征在于，所述对每个所述语音片段进行连续语音标记处理，得到每个所述语音片段的连续语音标记，包括：

4.如权利要求1所述的方法，其特征在于，所述文本朗读语音被朗读时是按照时间步的先后顺序依次朗读的，所述时间步表示为t，t为非负的整数；所述基于所述多维语音嵌入向量和所述文本嵌入向量，对所述文本进行语音预测处理，得到预测语音序列，包括：

5.如权利要求4所述的方法，其...

【技术特征摘要】

1.一种语音处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述对所述参考语音进行连续语音标记处理，得到多维语音嵌入向量，包括：

3.如权利要求2所述的方法，其特征在于，所述对每个所述语音片段进行连续语音标记处理，得到每个所述语音片段的连续语音标记，包括：

5.如权利要求4所述的方法，其特征在于，所述将所述多维语音嵌入向量，所述文本嵌入向量和位于所述时间步t之前的每个时间步的预测语音信息进行语音预测处理，得到所述时间步t的预测语音信息，包括：

6.如权利要求1所述的方法，其特征在于，所述对所述预测语音序列进行转换处理，生成所述文本对应的文本朗读语音，包括：

7.如权利要求1-6任一项所述的方法，其特征在于，所述方法是通过文本转语音模型实现的，所述文本转语音模型中包括目标文本标记模块、目标连续语音标记模块、目标语音预测模块和目标语音解码模块；

8.如权利要求7所述的方法，其特征在于，...

【专利技术属性】
技术研发人员：李熠星，谢若冰，孙兴武，成宇，康战辉，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人