【技术实现步骤摘要】
本申请涉及计算机,尤其涉及人工智能领域,具体涉及一种语音处理方法、一种语音处理装置、一种计算机设备、一种计算机可读存储介质及一种计算机程序产品。
技术介绍
1、文本转语音技术是以文本和参考语音作为输入,输出以参考语音为风格对文本进行朗读的文本朗读语音的技术。
2、目前,文本转语音技术是基于离散语音标记器对参考语音进行离散标记,来实现针对参考语音的声学细节的提取。然而,离散语音标记器是将输入的参考语音离散为单一的数值,这会损失参考语音的大量声学细节,从而导致文本转语音过程中针对参考语音的语音特征提取存在损失,降低文本转语音的转换效果。
技术实现思路
1、本申请实施例提供一种语音处理方法、装置、设备、介质及程序产品,能够在文本转语音过程中最大幅度地保留参考语音的声学细节,从而提升文本转语音的转换效果。
2、一方面,本申请实施例提供了一种语音处理方法,该方法包括:
3、获取待转换的文本和参考语音;
4、对文本进行特征提取处理,得到文本嵌入向量,文本
...【技术保护点】
1.一种语音处理方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述对所述参考语音进行连续语音标记处理,得到多维语音嵌入向量,包括:
3.如权利要求2所述的方法,其特征在于,所述对每个所述语音片段进行连续语音标记处理,得到每个所述语音片段的连续语音标记,包括:
4.如权利要求1所述的方法,其特征在于,所述文本朗读语音被朗读时是按照时间步的先后顺序依次朗读的,所述时间步表示为t,t为非负的整数;所述基于所述多维语音嵌入向量和所述文本嵌入向量,对所述文本进行语音预测处理,得到预测语音序列,包括:
5.如权利
...【技术特征摘要】
1.一种语音处理方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述对所述参考语音进行连续语音标记处理,得到多维语音嵌入向量,包括:
3.如权利要求2所述的方法,其特征在于,所述对每个所述语音片段进行连续语音标记处理,得到每个所述语音片段的连续语音标记,包括:
4.如权利要求1所述的方法,其特征在于,所述文本朗读语音被朗读时是按照时间步的先后顺序依次朗读的,所述时间步表示为t,t为非负的整数;所述基于所述多维语音嵌入向量和所述文本嵌入向量,对所述文本进行语音预测处理,得到预测语音序列,包括:
5.如权利要求4所述的方法,其特征在于,所述将所述多维语音嵌入向量,所述文本嵌入向量和位于所述时间步t之前的每个时间步的预测语音信息进行语音预测处理,得到所述时间步t的预测语音信息,包括:
6.如权利要求1所述的方法,其特征在于,所述对所述预测语音序列进行转换处理,生成所述文本对应的文本朗读语音,包括:
7.如权利要求1-6任一项所述的方法,其特征在于,所述方法是通过文本转语音模型实现的,所述文本转语音模型中包括目标文本标记模块、目标连续语音标记模块、目标语音预测模块和目标语音解码模块;
8.如权利要求7所述的方法,其特征在于,...
【专利技术属性】
技术研发人员:李熠星,谢若冰,孙兴武,成宇,康战辉,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。