音频数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:32963019 阅读:17 留言:0更新日期:2022-04-09 10:56
本申请实施例公开了一种音频数据处理方法、装置、设备及存储介质,涉及人工智能相关的机器学习技术,其中,方法包括:获取至少两个样本音频数据,以及至少两个样本音频数据中的样本音频数据Y

【技术实现步骤摘要】
音频数据处理方法、装置、设备及存储介质


[0001]本申请涉及人工智能中的机器学习
,尤其涉及一种音频数据处理方法、装置、设备及存储介质。

技术介绍

[0002]随着互联网技术的发展,对音频数据的需求也日趋增长,但传统的音频数据需要人工将文本信息以及乐谱信息转换成音频数据,效率较低,因此音频合成技术应运而生,音频合成技术是通过音频合成模型对待合成音频数据的文本特征信息和乐谱特征信息进行学习自动生成音频数据,可提高音频数据生成效率,因此该技术被广泛应用于泛智能配音、虚拟主播、智能家居、智能机器人和相关智能领域。但是,由于待合成音频数据的文本特征信息和乐谱特征信息的分布差异比较大,导致生成的音频数据的发音稳定性比较差,进而,导致音频数据的质量不佳。

技术实现思路

[0003]本申请实施例所要解决的技术问题在于,提供一种音频数据处理方法、装置、设备及存储介质,能够有效提高音频数据的发音稳定性,以及音频数据的质量。
[0004]本申请实施例一方面提供一种音频数据处理方法,包括:
[0005]获取至少两个样本音频数据本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种音频数据处理方法,其特征在于,包括:获取至少两个样本音频数据,以及所述至少两个样本音频数据中的样本音频数据Y
i
关联的对象信息;所述样本音频数据Y
i
关联的对象信息用于指示所述样本音频数据Y
i
属于样本对象P
n
,所述至少两个样本音频数据属于至少两个样本对象,i为小于或等于M的正整数,M为所述至少两个样本音频数据中的样本音频数据的个数,n为小于或等于Q的正整数,Q为所述至少两个样本对象中的对象个数;对所述样本音频数据Y
i
进行特征提取,得到所述样本音频数据Y
i
的文本特征信息以及乐谱特性信息;对所述样本音频数据Y
i
的文本特征信息以及乐谱特性信息进行归一化处理,得到所述样本音频数据Y
i
的样本音频特征信息;采用所述样本音频数据Y
i
的样本音频特征信息以及所述样本音频数据Y
i
关联的对象信息,对候选音频合成模型进行调整,得到目标音频合成模型;所述目标音频合成模型用于合成目标对象的目标音频数据。2.如权利要求1所述的方法,其特征在于,所述对所述样本音频数据Y
i
的文本特征信息以及乐谱特性信息进行归一化处理,得到所述样本音频数据Y
i
的样本音频特征信息,包括:对所述样本音频数据Y
i
的文本特征信息以及乐谱特性信息进行拼接处理,得到拼接处理后的特征信息;对所述拼接处理后的特征信息进行归一化处理,得到所述样本音频数据Y
i
的样本音频特征信息。3.如权利要求2所述的方法,其特征在于,所述对所述拼接处理后的特征信息进行归一化处理,得到所述样本音频数据Y
i
的样本音频特征信息,包括:对所述拼接处理后的特征信息进行归一化处理,得到所述样本音频数据Y
i
的候选样本音频特征信息;对所述样本音频数据Y
i
的候选样本音频特征信息进行编码,得到所述样本音频数据Y
i
的音频编码值;将述样本音频数据Y
i
的音频编码值确定为所述样本音频数据Y
i
的样本音频特征信息。4.如权利要求3所述的方法,其特征在于,所述对所述样本音频数据Y
i
的候选样本音频特征信息进行编码,得到所述样本音频数据Y
i
的音频编码值,包括:对所述样本音频数据Y
i
的候选样本音频特征信息进行频域变换,得到所述样本音频数据Y
i
的频域特征信息;根据所述样本音频数据Y
i
的频域特征信息生成所述样本音频数据Y
i
的能量特征信息;对所述样本音频数据Y
i
的能量特征信息进行编码,得到所述样本音频数据Y
i
的音频编码值。5.如权利要求4所述的方法,其特征在于,所述对所述样本音频数据Y
i
的能量特征信息进行编码,得到所述样本音频数据Y
i
的音频编码值,包括:对所述样本音频数据Y
i
的能量特征信息进行滤波处理,得到所述样本音频数据Y
i
的有效能量特征信息;对所述样本音频数据Y
i
的有效能量特征信息进行离散化处理,得到所述样本音频数据Y
i
的离散能量特征信息;
对所述样本音频数据Y
i
的离散能量特征信息进行编码,得到所述样本音频数据Y
i
的音频编码值。6.如权利要求5所述的方法,其特征在于,所述对所述样本音频数据Y
i
的离散能量特征信息进行编码,得到所述样本音频数据Y
i
的音频编码值,包括:对所述样本音频数据Y
i
的离散能量特征信息进行残差编码,得到所述样本音频数据Y
i
的音色特征编码值;对所述样本音频数据Y
i
的离散能量特征信息进行注意力编码,得到用于反映所述样本音频数据Y
i
的上下文关系的关系特征编码值;将所述样本音频数据Y
i
的音色特征编码值和所述关系特征编码值进行拼接,得到所述样本音频数据Y
i
的音频编码值。7.如权利要求6所述的方法,其特征在于,所述对所述样本音频数据Y
i
的离散能量特征信息进行残差编码,得到所述样本音频数据Y
i
的音色特征编码值,包括:对所述样本音频数据Y
i
的离散能量特征信息进行残差编码,得到所述样本音频数据Y
i
的候选音色特征编码值;根据所述样本音频数据Y
i
关联的对象信息,对所述样本音频数据Y
i
的候选音色特征编码值进行补偿处理,得到所述样本音频数据Y
i
的补偿音色特征编码值;将所述样本音频数据Y
i
的补偿音色特征编码值,确定为所述样本音频数据Y
i
的音色特征编码值。8.如权利要求7所述的方法,其特征在于,所述关系特征编码值是采用注意力编码器对所述样本音频数据Y
i
的离散能量特征信息进行注意力编码得到的,所述方法还包括:采用梯度反转层将所述样本音频...

【专利技术属性】
技术研发人员:张泽旺李新辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1