【技术实现步骤摘要】
音频处理方法、装置、电子设备和可读存储介质
本申请涉及计算机
,特别是涉及一种音频处理方法、装置、电子设备和可读存储介质。
技术介绍
目前,音频处理可以应用在各种场景,例如对机器合成语音(在线教育、视频配音以及解说等等)进行音频处理,在实际应用过程中,常见的音频处理包括音频数据压缩以及音频数据还原。然而,在音频数据压缩以及音频数据还原的过程中,往往会对音频数据产生数据损耗,降低了音频数据还原的准确率。
技术实现思路
有鉴于此,本专利技术实施例提供一种音频处理方法、装置、电子设备和可读存储介质,以使得信息补偿模型具有较好的信息补偿能力和较高的升采样准确率。第一方面,提供了一种音频处理方法,所述方法应用于电子设备,所述方法包括:获取待处理音频。将所述待处理音频输入至预先训练的信息补偿模型进行处理,以获取目标音频。其中,所述信息补偿模型基于如下步骤训练:获取训练集,所述训练集包括多个样本组,所述样本组包括经降维处理后的第一音频样本和所述第一音频样本对应的原始音频样本。根据所述训练集训练所述信息补偿模型。可选的,所述获取待处理音频,包括:获取原始音频数据。对所述原始音频数据进行降采样处理,获取待处理音频。可选的,所述第一音频样本中包括预设的噪声数据。可选的,所述噪声数据包括白噪声和/或粉红噪声。可选的,所述获取训练集,包括:获取多个原始音频样本。对于一原始音频样本,对所述原始音频样 ...
【技术保护点】
1.一种音频处理方法,其特征在于,所述方法包括:/n获取待处理音频;以及/n将所述待处理音频输入至预先训练的信息补偿模型进行处理,以获取目标音频;/n其中,所述信息补偿模型基于如下步骤训练:/n获取训练集,所述训练集包括多个样本组,所述样本组包括经降维处理后的第一音频样本和所述第一音频样本对应的原始音频样本;以及/n根据所述训练集训练所述信息补偿模型。/n
【技术特征摘要】
1.一种音频处理方法,其特征在于,所述方法包括:
获取待处理音频;以及
将所述待处理音频输入至预先训练的信息补偿模型进行处理,以获取目标音频;
其中,所述信息补偿模型基于如下步骤训练:
获取训练集,所述训练集包括多个样本组,所述样本组包括经降维处理后的第一音频样本和所述第一音频样本对应的原始音频样本;以及
根据所述训练集训练所述信息补偿模型。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理音频,包括:
获取原始音频数据;以及
对所述原始音频数据进行降采样处理,获取待处理音频。
3.根据权利要求1所述的方法,其特征在于,所述第一音频样本中包括预设的噪声数据。
4.根据权利要求3所述的方法,其特征在于,所述噪声数据包括白噪声和/或粉红噪声。
5.根据权利要求3或4所述的方法,其特征在于,所述获取训练集,包括:
获取多个原始音频样本;
对于一原始音频样本,对所述原始音频样本进行降采样处理,获取第一音频数据;以及
将多个预设的噪声数据分别与所述第一音频数据进行组合,确定对应的多个第一音频样本,以获取所述原始音频样本对应的多个样本组。
6.根据权利要求1所述的方法,其特征在于,所述将所述待处理音频输入至预先训练的信息补偿模型进行处理,以获取目标音频,包括:
将所述待处理音频输入至预先训练的信息补偿模型进行升采样处理,以确定所述目标音频。
7.根据权利要求2所述的方法,其特征在于,所述获取原始音频数据,包括:
获取输入文本;
确定所述输入文本中至少一个字的发音向量,所述发音向量至少包括对应字的韵律信息;
确定各所述发音向量对应的发音时长以及发音音调,所述发音时长用于表征发音的持续时长,所述发音音调用于表征发音的音高;以及
基于所述发音向量、所述发音时长以及所述发音音调,合成所述输入文本对应的原始音频数据。
8.根据权利要求7所述的方法,其特征在于,所述发音音调为方言音调,所述方言音调用于表征方言发音的音高。
9.根据权利要求1所述的方法,其特征在于,所述信息补偿模型基于自回归神经网络或者生成对抗网络构建。
10.一种音频处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取待处理音频;以及
信息补偿模块,用于将所述待处理音频输入至预先训练的信息补偿模型进行处理,以获取目标音频;
其中,所述...
【专利技术属性】
技术研发人员:梁光,舒景辰,吴雨璇,杨惠,周鼎皓,
申请(专利权)人:北京大米科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。