音频处理方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:28298188 阅读:17 留言:0更新日期:2021-04-30 16:24
本发明专利技术实施例提供了一种音频处理方法、装置、电子设备和可读存储介质,涉及计算机技术领域。通过本发明专利技术实施例,基于原始音频样本训练的信息补偿模型具有较好的信息补偿能力,当使用训练后的信息补偿模型对待处理音频进行信息补偿时,可以使得目标音频中被补偿的部分与真实声音的相似度更高,进而使得目标音频的真实度更高,也就是说,训练后的信息补偿模型具有较高的升采样准确率。

【技术实现步骤摘要】
音频处理方法、装置、电子设备和可读存储介质
本申请涉及计算机
,特别是涉及一种音频处理方法、装置、电子设备和可读存储介质。
技术介绍
目前,音频处理可以应用在各种场景,例如对机器合成语音(在线教育、视频配音以及解说等等)进行音频处理,在实际应用过程中,常见的音频处理包括音频数据压缩以及音频数据还原。然而,在音频数据压缩以及音频数据还原的过程中,往往会对音频数据产生数据损耗,降低了音频数据还原的准确率。
技术实现思路
有鉴于此,本专利技术实施例提供一种音频处理方法、装置、电子设备和可读存储介质,以使得信息补偿模型具有较好的信息补偿能力和较高的升采样准确率。第一方面,提供了一种音频处理方法,所述方法应用于电子设备,所述方法包括:获取待处理音频。将所述待处理音频输入至预先训练的信息补偿模型进行处理,以获取目标音频。其中,所述信息补偿模型基于如下步骤训练:获取训练集,所述训练集包括多个样本组,所述样本组包括经降维处理后的第一音频样本和所述第一音频样本对应的原始音频样本。根据所述训练集训练所述信息补偿模型。可选的,所述获取待处理音频,包括:获取原始音频数据。对所述原始音频数据进行降采样处理,获取待处理音频。可选的,所述第一音频样本中包括预设的噪声数据。可选的,所述噪声数据包括白噪声和/或粉红噪声。可选的,所述获取训练集,包括:获取多个原始音频样本。对于一原始音频样本,对所述原始音频样本进行降采样处理,获取第一音频数据。将多个预设的噪声数据分别与所述第一音频数据进行组合,确定对应的多个第一音频样本,以获取所述原始音频样本对应的多个样本组。可选的,所述将所述待处理音频输入至预先训练的信息补偿模型进行处理,以获取目标音频,包括:将所述待处理音频输入至预先训练的信息补偿模型进行升采样处理,以确定所述目标音频。可选的,所述获取原始音频数据,包括:获取输入文本。确定所述输入文本中至少一个字的发音向量,所述发音向量至少包括对应字的韵律信息。确定各所述发音向量对应的发音时长以及发音音调,所述发音时长用于表征发音的持续时长,所述发音音调用于表征发音的音高。基于所述发音向量、所述发音时长以及所述发音音调,合成所述输入文本对应的原始音频数据。可选的,所述发音音调为方言音调,所述方言音调用于表征方言发音的音高。可选的,所述信息补偿模型基于自回归神经网络或者生成对抗网络构建。第二方面,提供了一种音频处理装置,所述装置应用于电子设备,所述装置包括:第一获取模块,用于获取待处理音频。信息补偿模块,用于将所述待处理音频输入至预先训练的信息补偿模型进行处理,以获取目标音频。其中,所述信息补偿模型基于如下模块训练:第二获取模块,用于获取训练集,所述训练集包括多个样本组,所述样本组包括经降维处理后的第一音频样本和所述第一音频样本对应的原始音频样本。训练模块,用于根据所述训练集训练所述信息补偿模型。可选的,所述第一获取模块,具体用于:获取原始音频数据。对所述原始音频数据进行降采样处理,获取待处理音频。可选的,所述第一音频样本中包括预设的噪声数据。可选的,所述噪声数据包括白噪声和/或粉红噪声。可选的,所述第二获取模块,具体用于:获取多个原始音频样本。对于一原始音频样本,对所述原始音频样本进行降采样处理,获取第一音频数据。将多个预设的噪声数据分别与所述第一音频数据进行组合,确定对应的多个第一音频样本,以获取所述原始音频样本对应的多个样本组。可选的,所述信息补偿模块,具体用于:将所述待处理音频输入至预先训练的信息补偿模型进行升采样处理,以确定所述目标音频。可选的,所述第一获取模块,具体还用于:获取输入文本。确定所述输入文本中至少一个字的发音向量,所述发音向量至少包括对应字的韵律信息。确定各所述发音向量对应的发音时长以及发音音调,所述发音时长用于表征发音的持续时长,所述发音音调用于表征发音的音高。基于所述发音向量、所述发音时长以及所述发音音调,合成所述输入文本对应的原始音频数据。可选的,所述发音音调为方言音调,所述方言音调用于表征方言发音的音高。可选的,所述信息补偿模型基于自回归神经网络或者生成对抗网络构建。第三方面,本专利技术实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。通过本专利技术实施例,基于原始音频样本训练的信息补偿模型具有较好的信息补偿能力,当使用训练后的信息补偿模型对待处理音频进行信息补偿时,可以使得目标音频中被补偿的部分与真实声音的相似度更高,进而使得目标音频的真实度更高,也就是说,训练后的信息补偿模型具有较高的升采样准确率。附图说明通过以下参照附图对本专利技术实施例的描述,本专利技术实施例的上述以及其它目的、特征和优点将更为清楚,在附图中:图1为本专利技术实施例提供的一种相关技术中降维处理过程的示意图;图2为本专利技术实施例提供的一种音频处理方法的流程图;图3为本专利技术实施例提供的另一种音频处理方法的流程图;图4为本专利技术实施例提供的一种音频处理方法的示意图;图5为本专利技术实施例提供的一种确定第一音频样本过程的示意图;图6为本专利技术实施例提供的另一种音频处理方法的流程图;图7为本专利技术实施例提供的一种音频处理装置的结构示意图;图8为本专利技术实施例提供的另一种音频处理装置的结构示意图;图9为本专利技术实施例提供的一种电子设备的结构示意图。具体实施方式以下基于实施例对本专利技术进行描述,但是本专利技术并不仅仅限于这些实施例。在下文对本专利技术的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本专利技术。为了避免混淆本专利技术的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。在本专利技术的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本专利技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。目前,音频处理可以应用在各种场景,例如对机器合成语音(在线教育、视频配音以及解说等等本文档来自技高网...

【技术保护点】
1.一种音频处理方法,其特征在于,所述方法包括:/n获取待处理音频;以及/n将所述待处理音频输入至预先训练的信息补偿模型进行处理,以获取目标音频;/n其中,所述信息补偿模型基于如下步骤训练:/n获取训练集,所述训练集包括多个样本组,所述样本组包括经降维处理后的第一音频样本和所述第一音频样本对应的原始音频样本;以及/n根据所述训练集训练所述信息补偿模型。/n

【技术特征摘要】
1.一种音频处理方法,其特征在于,所述方法包括:
获取待处理音频;以及
将所述待处理音频输入至预先训练的信息补偿模型进行处理,以获取目标音频;
其中,所述信息补偿模型基于如下步骤训练:
获取训练集,所述训练集包括多个样本组,所述样本组包括经降维处理后的第一音频样本和所述第一音频样本对应的原始音频样本;以及
根据所述训练集训练所述信息补偿模型。


2.根据权利要求1所述的方法,其特征在于,所述获取待处理音频,包括:
获取原始音频数据;以及
对所述原始音频数据进行降采样处理,获取待处理音频。


3.根据权利要求1所述的方法,其特征在于,所述第一音频样本中包括预设的噪声数据。


4.根据权利要求3所述的方法,其特征在于,所述噪声数据包括白噪声和/或粉红噪声。


5.根据权利要求3或4所述的方法,其特征在于,所述获取训练集,包括:
获取多个原始音频样本;
对于一原始音频样本,对所述原始音频样本进行降采样处理,获取第一音频数据;以及
将多个预设的噪声数据分别与所述第一音频数据进行组合,确定对应的多个第一音频样本,以获取所述原始音频样本对应的多个样本组。


6.根据权利要求1所述的方法,其特征在于,所述将所述待处理音频输入至预先训练的信息补偿模型进行处理,以获取目标音频,包括:
将所述待处理音频输入至预先训练的信息补偿模型进行升采样处理,以确定所述目标音频。


7.根据权利要求2所述的方法,其特征在于,所述获取原始音频数据,包括:
获取输入文本;
确定所述输入文本中至少一个字的发音向量,所述发音向量至少包括对应字的韵律信息;
确定各所述发音向量对应的发音时长以及发音音调,所述发音时长用于表征发音的持续时长,所述发音音调用于表征发音的音高;以及
基于所述发音向量、所述发音时长以及所述发音音调,合成所述输入文本对应的原始音频数据。


8.根据权利要求7所述的方法,其特征在于,所述发音音调为方言音调,所述方言音调用于表征方言发音的音高。


9.根据权利要求1所述的方法,其特征在于,所述信息补偿模型基于自回归神经网络或者生成对抗网络构建。


10.一种音频处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取待处理音频;以及
信息补偿模块,用于将所述待处理音频输入至预先训练的信息补偿模型进行处理,以获取目标音频;
其中,所述...

【专利技术属性】
技术研发人员:梁光舒景辰吴雨璇杨惠周鼎皓
申请(专利权)人:北京大米科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1