音频处理方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号:29931117 阅读:17 留言:0更新日期:2021-09-04 18:59
本发明专利技术的实施例提供了一种音频处理方法、装置、电子设备和计算机可读存储介质,涉及数据处理技术领域,方法包括:对待编码音频数据进行预处理,得到目标音频数据,通过对目标音频数据进行端点检测获得目标音频数据中每种类型的音频数据的起始点和终止点。提取每种类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息。进而对目标音频数据中设定类型的音频数据的采样点信息进行加速处理,基于设定类型的音频数据加速处理后的采样点信息,其他类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息,提取得到内容表征信息,从而提高音频压缩率。从而提高音频压缩率。从而提高音频压缩率。

【技术实现步骤摘要】
音频处理方法、装置、电子设备和计算机可读存储介质


[0001]本专利技术涉及数据处理
,具体而言,涉及一种音频处理方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]人类能够听到的所有声音都称之为音频,它可能包括噪音等。声音被录制下来以后,无论是说话声、歌声、乐器都可以通过数字音频软件进行处理。音频的处理方式多种多样,其中,很多场景下都需要进行音频压缩。经研究发现,目前市面上的音频压缩大多采用信号编码相关的技术方案,类似的方案实现简单,压缩解压速度较快,但面临压缩率不够的缺点。

技术实现思路

[0003]本专利技术的目的之一包括,例如,提供了一种音频处理方法、装置、电子设备和计算机可读存储介质,以至少部分地提高音频的压缩率。
[0004]本专利技术的实施例可以这样实现:
[0005]第一方面,本专利技术提供一种音频处理方法,包括:
[0006]对待编码音频数据进行预处理,得到目标音频数据;
[0007]对所述目标音频数据进行端点检测,获得所述目标音频数据中每种类型的音频数据的起始点和终止点;
[0008]提取每种类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息;
[0009]对所述目标音频数据中设定类型的音频数据的采样点信息进行加速处理;
[0010]基于所述设定类型的音频数据加速处理后的采样点信息,其他类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息,提取得到内容表征信息。
[0011]在可选的实施方式中,提取得到内容表征信息的步骤,包括:
[0012]调用神经网络模型,所述神经网络模型包括采样层、全连接层和循环神经网络;
[0013]将所述设定类型的音频数据加速处理后的采样点信息、其他类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息输入所述采样层,对所述加速处理后的采样点信息进行信息抽取,获得响度信息、音高信息和内容信息,并对所述响度信息、音高信息和内容信息进行降采样,得到降采样后的响度信息、音高信息和内容信息;
[0014]将降采样后的响度信息、音高信息和内容信息输入所述全连接层进行融合;
[0015]将融合后的信息输入所述循环神经网络进行处理,得到内容表征信息。
[0016]在可选的实施方式中,所述音频数据的类型包括人声、噪声和静音,所述设定类型的音频数据为人声数据;
[0017]所述人声数据的采样点信息为对所述人声数据的幅值的连续表达;静音数据的采样点信息为用于表征所述静音数据的设定数量个幅值;噪声数据的采样点信息为用于表征所述噪声数据的设定数量个幅值。
[0018]在可选的实施方式中,所述对待编码音频数据进行预处理,得到目标音频数据的步骤,包括:
[0019]将待编码音频数据进行重采样;
[0020]将重采样后的待编码音频数据进行降噪和去混响,得到目标音频数据。
[0021]第二方面,本专利技术实施例提供一种音频处理方法,包括:
[0022]将内容表征信息输入神经网络模型,所述内容表征信息表征有音频数据的采样点信息、起始点和终止点的时间戳信息;
[0023]根据所述内容表征信息复原得到设定类型的音频数据加速处理后的采样点信息;
[0024]对复原得到的采样点信息进行平滑、反归一化和重采样,得到待还原音频数据;
[0025]根据所述设定类型的音频数据的起始点和终止点的时间戳信息,在时间轴上对所述待还原音频数据进行处理,还原得到原始音频数据。
[0026]在可选的实施方式中,所述设定类型的音频数据包括人声数据,所述神经网络模型包括采样层、全连接层和循环神经网络,所述根据所述内容表征信息复原得到设定类型的音频数据加速处理后的采样点信息的步骤,包括:
[0027]将所述内容表征信息输入所述循环神经网络,得到融合后的信息;
[0028]将所述融合后的信息输入所述全连接层,得到降采样后的响度信息、音高信息和内容信息;
[0029]将所述降采样后的响度信息、音高信息和内容信息输入所述采样层进行升采样,得到降采样前的响度信息、音高信息和内容信息,将所述降采样前的响度信息、音高信息和内容信息进行融合,得到所述人声数据加速处理后的采样点信息。
[0030]在可选的实施方式中,在所述音频数据包括噪声数据和静音数据的情况下,所述方法还包括还原得到噪声数据和静音数据的步骤,该步骤包括:
[0031]查找出噪声数据和静音数据的起始点和终止点的时间戳信息;
[0032]基于所述噪声数据的起始点和终止点的时间戳信息及预设噪声数据得到待还原噪声数据,基于所述静音数据的起始点和终止点的时间戳信息及预设静音数据得到待还原静音数据;
[0033]将所述待还原噪声数据重采样到设定采样率,还原得到噪声数据,将所述待还原静音数据重采样到设定采样率,还原得到静音数据。
[0034]第三方面,本专利技术实施例提供一种音频处理装置,包括:
[0035]信息获得模块,用于对待编码音频数据进行预处理,得到目标音频数据;对所述目标音频数据进行端点检测,获得所述目标音频数据中每种类型的音频数据的起始点和终止点;提取每种类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息;
[0036]信息处理模块,用于对所述目标音频数据中设定类型的音频数据的采样点信息进行加速处理;基于所述设定类型的音频数据加速处理后的采样点信息,其他类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息,提取得到内
容表征信息。
[0037]第四方面,本专利技术实施例提供一种音频处理装置,包括:
[0038]信息输入模块,用于将内容表征信息输入神经网络模型,所述内容表征信息表征有音频数据的采样点信息、起始点和终止点的时间戳信息;
[0039]信息还原模块,用于根据所述内容表征信息复原得到设定类型的音频数据加速处理后的采样点信息;对复原得到的采样点信息进行平滑、反归一化和重采样,得到待还原音频数据;根据所述设定类型的音频数据的起始点和终止点的时间戳信息,在时间轴上对所述待还原音频数据进行处理,还原得到原始音频数据。
[0040]第五方面,本专利技术提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前述实施方式任一项所述的音频处理方法。
[0041]第六方面,本专利技术提供一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,所述计算机程序运行时控制所述计算机可读存储介质所在电子设备执行前述实施方式任一项所述的音频处理方法。
[0042]本专利技术实施例的有益效果包括,例如:通过获得目标音频数据中每种类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息,并对设定类型的音频数据的采样点信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,其特征在于,包括:对待编码音频数据进行预处理,得到目标音频数据;对所述目标音频数据进行端点检测,获得所述目标音频数据中每种类型的音频数据的起始点和终止点;提取每种类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息;对所述目标音频数据中设定类型的音频数据的采样点信息进行加速处理;基于所述设定类型的音频数据加速处理后的采样点信息,其他类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息,提取得到内容表征信息。2.根据权利要求1所述的音频处理方法,其特征在于,所述提取得到内容表征信息的步骤,包括:调用神经网络模型,所述神经网络模型包括采样层、全连接层和循环神经网络;将所述设定类型的音频数据加速处理后的采样点信息、其他类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息输入所述采样层,对所述加速处理后的采样点信息进行信息抽取,获得响度信息、音高信息和内容信息,并对所述响度信息、音高信息和内容信息进行降采样,得到降采样后的响度信息、音高信息和内容信息;将降采样后的响度信息、音高信息和内容信息输入所述全连接层进行融合;将融合后的信息输入所述循环神经网络进行处理,得到内容表征信息。3.根据权利要求1所述的音频处理方法,其特征在于,所述音频数据的类型包括人声、噪声和静音,所述设定类型的音频数据为人声数据;所述人声数据的采样点信息为对所述人声数据的幅值的连续表达;静音数据的采样点信息为用于表征所述静音数据的设定数量个幅值;噪声数据的采样点信息为用于表征所述噪声数据的设定数量个幅值。4.根据权利要求1所述的音频处理方法,其特征在于,所述对待编码音频数据进行预处理,得到目标音频数据的步骤,包括:将待编码音频数据进行重采样;将重采样后的待编码音频数据进行降噪和去混响,得到目标音频数据。5.一种音频处理方法,其特征在于,包括:将内容表征信息输入神经网络模型,所述内容表征信息表征有音频数据的采样点信息、起始点和终止点的时间戳信息;根据所述内容表征信息复原得到设定类型的音频数据加速处理后的采样点信息;对复原得到的采样点信息进行平滑、反归一化和重采样,得到待还原音频数据;根据所述设定类型的音频数据的起始点和终止点的时间戳信息,在时间轴上对所述待还原音频数据进行处理,还原得到原始音频数据。6.根据权利要求5所述的音频处理方法,其特征在于,所述设定类型的音频数据包括人声数据,所述神经网络模型包括采样层、全连接层和循环神经网络,所述根据所述内容表征信息复原得到设定类型的音频数据加速处理后...

【专利技术属性】
技术研发人员:刘峰陀得意康世胤游于人
申请(专利权)人:广州虎牙科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1