音频数据的筛选方法、装置及系统制造方法及图纸

技术编号:35742594 阅读:19 留言:0更新日期:2022-11-26 18:46
本申请提供了一种音频数据的筛选方法、装置及系统,该方法包括:获取多个音频数据,并采用双向长短时记忆网络模型,对所有的音频数据进行处理,得到逐帧级别输出分数和最终质量分数;至少根据逐帧级别输出分数和最终质量分数,构建训练模型;采用训练模型,对所有音频数据进行筛选,确定出目标音频数据,目标音频数据为多个音频数据中至少一个。使得对音频数据的处理省去了人力的主观判断,从而降低了人力消耗,另外通过构建训练模型来对音频数据进行处理,从而提高了音频筛选的效率,进而解决了现有方案中音频筛选的效率较差问题。现有方案中音频筛选的效率较差问题。现有方案中音频筛选的效率较差问题。

【技术实现步骤摘要】
音频数据的筛选方法、装置及系统


[0001]本申请涉及音频数据处理
,具体而言,涉及一种音频数据的筛选方法、装置、系统及计算机可读存储介质。

技术介绍

[0002]当前随着AI智能技术的发展,并且随着语音技术的高速发展,在不同行业中都出现了巨量的音频数据。但是音频质量参差不齐,需要大量的人员或平台进行人工鉴别,虽然现在有大量的音频质检功能,但是在超大数据量的情况下,依然面临着质检速度慢,效果一般的窘境。
[0003]针对大数据量的场景下,音频质量筛选速度非常慢,大概5亿左右的音频数据仅仅运行一次就需要大概一周左右的时间,如果判定音频质量的话,按照目前业内大部分的处理方法是需要通过主观判定的方法,也就是需要大量的人力去主观判断音频质量,这样花费的时间又要更长。

技术实现思路

[0004]本申请的主要目的在于提供一种音频数据的筛选方法、装置、系统及计算机可读存储介质,以解决现有方案中音频筛选的效率较差问题。
[0005]根据本专利技术实施例的一个方面,提供了一种音频数据的筛选方法,该方法包括:获取多个音频数据,并采用双向长短时记忆网络模型,对所有的所述音频数据进行处理,得到逐帧级别输出分数和最终质量分数,其中,所述最终质量分数和所述音频数据一一对应,其中,逐帧级别输出分数指的是对所述音频数据中的每帧分别进行预测的分数,最终质量分数指的是所述音频数据的整体进行预测的分数;至少根据所述逐帧级别输出分数和所述最终质量分数,构建训练模型;采用所述训练模型,对所有所述音频数据进行筛选,确定出目标音频数据,所述目标音频数据为多个所述音频数据中至少一个。
[0006]可选地,在采用双向长短时记忆网络模型,对所有所述音频数据进行处理,得到逐帧级别输出分数和最终质量分数之前,所述方法还包括:采用快速傅里叶变换算法对所有所述音频数据进行处理,提取与所述音频数据对应的频谱特征。
[0007]可选地,在至少根据所述逐帧级别输出分数和所述最终质量分数之前,所述方法还包括:调取预定数量的噪声中至少部分,以不同信噪比的形式加入到纯净语音数据集的纯净语音数据的随机位置上,得到混合音频数据,其中,所述噪声为第一预定音频数据,所述纯净语音数据集为第二预定音频数据的数据集;根据所述混合音频数据,确定主观语音质量评估评分。
[0008]可选地,至少根据所述逐帧级别输出分数和所述最终质量分数,构建训练模型包括:根据所述最终质量分数和所述主观语音质量评估评分,确定整体均方误差;根据信噪比和所述逐帧级别输出分数,确定权值,其中,所述权值用于表征期望的预测结果;根据所述逐帧级别输出分数、所述信噪比和所述权值,确定逐帧级别均方误差,其中,所述信噪比为
在以不同信噪比的形式加入到纯净语音数据集的纯净语音数据的随机位置上的情况下确定的;根据所述整体均方误差、所述逐帧级别均方误差、所述权值和所述混合音频数据,构建所述训练模型。
[0009]可选地,根据所述逐帧级别输出分数、所述信噪比和所述权值,确定逐帧级别均方误差包括:根据所述权值和所述逐帧级别输出分数,确定目标逐帧级别输出分数,其中,所述目标逐帧级别输出分数为所述逐帧级别输出分数中与所述权值最接近的分数;根据所述目标逐帧级别输出分数和所述信噪比,确定逐帧级别均方误差。
[0010]可选地,根据信噪比和所述逐帧级别输出分数,确定权值,包括:根据公式确定所述权值,其中,sq_npr为所述信噪比,y_wts为所述逐帧级别输出分数,w为所述权值。
[0011]可选地,采用双向长短时记忆网络模型,对所有所述音频数据进行处理,得到逐帧级别输出分数和最终质量分数包括:采用双向长短时记忆网络模型,对所有的所述频谱特征进行处理,得到逐帧级别输出分数和最终质量分数。
[0012]根据本专利技术实施例的另一方面,还提供了一种音频数据的筛选装置,该装置包括获取单元、构建单元和筛选单元,获取单元用于获取多个音频数据,并采用双向长短时记忆网络模型,对所有的所述音频数据进行处理,得到逐帧级别输出分数和最终质量分数,其中,所述最终质量分数和所述音频数据一一对应,其中,逐帧级别输出分数指的是对所述音频数据中的每帧分别进行预测的分数,最终质量分数指的是所述音频数据的整体进行预测的分数;构建单元用于至少根据所述逐帧级别输出分数和所述最终质量分数,构建训练模型;筛选单元用于采用所述训练模型,对所有所述音频数据进行筛选,确定出目标音频数据,所述目标音频数据为多个所述音频数据中至少一个。
[0013]根据本专利技术实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,所述程序执行任意一种所述的音频数据的筛选方法
[0014]根据本专利技术实施例的另一方面,还提供了一种音频数据的筛选系统,音频数据的筛选系统包括一个或多个处理器,存储器以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行任意一种所述的音频数据的筛选方法。
[0015]在本专利技术实施例中,通过采用双向长短时记忆网络模型,对所有的所述音频数据进行处理,得到逐帧级别输出分数和最终质量分数,再至少根据所述逐帧级别输出分数和所述最终质量分数,构建训练模型,最后采用所述训练模型,对所有所述音频数据进行筛选,确定出目标音频数据,所述目标音频数据为多个所述音频数据中至少一个,使得对音频数据的处理省去了人力的主观判断,从而降低了人力消耗,另外通过构建训练模型来对音频数据进行处理,从而提高了音频筛选的效率,进而解决了现有方案中音频筛选的效率较差问题。
附图说明
[0016]构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0017]图1示出了根据本申请实施例的音频数据的筛选方法的流程图;
[0018]图2示出了根据本申请实施例的音频数据的筛选装置的示意图;
[0019]图3示出了根据本申请实施例的音频数据的筛选方案的流程图。
具体实施方式
[0020]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0021]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0022]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频数据的筛选方法,其特征在于,包括:获取多个音频数据,并采用双向长短时记忆网络模型,对所有的所述音频数据进行处理,得到逐帧级别输出分数和最终质量分数,其中,所述最终质量分数和所述音频数据一一对应,其中,逐帧级别输出分数指的是对所述音频数据中的每帧分别进行预测的分数,最终质量分数指的是所述音频数据的整体进行预测的分数;至少根据所述逐帧级别输出分数和所述最终质量分数,构建训练模型;采用所述训练模型,对所有所述音频数据进行筛选,确定出目标音频数据,所述目标音频数据为多个所述音频数据中至少一个。2.根据权利要求1所述的方法,其特征在于,在采用双向长短时记忆网络模型,对所有所述音频数据进行处理,得到逐帧级别输出分数和最终质量分数之前,所述方法还包括:采用快速傅里叶变换算法对所有所述音频数据进行处理,提取与所述音频数据对应的频谱特征。3.根据权利要求1所述的方法,其特征在于,在至少根据所述逐帧级别输出分数和所述最终质量分数之前,所述方法还包括:调取预定数量的噪声中至少部分,以不同信噪比的形式加入到纯净语音数据集的纯净语音数据的随机位置上,得到混合音频数据,其中,所述噪声为第一预定音频数据,所述纯净语音数据集为第二预定音频数据的数据集;根据所述混合音频数据,确定主观语音质量评估评分。4.根据权利要求3所述的方法,其特征在于,至少根据所述逐帧级别输出分数和所述最终质量分数,构建训练模型,包括:根据所述最终质量分数和所述主观语音质量评估评分,确定整体均方误差;根据信噪比和所述逐帧级别输出分数,确定权值,其中,所述权值用于表征期望的预测结果;根据所述逐帧级别输出分数、所述信噪比和所述权值,确定逐帧级别均方误差,其中,所述信噪比为在以不同信噪比的形式加入到纯净语音数据集的纯净语音数据的随机位置上的情况下确定的;根据所述整体均方误差、所述逐帧级别均方误差、所述权值和所述混合音频数据,构建所述训练模型。5.根据权利要求4所述的方法,其特征在于,根据所述逐帧级...

【专利技术属性】
技术研发人员:许峰鲁磊唐雄飞李健陈明武卫东
申请(专利权)人:北京捷通华声科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1