音频数据的筛选方法、装置及系统制造方法及图纸

技术编号：35742594 阅读：19 留言：0更新日期：2022-11-26 18:46

本申请提供了一种音频数据的筛选方法、装置及系统，该方法包括：获取多个音频数据，并采用双向长短时记忆网络模型，对所有的音频数据进行处理，得到逐帧级别输出分数和最终质量分数；至少根据逐帧级别输出分数和最终质量分数，构建训练模型；采用训练模型，对所有音频数据进行筛选，确定出目标音频数据，目标音频数据为多个音频数据中至少一个。使得对音频数据的处理省去了人力的主观判断，从而降低了人力消耗，另外通过构建训练模型来对音频数据进行处理，从而提高了音频筛选的效率，进而解决了现有方案中音频筛选的效率较差问题。现有方案中音频筛选的效率较差问题。现有方案中音频筛选的效率较差问题。

全部详细技术资料下载

【技术实现步骤摘要】
音频数据的筛选方法、装置及系统

[0001]本申请涉及音频数据处理
，具体而言，涉及一种音频数据的筛选方法、装置、系统及计算机可读存储介质。

技术介绍

[0002]当前随着AI智能技术的发展，并且随着语音技术的高速发展，在不同行业中都出现了巨量的音频数据。但是音频质量参差不齐，需要大量的人员或平台进行人工鉴别，虽然现在有大量的音频质检功能，但是在超大数据量的情况下，依然面临着质检速度慢，效果一般的窘境。
[0003]针对大数据量的场景下，音频质量筛选速度非常慢，大概5亿左右的音频数据仅仅运行一次就需要大概一周左右的时间，如果判定音频质量的话，按照目前业内大部分的处理方法是需要通过主观判定的方法，也就是需要大量的人力去主观判断音频质量，这样花费的时间又要更长。

技术实现思路

[0004]本申请的主要目的在于提供一种音频数据的筛选方法、装置、系统及计算机可读存储介质，以解决现有方案中音频筛选的效率较差问题。
[0005]根据本专利技术实施例的一个方面，提供了一种音频数据的筛选方法，该方法包括：获取多个音频数据，并采用双向长短时记忆网络模型，对所有的所述音频数据进行处理，得到逐帧级别输出分数和最终质量分数，其中，所述最终质量分数和所述音频数据一一对应，其中，逐帧级别输出分数指的是对所述音频数据中的每帧分别进行预测的分数，最终质量分数指的是所述音频数据的整体进行预测的分数；至少根据所述逐帧级别输出分数和所述最终质量分数，构建训练模型；采用所述训练模型，对所有所述音频数据进行筛选，确定出目...

【技术保护点】

【技术特征摘要】
1.一种音频数据的筛选方法，其特征在于，包括：获取多个音频数据，并采用双向长短时记忆网络模型，对所有的所述音频数据进行处理，得到逐帧级别输出分数和最终质量分数，其中，所述最终质量分数和所述音频数据一一对应，其中，逐帧级别输出分数指的是对所述音频数据中的每帧分别进行预测的分数，最终质量分数指的是所述音频数据的整体进行预测的分数；至少根据所述逐帧级别输出分数和所述最终质量分数，构建训练模型；采用所述训练模型，对所有所述音频数据进行筛选，确定出目标音频数据，所述目标音频数据为多个所述音频数据中至少一个。2.根据权利要求1所述的方法，其特征在于，在采用双向长短时记忆网络模型，对所有所述音频数据进行处理，得到逐帧级别输出分数和最终质量分数之前，所述方法还包括：采用快速傅里叶变换算法对所有所述音频数据进行处理，提取与所述音频数据对应的频谱特征。3.根据权利要求1所述的方法，其特征在于，在至少根据所述逐帧级别输出分数和所述最终质量分数之前，所述方法还包括：调取预定数量的噪声中至少部分，以不同信噪比的形式加入到纯净语音数据集的纯净语音数据的随机位置上，得到混合音频数据，其中，所述噪声为第一预定音频数据，所述纯净语音数据集为第二预定音频数据的数据集；根据所述混合音频数据，确定主观语音质量评估评分。4.根据权利要求3所述的方法，其特征在于，至少根据所述逐帧级别输出分数和所述最终质量分数，构建训练模型，包括：根据所述最终质量分数和所述主观语音质量评估评分，确定整体均方误差；根据信噪比和所述逐帧级别输出分数，确定权值，其中，所述权值用于表征期望的预测结果；根据所述逐帧级别输出分数、所述信噪比和所述权值，确定逐帧级别均方误差，其中，所述信噪比为在以不同信噪比的形式加入到纯净语音数据集的纯净语音数据的随机位置上的情况下确定的；根据所述整体均方误差、所述逐帧级别均方误差、所述权值和所述混合音频数据，构建所述训练模型。5.根据权利要求4所述的方法，其特征在于，根据所述逐帧级...

【专利技术属性】
技术研发人员：许峰，鲁磊，唐雄飞，李健，陈明，武卫东，
申请(专利权)人：北京捷通华声科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人