一种开头爆音检测方法及装置制造方法及图纸

技术编号：24582885 阅读：32 留言：0更新日期：2020-06-21 01:22

本发明专利技术实施例公开了一种开头爆音检测方法及装置，该方法包括：对第一音频文件提取音频频域特征；获得预先训练好的目标检测模型；将第一音频文件的音频频域特征输入至目标检测模型，以检测第一音频文件是否存在开头爆音。实施本发明专利技术实施例，可以提高开头爆音检测的准确率。

A detection method and device of opening plosives

全部详细技术资料下载

【技术实现步骤摘要】
一种开头爆音检测方法及装置
本专利技术实施例涉及音频处理
，特别涉及一种开头爆音检测方法及装置。
技术介绍
目前各种音频文件在生成、传输和存储等过程中，音质容易受损，进而影响用户的听感。例如，在使用lame3.16版本的官方编码器对音频文件进行编码时，得到编码后的音频文件在播放时会出现开头爆音。开头爆音是指在音频文件在播放时前20秒左右的时间内，产生的声波在频率上存在明显的脉冲，给人听感像是短暂的噪声。当前，开头爆音可利用数字信号处理(digitalsignalprocessing，DSP)进行检测。具体的，DSP可将音频文件中每一帧信号的频率与预设的开头爆音阈值进行比较。当音频文件中存在大于开头爆音阈值的帧信号时，DSP确定该音频文件存在开头爆音。然而，对于不同的音频文件，开头爆音阈值不一定相同。根据相同的开头爆音阈值来判断不同音频文件是否存在开头爆音，容易误判开头爆音，从而降低了开头爆音检测的准确率。
技术实现思路
本专利技术实施例公开了一种开头爆音检测方法及装置，可以有效提高检...

【技术保护点】
1.一种开头爆音检测方法，其特征在于，包括：/n计算设备对第一音频文件提取音频频域特征；/n所述计算设备获得预先训练好的目标检测模型；所述目标检测模型由多个第二音频文件的音频频域特征训练完成；/n所述计算设备将所述第一音频文件的音频频域特征输入至所述目标检测模型，以检测所述第一音频文件是否存在开头爆音。/n

【技术特征摘要】
1.一种开头爆音检测方法，其特征在于，包括：
计算设备对第一音频文件提取音频频域特征；
所述计算设备获得预先训练好的目标检测模型；所述目标检测模型由多个第二音频文件的音频频域特征训练完成；
所述计算设备将所述第一音频文件的音频频域特征输入至所述目标检测模型，以检测所述第一音频文件是否存在开头爆音。

2.根据权利要求1所述的方法，其特征在于，所述目标检测模型包括：分类器、编码器和生成器；其中，所述编码器的输出作为所述生成器的输入、所述生成器的输出作为所述分类器的输入。

3.根据权利要求2所述的方法，其特征在于，所述计算设备将所述第一音频文件的音频频域特征输入至所述目标检测模型，以检测所述第一音频文件是否存在开头爆音，包括：
所述计算设备将所述第一音频文件的音频频域特征输入至所述目标检测模型中的编码器，并利用所述编码器和所述生成器得到第一特征；所述第一特征是所述第一音频文件的音频频域特征的掩码；
所述计算设备将所述第一特征与所述第一音频文件的音频频域特征之积输入至所述分类器，以得到检测结果；所述检测结果指示所述第一音频文件是否存在开头爆音。

4.根据权利要求2所述的方法，其特征在于，所述计算设备利用判别器训练所述目标检测模型，所述目标检测模型的训练过程包括：
所述计算设备将所述多个第二音频文件的音频频域特征输入至所述目标检测模型的编码器，并利用所述编码器和所述生成器得到第二特征；所述第二特征是所述多个第二音频文件的开头爆音的掩码；
所述计算设备获取第三特征和第一标签；所述第三特征指示所述多个第二音频文件的开头爆音的准确位置，所述第一标签指示所述多个第二音频文件是否存在开头爆音；
所述计算设备将所述第二特征和所述第三特征输入至所述判别器，并将所述第一标签输入至所述分类器；
所述计算设备利用所述判别器的输出和所述分类器的输出训练所述编码器和所述生成器；
所述计算设备利用所述第一标签和所述分类器的输出训练所述分类器。

5.根据权利要求4所述的方法，其特征在于，所述目标检测模型的训练过程包括：
所述计算设备检测所述编码器、所述生成器组成的网络和所述判别器是否达到纳什均衡；
若是，所述计算设备停止训...

【专利技术属性】
技术研发人员：张斌，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人