当前位置: 首页 > 专利查询>山东大学专利>正文

一种针对wav音频的分贝、回声、底噪及啸叫检测方法技术

技术编号:39246015 阅读:9 留言:0更新日期:2023-10-30 11:58
本发明专利技术涉及一种针对wav音频的分贝、回声、底噪及啸叫检测方法,属于数字音频信号处理领域。包括:对当前环境无异常音频提取其环境标准值;采集wav音频信号并提取其关键信息;对获取的单声道音频数据进行分贝检测;对单声道音频数据进行自相关运算实现回声检测;对单声道音频数据进行快速傅里叶运算实现底噪检测;对单声道音频数据进行单频啸叫检测;通过判断获取的单声道音频数据是否有削顶现象来进行饱和啸叫检测;输出异常音频检测结果并循环检测。本发明专利技术针对wav音频的异常音频检测提出了一种新的方法,使其应用范围更广,实时性相对较高,能够实现音频异常信号的快速识别与检测,更好帮助有关工作人员进行音频设备的维护和管理。和管理。和管理。

【技术实现步骤摘要】
一种针对wav音频的分贝、回声、底噪及啸叫检测方法


[0001]本专利技术提供一种针对wav音频的分贝、回声、底噪及啸叫检测方法,属于数字音频信号处理


技术介绍

[0002]音频信号在现代生活中具有非常重要的作用,它们对我们的娱乐、工作和交流都产生了影响。近年来,随着数字技术、音频技术和智能硬件的持续发展,音频质量成为人们关注的问题,声音信号分析和检测的需求不断增加,音频质量检测的实时性和准确性的重要性不言而喻。无论是在教室、会议室、礼堂等各种场景下,为确保人们沟通的准确度及清晰度,及时检测不同场景下的音频质量并实时调整音频设备成为了关键。随着信息处理技术的不断发展,主观评估的音频质量评估方式逐渐被取代,由于扩声系统复杂、影响声音效果的环节多、人耳对音质比较敏感等原因,对音频信号质量检测和维护一直是困扰工程技术人员的难题。因此亟需一种检测异常音频的方法,以实现音频异常信号的快速识别与检测,更好帮助有关工作人员进行音频设备的维护和管理。
[0003]分贝是一种衡量音频强度的指标,世界卫生组织已规定音频的强度超过80分贝将对人体购成危害;各种场景下的啸叫、回声和底噪是声音信号易出现的三个主要问题,均会影响人们的听觉体验。因此,分贝、回声、底噪和啸叫检测成为了声音信号处理中衡量音频质量必不可少的重要检测指标。

技术实现思路

[0004]为克服现有技术中存在的不足,本专利技术提出了一种针对wav音频的分贝、回声、底噪及啸叫检测方法,以实现音频异常信号的快速识别与检测,更好帮助有关工作人员进行音频设备的维护和管理。
[0005]术语解释:
[0006]1、wav:wav是最常见的声音文件格式之一,是微软公司开发的一种标准数字音频文件,该文件能记录各种单声道或立体声的声音信息,并能保证声音不失真,能够支持多种音频位数、采样频率和声道。
[0007]2、回声:回声定义为产生于已知的信号的所接收的信号的分量。回声按其来源一共分为两类,第一类称为直接回声,近端扬声器将语音信号播放出来后,被近端麦克风直接采集后得到的回声;直接回声不受环境的影响,与扬声器到麦克风的距离及位置有很大的关系。第二类回声被称为间接回声,近端扬声器将语音信号播放出来后,语音信号经过复杂多变的墙面反射后由近端麦克风采集。
[0008]3、啸叫:啸叫信号的产生是指在一定环境下,麦克风实时捕获当前人说话的语音信号并进行声电转换处理,然后通过扬声器将其放大并在同一环境下回放,扬声器的声音不可避免反馈到麦克风,形成了一个闭环回路,信号在声反馈回路中不断叠加放大,形成正反馈产生振荡,这个振荡在声学系统中表现为啸叫。啸叫信号分为两类,第一类为单频啸叫
信号,即不包含语音的单频振荡产生的啸叫,该信号是一稳定正弦波,频率单一。第二类为饱和啸叫信号,是在说话语音产生过程中,叠加了闭环回路的自激振荡信号,当信号的电平达到功放最大输出电平时,幅度值达到最大,波形将出现严重的削顶现象。
[0009]本专利技术的技术方案为:
[0010]一种针对wav音频的分贝、回声、底噪及啸叫检测方法,通过采用自相关、FFT及短时能量运算有效的提取了音频信号的时域及频域特征,通过不同环境下的标准值调整得到的当前环境阈值来比对待测音频,从而得到音频异常检测结果,在不同场景下,需要人为的采集几组无异常音频数据,从中提取出当前环境下的环境标准值,通常分贝标准值低于85db、自相关标准值范围为0至0.05、频域幅度标准值范围为0V至4000V、短时能量标准值范围为0J至250J,包括分贝标准值、自相关标准值、频域幅度标准值、短时能量标准值,将其保存到相应的变量中。
[0011]包括如下步骤:
[0012]步骤1:通过音频采集设备获取4至10秒的wav音频,分析wav音频文件获取文件头位置、采样频率、声道数目、位数信息,获取其采样点幅度,放入音频幅度数组中,用于后续计算;
[0013]步骤2:通过对获取的音频幅度数组进行计算,将采样点幅度的绝对值除以声音振幅最大值,并进行对数运算,获取每个采样点的分贝值,若连续多个采样点分贝值大于分贝阈值,则判定环境分贝过高;
[0014]步骤3:通过对获取的音频幅度数组进行自相关运算,设置自相关阈值和距离阈值,通过得到的归一化后的自相关运算结果与自相关阈值循环比对,获得第一次大于自相关阈值的位置,并计算该位置与自相关数组中点位置的距离,如果该距离高于距离阈值,则判定当前环境有回声;
[0015]步骤4:通过对获取的音频幅度数组进行FFT运算,并将FFT结果取前一半并做绝对值计算,设置低频段频域幅度阈值,若FFT绝对值结果在低频范围区间大于低频段频域幅度阈值,则判断当前环境有底噪;
[0016]步骤5:设置一个高频域幅度阈值,通过步骤4的FFT绝对值结果与该阈值进行比对,若存在频域幅度大于该阈值,则判断当前环境存在单频啸叫;
[0017]步骤6:对步骤1获取的单声道音频数据进行分帧,并计算每帧的短时能量,设置一个短时能量阈值,若连续多个帧的短时能量大于该短时能量阈值,则该段音频出现严重的削顶现象,判定当前环境存在饱和啸叫;
[0018]步骤7:将步骤2、3、4、5、6结果输出显示,并每5s循环一次检测。
[0019]优选的,步骤1具体实现步骤包括:
[0020]步骤1.1:通过音频采集设备获取5秒的wav音频文件作为异常检测输入,即音频采集设备采集音频数据,每5秒送入检测模块中,不断循环检测;
[0021]通过音频采集设备获取wav音频,通常音频采集周期为4到10秒,其中实时性与采集时间长度变化趋势相反,准确率与采集时间长度变化趋势相同,为了同时兼顾实时性和准确率本专利技术优选采用5秒wav音频作为输入。音频采集设备采集音频数据,每5秒送入检测模块中,不断循环检测。
[0022]步骤1.2:对获取的wav音频文件进行遍历,根据wav音频的封装结构,查找四个字
节的ChunkID段落标识位,将每个字节根据ASCII码表进行转换,若转换结果等于RIFF(ASCII码表对应的十进制数为52 49 46 46),则此处为该wav文件的文件头;根据此文件头向后查找第19和第20个字节为NumChannels段落标识位,表示声道数目;第21至第24字节SampleRate段落标识位,表示采样频率f
s
,即每秒有多少个采样点;第31和第32字节为BitsPerSample段落标识位,表示采样位数,通常为16个bit;第40个字节以后为音频的采样点幅度值;
[0023]步骤1.3:将上一步获取的信息分别保存到变量和数组中;
[0024]通常wav音频的采样频率f
s
=44100Hz、采样位数为16bit(2个字节)、采样点幅度范围为

32768~32767、声道数为单声道或者多声道,若声道数为多声道即两列数组,取其第一列转为单声道音频数据,数据长度记为N。
[0025]优选本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对wav音频的分贝、回声、底噪及啸叫检测方法,其特征在于,包括如下步骤:步骤1:通过音频采集设备获取4至10秒的wav音频,分析wav音频文件获取文件头位置、采样频率、声道数目、位数信息,获取其采样点幅度,放入音频幅度数组中,用于后续计算;步骤2:通过对获取的音频幅度数组进行计算,将采样点幅度的绝对值除以声音振幅最大值,并进行对数运算,获取每个采样点的分贝值,若连续多个采样点分贝值大于分贝阈值,则判定环境分贝过高;步骤3:通过对获取的音频幅度数组进行自相关运算,设置自相关阈值和距离阈值,通过得到的归一化后的自相关运算结果与自相关阈值循环比对,获得第一次大于自相关阈值的位置,并计算该位置与自相关数组中点位置的距离,如果该距离高于距离阈值,则判定当前环境有回声;步骤4:通过对获取的音频幅度数组进行FFT运算,并将FFT结果取前一半并做绝对值计算,设置低频段频域幅度阈值,若FFT绝对值结果在低频范围区间大于低频段频域幅度阈值,则判断当前环境有底噪;步骤5:设置一个高频域幅度阈值,通过步骤4的FFT绝对值结果与该阈值进行比对,若存在频域幅度大于该阈值,则判断当前环境存在单频啸叫;步骤6:对步骤1获取的单声道音频数据进行分帧,并计算每帧的短时能量,设置一个短时能量阈值,若连续多个帧的短时能量大于该短时能量阈值,则该段音频出现严重的削顶现象,判定当前环境存在饱和啸叫;步骤7:将步骤2、3、4、5、6结果输出显示,并每4~10秒循环一次检测。2.根据权利要求1所述的针对wav音频的分贝、回声、底噪及啸叫检测方法,其特征在于,步骤1具体实现步骤包括:步骤1.1:通过音频采集设备获取5秒的wav音频文件作为异常检测输入;步骤1.2:对获取的wav音频文件进行遍历,查找四个字节的ChunkID段落标识位,将每个字节根据ASCII码表进行转换,若转换结果等于RIFF,则此处为该wav文件的文件头;根据此文件头向后查找第19和第20个字节为NumChannels段落标识位,表示声道数目;第21至第24字节为SampleRate段落标识位,表示采样频率f
s
,即每秒有多少个采样点;第31和第32字节为BitsPerSample段落标识位,表示采样位数,为16个bit;第40个字节以后为音频的采样点幅度值;步骤1.3:将上一步获取的信息分别保存到变量和数组中。3.根据权利要求1所述的针对wav音频的分贝、回声、底噪及啸叫检测方法,其特征在于,步骤2的具体实现步骤包括:步骤2.1:设定分贝阈值;步骤2.2:对获取的wav音频文件的采样点幅度进行分贝计算,将采样点幅度即2个字节的二进制转为有符号十进制结果并取绝对值记为|Prms(n)|,分贝计算公式如下:其中,LP(n)为分贝值,对于位深为16bit的wav音频,其声音振幅最大值Pref=32768;步骤2.3:将步骤2.2计算得到的分贝值比对分贝阈值,若连续50个采样点均大于该分贝阈值,则判断环境分贝过高。
4.根据权利要求1所述的针对wav音频的分贝、回声、底噪及啸叫检测方法,其特征在于,步骤3的具体实现步骤包括:步骤3.1:对同一场景下的无异常wav音频进行自相关运算,在当前环境下设定一个自相关阈值R0;步骤3.2:设置距离阈值D0,该距离阈值与可以检测到的最小回声延时时间τ0成正比,表示此方法检测回声灵敏度,计算公式如下:τ0=D0/f
s
其中,f
s
表示采样频率,根据需求选择想要达到的回声检测灵敏度,根据距离阈值与τ0的计算公式,求得D0的取值范围,确定D0的取值;步骤3.3:对获取的音频幅度数组进行自相关运算,得到归一化后的自相关运算结果R(m),其计算过程为:对长度为N的单声道音频数据进行自相关运算,离散序列自相关计算公式如下:其中R
x,x
(m)为自相关运算结果,x(n)为第n点的wav音频采样点幅度,m为自相关运算...

【专利技术属性】
技术研发人员:马丕明于东峻张文胜
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1