一种工业现场高频声音识别方法和存储介质技术

技术编号:46115864 阅读:8 留言:0更新日期:2025-08-15 19:52
本申请涉及声音识别领域,尤其涉及一种工业现场高频声音识别方法和存储介质。方法包括:对工业现场声音信号使用双分支窗口进行短时傅里叶变换得到双分支谱图;对双分支谱图进行通道堆叠得到三维张量;对提取到的特征进行分类计算后,分类头输出包含目标音、环境音和强噪音这三个维度的概率评分的评分向量;对概率评分使用温度系数进行软化,并将软化后的概率评分输入分类函数以得到概率分布;计算能量分数,当能量分数低于预设的能量阈值时,计算衰减系数以对概率分布进行缩放抑制,得到最终概率分布,判定最终概率分布中最高值是否低于拒识阈值,得到识别结果。本申请的方法在工业实测中大幅提升了故障音的检出率,显著降低了误报率。

【技术实现步骤摘要】

本申请涉及声音识别领域,尤其涉及一种工业现场高频声音识别方法和存储介质


技术介绍

1、工业场景中的音频检测任务通常面临高频短时瞬态声学信号的识别与分析,如接插件的插拔声音、零部件之间的碰撞声音以及设备运行时机械碰撞产生的声音。这些声音事件在频谱上呈现出明显的特征,即具有短暂的峰值持续时间和频率广泛分布的特点。

2、常见的语音识别包括梅尔频谱图或线性频谱图,梅尔频谱图对高频区域进行了压缩处理,使得频率大于6khz的部分在特征图中所占比重较低,难以有效表征。而在工业场景中,许多关键事件,如线束接插、金属撞击、塑料断裂,往往集中于6khz~20khz的高频范围内,部分特征甚至可能高于15khz。

3、因此,在工业场景中更优的选择是采用线性频谱图,不做频率压缩,完整保留了音频在高频区段的分布信息,以确保模型能对工业事件中的高频特征具备更强的敏感度与辨识能力。在进行线性短时傅里叶时,已知线性短时傅里叶变换的公式:

4、,

5、其中,表示信号经线性短时傅里叶变换后,在时间索引(对应窗的位置)、频率索引(对应频率点 )处本文档来自技高网...

【技术保护点】

1.一种工业现场高频声音识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述高时间分辨率分支窗口为窗长256采样点、帧移32采样点的采样窗口,所述高频率分辨率分支窗口为窗长4096采样点、帧移32采样点的采样窗口;

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述对从所述三维张量提取到的特征进行分类计算包括:

5.根据权利要求1所述的方法,其特征在于,所述温度系数为大于1的常数;

6.根据权利要求1所述的方法,其特征在于,所述根据所有的软化...

【技术特征摘要】

1.一种工业现场高频声音识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述高时间分辨率分支窗口为窗长256采样点、帧移32采样点的采样窗口,所述高频率分辨率分支窗口为窗长4096采样点、帧移32采样点的采样窗口;

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述对从所述三维张量提取到的特征进行分类计算包括:

5.根据权利要求1所述的方法,其特征在于,所述温度系数为大于1的常数;

6.根据权利要求1所述的方法,其特征在于,所述根据所有的软化后的概率评分计算能量分数的方法为:

...

【专利技术属性】
技术研发人员:李佳栋张丞源
申请(专利权)人:上海三同自动化技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1