【技术实现步骤摘要】
本申请涉及声音识别领域,尤其涉及一种工业现场高频声音识别方法和存储介质。
技术介绍
1、工业场景中的音频检测任务通常面临高频短时瞬态声学信号的识别与分析,如接插件的插拔声音、零部件之间的碰撞声音以及设备运行时机械碰撞产生的声音。这些声音事件在频谱上呈现出明显的特征,即具有短暂的峰值持续时间和频率广泛分布的特点。
2、常见的语音识别包括梅尔频谱图或线性频谱图,梅尔频谱图对高频区域进行了压缩处理,使得频率大于6khz的部分在特征图中所占比重较低,难以有效表征。而在工业场景中,许多关键事件,如线束接插、金属撞击、塑料断裂,往往集中于6khz~20khz的高频范围内,部分特征甚至可能高于15khz。
3、因此,在工业场景中更优的选择是采用线性频谱图,不做频率压缩,完整保留了音频在高频区段的分布信息,以确保模型能对工业事件中的高频特征具备更强的敏感度与辨识能力。在进行线性短时傅里叶时,已知线性短时傅里叶变换的公式:
4、,
5、其中,表示信号经线性短时傅里叶变换后,在时间索引(对应窗的位置)、频率索
...【技术保护点】
1.一种工业现场高频声音识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述高时间分辨率分支窗口为窗长256采样点、帧移32采样点的采样窗口,所述高频率分辨率分支窗口为窗长4096采样点、帧移32采样点的采样窗口;
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
4.根据权利要求1所述的方法,其特征在于,所述对从所述三维张量提取到的特征进行分类计算包括:
5.根据权利要求1所述的方法,其特征在于,所述温度系数为大于1的常数;
6.根据权利要求1所述的方法,其特征在于
...【技术特征摘要】
1.一种工业现场高频声音识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述高时间分辨率分支窗口为窗长256采样点、帧移32采样点的采样窗口,所述高频率分辨率分支窗口为窗长4096采样点、帧移32采样点的采样窗口;
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
4.根据权利要求1所述的方法,其特征在于,所述对从所述三维张量提取到的特征进行分类计算包括:
5.根据权利要求1所述的方法,其特征在于,所述温度系数为大于1的常数;
6.根据权利要求1所述的方法,其特征在于,所述根据所有的软化后的概率评分计算能量分数的方法为:
...【专利技术属性】
技术研发人员:李佳栋,张丞源,
申请(专利权)人:上海三同自动化技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。