一种模切机音频感兴趣区域定位方法、装置、设备及介质制造方法及图纸

技术编号：38851224 阅读：16 留言：0更新日期：2023-09-17 09:59

本申请提供一种模切机音频感兴趣区域定位方法、装置、设备及存储介质，方法包括：获取模切机的切割音频；根据高幅值窗口占总窗口的比例确定音频分割间隔S；对切割音频进行分割，得到多段子切割音频；基于梅尔频谱分析，将每一段所述子切割音频转化为梅尔频谱图；基于预先训练的ViT深度学习模型进行模切机切割动作预识别，时间扩展后进行模切机切割动作二次识别，得到包含完整切割动作的扩展子切割音频；然后进行基于阈值分割的感兴趣区域定位。本申请采用基于ViT的深度学习识别与阈值分割相结合的ROI提取方法，增加预识别步骤以提高方法对噪声及环境声的鲁棒性，能够适应不同工作频率的模切机设备，提高了模切机切割音频ROI提取的准确性和效率。取的准确性和效率。取的准确性和效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种模切机音频感兴趣区域定位方法、装置、设备及介质

[0001]本申请涉及音频识别
，具体涉及一种模切机音频感兴趣区域定位方法、装置、电子设备及存储介质。

技术介绍

[0002]在工业设备音频识别领域，对模切机音频切割动作的感兴趣区域（Region Of Interset，ROI）定位具有重要意义，例如模切机的自动化运行监测。
[0003]然而，现有的音频定位方法存在一些局限性，基于阈值分割的传统方法鲁棒性较差，难以适应复杂环境下的噪声干扰，而基于深度学习的语义分割方法泛化性能有限，无法适应不同设备的ROI定位需求。因此，需要一种高效准确的模切机切割音频ROI定位方法，以提高ROI定位的效率和准确性。

技术实现思路

[0004]本申请的目的是提供一种模切机音频感兴趣区域定位方法、装置、电子设备及存储介质，能够提高模切机音频感兴趣区域定位的效率和准确性。
[0005]第一方面，本申请实施例提供了一种模切机音频感兴趣区域定位方法，包括：获取模切机的切割音频；统计所述切割音频中第一预设时长窗口内的平均幅值，根据高幅值窗口占总窗口的比例确定音频分割间隔S；其中，所述高幅值窗口是指平均幅值大于第一预设值的第一预设时长窗口；根据所述音频分割间隔S对所述切割音频进行分割，得到多段子切割音频；基于梅尔频谱分析，将每一段所述子切割音频转化为梅尔频谱图；将每一段所述子切割音频对应的梅尔频谱图输入预先训练的ViT深度学习模型进行模切机切割动作预识别，得到无切割动作、完整切割动作、包含前半部分切割动作...

【技术保护点】

【技术特征摘要】
1.一种模切机音频感兴趣区域定位方法，其特征在于，包括：获取模切机的切割音频；统计所述切割音频中第一预设时长窗口内的平均幅值，根据高幅值窗口占总窗口的比例确定音频分割间隔S；其中，所述高幅值窗口是指平均幅值大于第一预设值的第一预设时长窗口；根据所述音频分割间隔S对所述切割音频进行分割，得到多段子切割音频；基于梅尔频谱分析，将每一段所述子切割音频转化为梅尔频谱图；将每一段所述子切割音频对应的梅尔频谱图输入预先训练的ViT深度学习模型进行模切机切割动作预识别，得到无切割动作、完整切割动作、包含前半部分切割动作及包含后半部分切割动作四个类别的子切割音频；对包含完整切割动作、前半部分切割动作及后半部分切割动作的子切割音频进行时间扩展，得到扩展子切割音频；将每一段所述扩展子切割音频对应的梅尔频谱图输入预先训练的所述ViT深度学习模型进行模切机切割动作二次识别，得到包含完整切割动作的扩展子切割音频；对于包含完整切割动作的扩展子切割音频，将每一段音频中第一和最后一个幅值大于预设阈值的时刻作为该扩展子切割音频内模切机切割动作的起止时刻；以所述音频分割间隔S过滤所述切割音频中间隔较短的模切机切割动作的起止时刻，以实现感兴趣区域定位。2.根据权利要求1所述的方法，其特征在于，所述根据高幅值窗口占总窗口的比例确定音频分割间隔S，包括：确定所述切割音频中高幅值窗口占总窗口的比例为目标比例；将所述目标比例和所述切割音频的总时长的乘积作为音频分割间隔S。3.根据权利要求1所述的方法，其特征在于，所述对包含完整切割动作、前半部分切割动作及后半部分切割动作的子切割音频进行时间扩展，包括：对包含前半部分切割动作的子切割音频进行后S/2的时间扩展；对包含后半部分切割动作的子切割音频进行前S/2的时间扩展；对包含完整切割动作的子切割音频进行前S/2的时间扩展，或者进行后S/2的时间扩展。4.根据权利要求1所述的方法，其特征在于，所述对于包含完整切割动作的扩展子切割音频，将每一段音频中第一和最后一个幅值大于预设阈值的时刻作为该扩展子切割音频内模切机切割动作的起止时刻，包括：针对包含完整切割动作的扩展子切割音频，以预设比例的所述音频分割间隔S为第二预设时长窗口；计算所述第二预设时长窗口内音频的平均幅值，将每一段包含完整切割动作的扩展子切割音频中第一和最后一个平均幅值大于预设阈值的窗口时刻作为该扩展子切割音频内模切机切割动作的起止时刻。5.一种模切机音频感兴趣区域定位装置，其特征在于，包括：获取模块，用于获取模切机的切割音频；间隔确定模块，用于统计所述切割音频中第...

【专利技术属性】
技术研发人员：梁磊，瞿千上，庄焰，谭熠，朴永焕，
申请(专利权)人：硕橙厦门科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人