一种模切机音频感兴趣区域定位方法、装置、设备及介质制造方法及图纸

技术编号:38851224 阅读:16 留言:0更新日期:2023-09-17 09:59
本申请提供一种模切机音频感兴趣区域定位方法、装置、设备及存储介质,方法包括:获取模切机的切割音频;根据高幅值窗口占总窗口的比例确定音频分割间隔S;对切割音频进行分割,得到多段子切割音频;基于梅尔频谱分析,将每一段所述子切割音频转化为梅尔频谱图;基于预先训练的ViT深度学习模型进行模切机切割动作预识别,时间扩展后进行模切机切割动作二次识别,得到包含完整切割动作的扩展子切割音频;然后进行基于阈值分割的感兴趣区域定位。本申请采用基于ViT的深度学习识别与阈值分割相结合的ROI提取方法,增加预识别步骤以提高方法对噪声及环境声的鲁棒性,能够适应不同工作频率的模切机设备,提高了模切机切割音频ROI提取的准确性和效率。取的准确性和效率。取的准确性和效率。

【技术实现步骤摘要】
一种模切机音频感兴趣区域定位方法、装置、设备及介质


[0001]本申请涉及音频识别
,具体涉及一种模切机音频感兴趣区域定位方法、装置、电子设备及存储介质。

技术介绍

[0002]在工业设备音频识别领域,对模切机音频切割动作的感兴趣区域(Region Of Interset,ROI)定位具有重要意义,例如模切机的自动化运行监测。
[0003]然而,现有的音频定位方法存在一些局限性,基于阈值分割的传统方法鲁棒性较差,难以适应复杂环境下的噪声干扰,而基于深度学习的语义分割方法泛化性能有限,无法适应不同设备的ROI定位需求。因此,需要一种高效准确的模切机切割音频ROI定位方法,以提高ROI定位的效率和准确性。

技术实现思路

[0004]本申请的目的是提供一种模切机音频感兴趣区域定位方法、装置、电子设备及存储介质,能够提高模切机音频感兴趣区域定位的效率和准确性。
[0005]第一方面,本申请实施例提供了 一种模切机音频感兴趣区域定位方法,包括:获取模切机的切割音频;统计所述切割音频中第一预设时长窗口内的平均幅值,根据高幅值窗口占总窗口的比例确定音频分割间隔S;其中,所述高幅值窗口是指平均幅值大于第一预设值的第一预设时长窗口;根据所述音频分割间隔S对所述切割音频进行分割,得到多段子切割音频;基于梅尔频谱分析,将每一段所述子切割音频转化为梅尔频谱图;将每一段所述子切割音频对应的梅尔频谱图输入预先训练的ViT深度学习模型进行模切机切割动作预识别,得到无切割动作、完整切割动作、包含前半部分切割动作及包含后半部分切割动作四个类别的子切割音频;对包含完整切割动作、前半部分切割动作及后半部分切割动作的子切割音频进行时间扩展,得到扩展子切割音频;将每一段所述扩展子切割音频对应的梅尔频谱图输入预先训练的所述ViT深度学习模型进行模切机切割动作二次识别,得到包含完整切割动作的扩展子切割音频;对于包含完整切割动作的扩展子切割音频,将每一段音频中第一和最后一个幅值大于预设阈值的时刻作为该扩展子切割音频内模切机切割动作的起止时刻;以所述音频分割间隔S过滤所述切割音频中间隔较短的模切机切割动作的起止时刻,以实现感兴趣区域定位。
[0006]第二方面,本申请实施例提供了 一种模切机音频感兴趣区域定位装置,包括:获取模块,用于获取模切机的切割音频;间隔确定模块,用于统计所述切割音频中第一预设时长窗口内的平均幅值,根据
高幅值窗口占总窗口的比例确定音频分割间隔S;其中,所述高幅值窗口是指平均幅值大于第一预设值的第一预设时长窗口;分割模块,用于根据所述音频分割间隔S对所述切割音频进行分割,得到多段子切割音频;梅尔频谱模块,用于基于梅尔频谱分析,将每一段所述子切割音频转化为梅尔频谱图;预识别模块,用于将每一段所述子切割音频对应的梅尔频谱图输入预先训练的ViT深度学习模型进行模切机切割动作预识别,得到无切割动作、完整切割动作、包含前半部分切割动作及包含后半部分切割动作四个类别的子切割音频;时间扩展模块,用于对包含完整切割动作、前半部分切割动作及后半部分切割动作的子切割音频进行时间扩展,得到扩展子切割音频;二次识别模块,用于将每一段所述扩展子切割音频对应的梅尔频谱图输入预先训练的所述ViT深度学习模型进行模切机切割动作二次识别,得到包含完整切割动作的扩展子切割音频;定位模块,用于对于包含完整切割动作的扩展子切割音频,将每一段音频中第一和最后一个幅值大于预设阈值的时刻作为该扩展子切割音频内模切机切割动作的起止时刻;以所述音频分割间隔S过滤所述切割音频中间隔较短的模切机切割动作的起止时刻,以实现感兴趣区域定位。
[0007]第三方面,本申请提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行以实现如第一方面所述的方法。
[0008]第四方面,本申请实提供了一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如第一方面所述的方法。
[0009]相较于现有技术,本申请提供的模切机音频感兴趣区域定位方法,通过获取模切机的切割音频;根据高幅值窗口占总窗口的比例确定音频分割间隔S;对所述切割音频进行分割,得到多段子切割音频;基于梅尔频谱分析,将每一段所述子切割音频转化为梅尔频谱图;基于预先训练的ViT深度学习模型进行模切机切割动作预识别,时间扩展后进行模切机切割动作二次识别,得到包含完整切割动作的扩展子切割音频;然后进行基于阈值分割的感兴趣区域定位。可见,本申请对于模切机动作音频,采用基于ViT的深度学习识别与阈值分割相结合的ROI提取方法,增加预识别步骤以提高方法对噪声及环境声的鲁棒性,能够适应不同工作频率的模切机设备,提高了模切机切割音频ROI提取的准确性和效率,为进一步的自动化运行监测提供了有力支持,具有广泛的应用前景和重要的实际应用价值。
附图说明
[0010]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本申请所提供的一种模切机音频感兴趣区域定位方法的流程图;图2示出了本申请所提供的一种模切机音频感兴趣区域定位装置的示意图;
图3示出了本申请所提供的一种电子设备的示意图。
具体实施方式
[0011]下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0012]需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。
[0013]另外,术语“第一”和“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0014]请参考图1,图1是本申请实施例提供的一种模切机音频感兴趣区域定位方法的流程图,包括以下步骤:S101、获取模切机的切割音频。
[0015]具体的,模切机可以是不同工作频率的模切机设备,工作频率是指切割动作的频率。可以通过麦克风等拾音设备采集得到模切机的切割音频,切割音频具有一定时长,例如10秒、1分钟、30分钟等。
[0016]S102、统计所述切割音频中第一预设时长窗口内的平均幅值,根据高幅值窗口占总窗口的比例确定音频分割间隔S。
[0017]其中,所述高幅值窗口是指平均幅值大于第一预设值的第一预设时长窗口,例如第一预设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模切机音频感兴趣区域定位方法,其特征在于,包括:获取模切机的切割音频;统计所述切割音频中第一预设时长窗口内的平均幅值,根据高幅值窗口占总窗口的比例确定音频分割间隔S;其中,所述高幅值窗口是指平均幅值大于第一预设值的第一预设时长窗口;根据所述音频分割间隔S对所述切割音频进行分割,得到多段子切割音频;基于梅尔频谱分析,将每一段所述子切割音频转化为梅尔频谱图;将每一段所述子切割音频对应的梅尔频谱图输入预先训练的ViT深度学习模型进行模切机切割动作预识别,得到无切割动作、完整切割动作、包含前半部分切割动作及包含后半部分切割动作四个类别的子切割音频;对包含完整切割动作、前半部分切割动作及后半部分切割动作的子切割音频进行时间扩展,得到扩展子切割音频;将每一段所述扩展子切割音频对应的梅尔频谱图输入预先训练的所述ViT深度学习模型进行模切机切割动作二次识别,得到包含完整切割动作的扩展子切割音频;对于包含完整切割动作的扩展子切割音频,将每一段音频中第一和最后一个幅值大于预设阈值的时刻作为该扩展子切割音频内模切机切割动作的起止时刻;以所述音频分割间隔S过滤所述切割音频中间隔较短的模切机切割动作的起止时刻,以实现感兴趣区域定位。2.根据权利要求1所述的方法,其特征在于,所述根据高幅值窗口占总窗口的比例确定音频分割间隔S,包括:确定所述切割音频中高幅值窗口占总窗口的比例为目标比例;将所述目标比例和所述切割音频的总时长的乘积作为音频分割间隔S。3.根据权利要求1所述的方法,其特征在于,所述对包含完整切割动作、前半部分切割动作及后半部分切割动作的子切割音频进行时间扩展,包括:对包含前半部分切割动作的子切割音频进行后S/2的时间扩展;对包含后半部分切割动作的子切割音频进行前S/2的时间扩展;对包含完整切割动作的子切割音频进行前S/2的时间扩展,或者进行后S/2的时间扩展。4.根据权利要求1所述的方法,其特征在于,所述对于包含完整切割动作的扩展子切割音频,将每一段音频中第一和最后一个幅值大于预设阈值的时刻作为该扩展子切割音频内模切机切割动作的起止时刻,包括:针对包含完整切割动作的扩展子切割音频,以预设比例的所述音频分割间隔S为第二预设时长窗口;计算所述第二预设时长窗口内音频的平均幅值,将每一段包含完整切割动作的扩展子切割音频中第一和最后一个平均幅值大于预设阈值的窗口时刻作为该扩展子切割音频内模切机切割动作的起止时刻。5.一种模切机音频感兴趣区域定位装置,其特征在于,包括:获取模块,用于获取模切机的切割音频;间隔确定模块,用于统计所述切割音频中第...

【专利技术属性】
技术研发人员:梁磊瞿千上庄焰谭熠朴永焕
申请(专利权)人:硕橙厦门科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1