一种利用元数据生成音频预测未知异常的异音检测方法技术

技术编号：41392280 阅读：6 留言：0更新日期：2024-05-20 19:15

本发明专利技术为一种利用元数据生成音频预测未知异常的异音检测方法，解决了目标机器异常音频样本对现有异音检测模型不可见导致异音检测模型无法选择超参数，异音检测系统性能受限的问题。本发明专利技术提供的异常样本预测策略借助音频特征和元数据信息特征对齐构建基于元数据信息的音频生成方法，进而预测未知的目标机器类型异常声音特性，为现有异常声音检测方法在First‑Shot场景下生成了可用于模型训练的目标机器预测声音样本，借助于预测声音样本，异音检测方法能在复杂的异常声音检测现实场景中确定最优模型，提升异音检测方法的性能和通用性。同时，本发明专利技术构建的统一的样本生成模型，缓解了现实场景中异常样本稀缺问题，有效降低了异音检测方法的工业化部署难度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及的是一种利用元数据生成音频预测未知异常的异音，具体地说是一种利用元数据生成音频预测未知异常的异音检测方法。

技术介绍

1、异常声音检测(anomalous sound detection，asd)任务的目的是自动识别目标(如机器或设备)是否发出异常的声音，由此判断目标是否出现异常的行为或状态。然而，由于异常声音极少发生且存在多样性，难以收集覆盖所有异常情况的声音样本用于模型训练。为了缓解这个问题，现有研究提出了无监督场景下的异常声音检测，即仅使用正常声音进行异常声音检测模型的训练。

2、然而，尽管无监督场景定义了仅能使用正常声音进行异常声音检测模型的训练，但机器的异常声音样本仍然可以在异常声音检测模型的训练过程中被用于确定模型的超参数(如训练迭代次数、多分类损失权重、特征处理加权权重等)，这与现实场景不符，导致训练过程无法在实际应用中实现。这是由于深度学习模型的训练需要训练集、测试集和评估集，在异常声音检测模型训练中，测试集和评估集均包含了异常音频样本，使得很多模型通过测试集上的表现选择使模型性能更好的超参数。

3、为了满足现实场景需求，最新的研究提出了first-shot场景下的异常声音检测。first-shot场景是指仅允许使用参考机器的正常和异常声音样本、目标机器的正常声音样本以及声音样本对应的元数据信息来训练异音检测模型，而目标机器的异常声音样本在训练阶段对模型不可见，且要求异音检测模型可以准确识别目标机器的异常声音。在first-shot场景下，参考机器和目标机器不同，且目标机器的

技术实现思路

1、为了解决first-shot场景下由于目标机器异常音频样本不可见导致的异音检测系统性能受限的问题，本专利技术提供了一种利用元数据生成音频预测未知异常的异音检测方法，实现了从参考机器的异常音频和目标机器的元数据信息预测目标机器异常音频特征，进而生成对应异常音频，帮助现有异音检测模型在训练过程中预测超参数，以此提高异音检测系统在first-shot场景下的性能。此外，本专利技术仅使用参考机器的异常样本微调生成模型，提供了一种针对不同声学目标类型时的统一的异常特征预测方法，缓解了现实场景下难以获取足以训练异常检测模型的异常样本的问题。

2、为了实现上述目的，本专利技术采用如下技术方案：

3、一种利用元数据生成音频预测未知异常的异音检测方法，包括以下步骤：

4、s1：引入跨模态音频对比学习策略，构建元数据信息与音频特征之间的潜在联系，获取参考机器的正常和异常声音样本、目标机器的正常声音样本以及声音样本对应的元数据信息，训练音频生成模型；

5、s2：获取目标机器的元数据信息，根据目标机器正常样本的元数据信息，生成目标机器异常样本的元数据信息，利用音频生成模型从目标机器异常样本的元数据信息中，预测未知异常音频的特征并生成异常音频样本；

6、s3：使用参考机器的正常和异常声音样本、目标机器的正常声音样本、预测生成得到的目标机器的异常声音样本，以及元数据信息，来训练异音检测系统，帮助异音检测系统在训练过程中确定其超参数设置；

7、作为优选的，参考机器和目标机器的每个音频样本对应的元数据信息由离散属性值组成；元数据信息是声音样本携带的，描述了声音样本录制状况以及声源运行状况的文本信息。

8、作为优选的，参考机器和目标机器的每个音频样本对应的元数据信息通过字幕转换算法转换成其对应的自然语言描述，用于跨模态音频对比学习策略提取其元数据信息的特征；

9、字幕转换算法可以表示如下：

10、c＝fc(l1,l2,…,ln)

11、其中，l1,l2,...,ln分别表示组成元数据信息的各个离散属性值，fc(·)表示字幕转换算法，为由字幕转换算法从元数据信息得到的对音频样本的自然语言描述。

12、作为优选的，所述字幕转换算法为：其将音频样本对应的元数据信息以固定标准模板整合为一条对该音频样本的自然语言描；其中，固定标准模板是针对不同机器类型和不同元数据信息设计；

13、由于跨模态音频对比学习策略的预训练数据由自然语言描述组成，所述的first-shot场景下的asd问题中只有离散属性值，使用离散属性值与音频特征对齐会影响其潜在联系的构建；所以本专利技术中设计了以克服由跨模态音频对比学习策略的预训练过程带来的分布差异，提高元数据信息与音频特征之间潜在联系的构建效果为目的的固定标准模板；

14、作为优选的，所述的元数据生成音频预测未知异常的异音检测方法为：

15、其采用对比语言-音频预训练(clap)作为跨模态音频对比学习策略；

16、clap由可学习的音频特征提取网络、可学习的文本特征提取网络和对齐损失函数组成。

17、作为优选的，所述的对比语言-音频预训练策略为：

18、其音频特征提取网络用于提取参考机器的正常和异常声音样本以及目标机器的正常声音样本的音频特征，其文本特征提取网络用于提取音频样本对应的自然语言描述的文本特征，分别可以表示如下：

19、ea＝faudio(a)

20、ec＝ftext(c)

21、其中，a和c分别表示声音样本和声音样本对应的自然语言描述，faudio(·)和ftext(·)分别表示音频编码器和文本编码器，和分别表示声音样本a和a的自然语言描述c对应的特征；

22、音频编码器和文本编码器分别基于htsat模型和roberta模型实现。

23、作为优选的，所述的对比语言-音频预训练策略为：

24、其对齐损失函数可以表示如下：

25、

26、

27、

28、其中，τ表示可学习的温度系数，d表示训练时设定的批处理大小，n表示当前正在训练的机器类型下的样本数量；

29、l1表示用于约束音频编码器faudio(·)的对齐损失，

30、l2表示用于约束文本编码器ftext(·)的对齐损失；

31、训练过程中，对齐损失函数中的l1和l2分别用于约束音频编码器faudio(·)和文本编码器ftext(·)，使两个编码器输出的特征趋同；

32、由于自然语言描述携带的元数据信息与声音样本的特征紧密相关，推理时就可以仅使用自然语言描述的特征代表其对应的所有声音样本的总体特征；

33、由此构建了元数据信息与机器音频特征之间的潜在联系。

34、作为优选的，通过参考机器的正常声音样本集arn、参考机器的异常声音样本集ara、目标机器的正常声音样本集atn及其对应的元数据信息集crn、cra、ctn来微调机器声音预测器该过本文档来自技高网...

【技术保护点】

1.一种利用元数据生成音频预测未知异常的异音检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种利用元数据生成音频预测未知异常的异音检测方法，其特征在于，

3.根据权利要求2所述的一种利用元数据生成音频预测未知异常的异音检测方法，其特征在于，

4.根据权利要求3所述的一种利用元数据生成音频预测未知异常的异音检测方法，其特征在于，

5.根据权利要求4所述的一种利用元数据生成音频预测未知异常的异音检测方法，其特征在于，

6.根据权利要求5所述的一种利用元数据生成音频预测未知异常的异音检测方法，其特征在于，

7.根据权利要求6所述的一种利用元数据生成音频预测未知异常的异音检测方法，其特征在于，

8.根据权利要求7所述的一种利用元数据生成音频预测未知异常的异音检测方法，其特征在于，

9.根据权利要求8所述的一种利用元数据生成音频预测未知异常的异音检测方法，其特征在于，

10.根据权利要求9所述的一种利用元数据生成音频预测未知异常的异音检测方法，其特征在于，

【技术特征摘要】

1.一种利用元数据生成音频预测未知异常的异音检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种利用元数据生成音频预测未知异常的异音检测方法，其特征在于，

3.根据权利要求2所述的一种利用元数据生成音频预测未知异常的异音检测方法，其特征在于，

4.根据权利要求3所述的一种利用元数据生成音频预测未知异常的异音检测方法，其特征在于，

5.根据权利要求4所述的一种利用元数据生成音频预测未知异常的异音检测方法，其特征在于，

【专利技术属性】
技术研发人员：关键，张合静，田健通，肖飞扬，
申请(专利权)人：哈尔滨工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人