一种水下声音分类模型训练方法、系统、装置及存储介质制造方法及图纸

技术编号：41129841 阅读：5 留言：0更新日期：2024-04-30 17:58

本申请公开了一种水下声音分类模型训练方法、系统、装置及存储介质，在模型的预训练和微调的过程中，结合了无类别标注的声音数据和有类别标注的水下声音数据，能够极大地降低模型对标注数据的需求和有效地提高目标水下声音分类模型对水下声音进行分类的准确率；通过第一频谱图、第二频谱图、被部分遮挡的频谱图和被遮挡部分的频谱图，对初始编码器和初始解码器进行预训练，使得预训练后的编码器具有根据被部分遮挡的频谱图预测原始频谱图被遮挡部分和预测原始水下声音的全局频谱图的能力，进而使得目标水下声音分类模型具有对声音数据分布特点的的先验知识的能力，从而能够进一步有效地提高目标水下声音分类模型对水下声音进行分类的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及神经网络，特别是涉及一种水下声音分类模型训练方法、系统、装置及存储介质。

技术介绍

1、水下环境中包含各种不同的声音，例如海洋船舶的辐射噪声、生物声音和通信信号相关的声音等，分析这些水下声音信号对于水下环境的监测具有重要意义，在近年来引起了广泛的关注。

2、随着神经网络的快速发展和在人工智能多个领域取得突破性进展，使用神经网络模型对水下声音进行分类已成为现在常用的方法，这类方法通常依赖于大规模水下声音标注数据集来支撑神经网络模型学习和理解水下声音信号的可判别特征，从而支持目标水下声音分类模型进行声音类别的判断。然而由于复杂的水下环境、声音传播失真和环境背景噪音的存在，在实际情况下获取大量的有类别标注的水下声音数据是非常难的，且需要耗费大量的人力物力，因此目前对于水下声音分类，一般采用有限的水下声音标注数据或水下声音仿真数据作为训练数据，对初始水下声音分类模型进行训练得到目标水下声音分类模型，由于数据规模和仿真数据与水下环境之间相似性的限制，导致利用这些数据训练得到的目标水下声音分类模型，对水下声音进行分类的准确率比较低。

技术实现思路

1、有鉴于此，本申请提供了一种水下声音分类模型训练方法、系统、装置及存储介质，本申请提供的水下声音分类模型训练方法、系统、装置及存储介质，在模型的预训练和训练的过程中，结合了无类别标注的声音数据和有类别标注的水下声音数据，能够有效地提高目标水下声音分类模型对水下声音进行分类的准确率。

2、本申请提供一种水下声音分类模型训练方法，包括：

3、获取无类别标注的声音数据和有类别标注的水下声音数据；

4、对所述无类别标注的声音数据和所述有类别标注的水下声音数据进行转换处理，得到第一频谱图和第二频谱图；

5、对所述第一频谱图进行部分遮挡处理，得到被部分遮挡的频谱图和第一频谱图中被遮挡部分的频谱图；

6、根据所述第一频谱图、所述被部分遮挡的频谱图、所述第一频谱图中被遮挡部分的频谱图和所述第二频谱图，对预设初始网络模型中的初始编码器和初始解码器进行预训练，得到预训练后的编码器；

7、根据所述预训练后的编码器和初始分类头，构建初始水下声音分类模型；

8、根据所述第一频谱图和所述类别标注，对所述初始水下声音分类模型进行训练，得到目标水下声音分类模型。

9、可选地，所述初始解码器包括初始第一解码器和初始第二解码器，所述根据所述第一频谱图、所述被部分遮挡的频谱图、所述第一频谱图中被遮挡部分的频谱图和所述第二频谱图，对预设初始网络模型中的初始编码器和初始解码器进行预训练，得到预训练后的编码器，包括：

10、将所述被部分遮挡的频谱图输入所述初始编码器，得到第一向量；

11、将所述第一向量输入所述初始第一解码器，得到重构的局部频谱图；

12、将所述第一向量输入所述初始第二解码器，得到全局频谱图；

13、根据所述第一频谱图中被遮挡部分的频谱图、所述重构的局部频谱图和第一损失函数，得到第一网络损失；

14、根据所述第二频谱图、所述全局频谱图和第二损失函数，得到第二网络损失；

15、根据所述第一网络损失和所述第二网络损失，调整所述初始编码器、所述初始第一解码器和所述初始第二解码器的参数，直至网络收敛，得到预训练后的编码器。

16、可选地，所述根据所述第一频谱图和所述类别标注，对所述初始水下声音分类模型进行训练，得到目标水下声音分类模型，包括：

17、将所述第一频谱图输入所述预训练后的编码器，得到第二向量；

18、将所述第二向量输入所述初始分类头，得到初始分类结果；

19、根据所述初始分类结果、所述类别标注和第三损失函数，得到第三网络损失；

20、根据所述第三网络损失，调整所述初始水下声音分类模型中所述预训练后的编码器和所述初始分类头的参数，直至网络收敛，得到目标水下声音分类模型。

21、可选地，所述初始编码器为swin-transformer神经网络。

22、本申请还提供一种水下声音分类模型训练系统，包括：

23、获取模块，用于获取无类别标注的声音数据和有类别标注的水下声音数据；

24、第一处理模块，用于对所述无类别标注的声音数据和所述有类别标注的水下声音数据进行转换处理，得到第一频谱图和第二频谱图；

25、第二处理模块，用于对所述第一频谱图进行部分遮挡处理，得到被部分遮挡的频谱图和第一频谱图中被遮挡部分的频谱图；

26、预训练模块，用于根据所述第一频谱图、所述被部分遮挡的频谱图、所述第一频谱图中被遮挡部分的频谱图和所述第二频谱图，对预设初始网络模型中的初始编码器和初始解码器进行预训练，得到预训练后的编码器；

27、模型构建模块，用于根据所述预训练后的编码器和初始分类头，构建初始水下声音分类模型；

28、训练模块，用于根据所述第一频谱图和所述类别标注，对所述初始水下声音分类模型进行训练，得到目标水下声音分类模型。

29、可选地，所述初始解码器包括初始第一解码器和初始第二解码器，所述预训练模块在执行根据所述第一频谱图、所述被部分遮挡的频谱图和所述第一频谱图中被遮挡部分的频谱图和所述第二频谱图，对预设初始网络模型中的初始编码器和初始解码器进行预训练，得到预训练后的编码器时，具体用于：

30、将所述被部分遮挡的频谱图输入所述初始编码器，得到第一向量；

31、将所述第一向量输入所述初始第一解码器，得到重构的局部频谱图；

32、将所述第一向量输入所述初始第二解码器，得到全局频谱图；

33、根据所述第一频谱图中被遮挡部分的频谱图、所述重构的局部频谱图和第一损失函数，得到第一网络损失；

34、根据所述第二频谱图、所述全局频谱图和第二损失函数，得到第二网络损失；

35、根据所述第一网络损失和所述第二网络损失，调整所述初始编码器、所述初始第一解码器和所述初始第二解码器的参数，直至网络收敛，得到预训练后的编码器。

36、可选地，所述训练模块在执行根据所述第一频谱图和所述类别标注，对所述初始水下声音分类模型进行训练，得到目标水下声音分类模型时，具体用于：

37、将所述第一频谱图输入所述预训练后的编码器，得到第二向量；

38、将所述第二向量输入所述初始分类头，得到初始分类结果；

39、根据所述初始分类结果、所述类别标注和第三损失函数，得到第三网络损失；

40、根据所述第三网络损失，调整所述初始水下声音分类模型中所述预训练后的编码器和所述初始分类头的参数，直至网络收敛，得到目标水下声音分类模型。

41、可选地，所述初始编码器为swin-transformer神经网络。

42、本申请还提供一种水下声音分类模型训练装置，包括：：处理器、本文档来自技高网...

【技术保护点】

1.一种水下声音分类模型训练方法，其特征在于，包括：

2.根据权利要求1所述的水下声音分类模型训练方法，其特征在于，所述初始解码器包括初始第一解码器和初始第二解码器，所述根据所述第一频谱图、所述被部分遮挡的频谱图、所述第一频谱图中被遮挡部分的频谱图和所述第二频谱图，对预设初始网络模型中的初始编码器和初始解码器进行预训练，得到预训练后的编码器，包括：

3.根据权利要求1或2所述的水下声音分类模型训练方法，其特征在于，所述根据所述第一频谱图和所述类别标注，对所述初始水下声音分类模型进行训练，得到目标水下声音分类模型，包括：

4.根据权利要求1所述的水下声音分类模型训练方法，其特征在于，所述初始编码器为Swin-Transformer神经网络。

5.一种水下声音分类模型训练系统，其特征在于，包括：

6.根据权利要求5所述的水下声音分类模型训练系统，其特征在于，所述初始解码器包括初始第一解码器和初始第二解码器，所述预训练模块在执行根据所述第一频谱图、所述被部分遮挡的频谱图、所述第一频谱图中被遮挡部分的频谱图和所述第二频谱图，对预

7.根据权利要求5或6所述的水下声音分类模型训练系统，其特征在于，所述训练模块在执行根据所述第一频谱图和所述类别标注，对所述初始水下声音分类模型进行训练，得到目标水下声音分类模型时，具体用于：

8.根据权利要求5所述的水下声音分类模型训练系统，其特征在于，所述初始编码器为Swin-Transformer神经网络。

9.一种水下声音分类模型训练装置，其特征在于，包括：处理器、存储器和通信总线；

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1至4任一项所述水下声音分类模型训练方法的步骤。

...

【技术特征摘要】

1.一种水下声音分类模型训练方法，其特征在于，包括：

4.根据权利要求1所述的水下声音分类模型训练方法，其特征在于，所述初始编码器为swin-transformer神经网络。

5.一种水下声音分类模型训练系统，其特征在于，包括：

6.根据权利要求5所述的水下声音分类模型训练系统，其特征在于，所述初始解码器包括初始第一解码...

【专利技术属性】
技术研发人员：窦勇，徐齐胜，许可乐，乔鹏，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人