一种基于多尺度独立-协同编码与集成解码深度神经网络的视觉处理方法技术

技术编号：40549900 阅读：8 留言：0更新日期：2024-03-05 19:08

本发明专利技术一种基于多尺度独立‑协同编码与集成解码深度神经网络的视觉处理方法，包括以下步骤：根据实际任务要求获得相应影像数据；对获得的相应影像数据划分为训练集数据和测试集数据；构建多尺度独立‑协同编码与集成解码的深度神经网络；基于训练集数据对构建的多尺度独立‑协同编码与集成解码的深度神经网络进行训练，得到训练好的多尺度独立‑协同编码与集成解码的深度神经网络；将测试集数据输入到训练好的多尺度独立‑协同编码与集成解码的深度神经网络中，实现对应的实际任务；本发明专利技术充分引入Transformer结构，有效增强深度神经网络中不同层次特征的充分融合，有效增强深度神经网络在解决不同高级视觉任务的能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于新一代信息，涉及一种基于多尺度独立-协同编码与集成解码深度神经网络的视觉处理方法。

技术介绍

1、随着计算机视觉的应用等领域的快速发展，使得基于深度学习的显著性目标检测技术的应用越来越广泛。通过改善对深度神经网络的构造可以提高图像和视频处理的效率，使计算机系统能够更智能地理解和处理视觉信息。在图像识别中，深度学习可以通过卷积神经网络捕获图像的局部特征，并将其组合成更高层次的全局特征，从而实现精准的图像分类和识别。在语音识别方面，神经网络可以通过递归神经网络来处理连续的声音信号，并输出相应的文本结果。在自动驾驶系统中，能够更加精准的帮助车辆识别和跟踪道路上的重要目标，如其他车辆、行人和交通标志。这让自动驾驶的安全性能有了极大的保障。但由于需要处理的输入有时会受到外界因素的影响，例如当时物体所处地方的光线的强弱，所处的天气是大雾天气或者下雨天等，这些不可抗拒因素的存在都会降低其输出结果的精度。

2、传统的基于深度学习的高级视觉任务(如目标检测、语义分割、显著性检测等)通常采用单一的神经卷积网络(cnn)的编解码器结构，此类结构通常通过编码部分进行特征提取，再通过解码部分得到输出。然而在高级的视觉任务中，使用单一的神经卷积网络(cnn)的编解码器结构会存在全局感知能力受限、分辨率损失和缺乏通用性等问题。

技术实现思路

1、为了解决上述问题，本专利技术采用的技术方案是：一种基于多尺度独立-协同编码与集成解码深度神经网络的视觉处理方法，包括以下步骤：

3、步骤2：构建多尺度独立-协同编码与集成解码的深度神经网络；

4、步骤3：基于训练集数据对构建的多尺度独立-协同编码与集成解码的深度神经网络进行训练，得到训练好的多尺度独立-协同编码与集成解码的深度神经网络；

5、步骤4：将测试集数据输入到训练好的多尺度独立-协同编码与集成解码的深度神经网络中，实现对应的实际任务。

6、进一步地：所述实际任务包括目标检测、语义分割、显著性检测。

7、进一步地：所述多尺度独立-协同编码与集成解码的深度神经网络包括第一分支结构和第二分支结构；

8、第一分支结构的后端连接有第一协同编码器；

9、第二分支结构的后端连接有第二协同编码器；

10、第一协同编码器的输出端连接有第三分支结构；

11、第二协同编码器的输出端连接有第四分支结构；

12、第三分支结构和第四分支结构后端连接到注意力增强模块的输入端；

13、所述注意力增强模块的输出端依次连接有三个集成解码器组合；即第一集成解码器组合、第二集成解码器组合、第三集成解码器组合；

14、所述第一集成解码器组合、第二集成解码器组合、第三集成解码器组合依次级联；

15、通过残差操作(三个集成解码器组合，每个组合由两个集成解码器组成，并且通过残差操作构成)将第一集成解码器组合的输出端连接到第二集成解码器组合的输入端、第二集成解码器组合的输出连接到第三集成解码器组合的输入端、第三集成解码器组合的输入连接到第三集成解码器组合的输出端,第三集成解码器组合的输出连接到1×1卷积块；

16、第三集成解码器组合通过1×1卷积块与自监督结构相连接；

17、所述第一分支结构和第三分支结构相同；所述第二分支结构和第四分支结构相同；

18、所述第一协同编码器和所述第二协同编码器结构相同；

19、所述第一集成解码器组合、第二集成解码器组合、第三集成解码器组合结构相同。

20、进一步地：所述第一分支结构包括第一独立编码模块、第一网络通道处理模块和第一多尺度交互模块；

21、所述第一独立编码模块、第一网络通道处理模块和第一多尺度交互模块依次级联；

22、所述第二分支结构包括第二独立编码模块、第二网络通道处理模块和第二多尺度交互模块；

23、所述第二独立编码模块、第二网络通道处理模块和第二多尺度交互模块依次级联；

24、所述第一网络通道处理模块和第二网络通道处理模块结构相同；

25、所述第一多尺度交互模块和第二多尺度交互模块结构相同。

26、进一步地：所述第一独立编码模块包括信息增强卷积编码块和transformer特征编码块；所述信息增强卷积编码块和transformer特征编码块的输出端均连接到第一网络通道处理模块；

27、所述第二独立编码模块包括信息增强空洞卷积编码块和transformer特征编码块；所述信息增强空洞卷积编码块和transformer特征编码块的输出端连接到第二网络通道处理模块；

28、所述信息增强卷积编码模块由一个3×3卷积块、一个最大池化块和两个3×3卷积块块依次组成，其中利用残差操作将第一个3×3卷积块的特征输出添加至经过最大池化和两个3×3卷积块的输出端，再进行最大池化和两个3×3卷积块，最大池化和两个3×3卷积块该部分重复两次，将第一次的特征输出利用残差操作添加至第二次的输出进行逐元素的加法得到输出；两个3×3卷积块依次级联；

29、所述信息增强空洞卷积编码块由一个3×3卷积块、一个最大池化块和两个3×3空洞卷积块依次组成，其中利用通道合并操作将第一个3×3卷积块的特征输出添加至经过最大池化和两个3×3空洞卷积的输出部分，再进行最大池化和两个3×3空洞卷积块，最大池化和两个3×3空洞卷积块该部分重复两次，将第一次的特征输出利用通道合并操作添加至第二次的输出得到最终的特征输出；

30、所述transformer特征编码块由一个1×1卷积块、一个3×3卷积块、一个transformer结构、一个最大池化块和两个3×3卷积块依次组成，首先经历一个1×1和3×3的卷积块后通过其transformer结构的k、q、v机制得到一个输出，该输出经历一个由最大池化和两个3×3卷积的模块，该模块重复三次后得到transformer特征编码块的特征输出。

31、各个独立编码模块的权重均是使用的网络在训练过程中所产生的最优权重。

32、进一步地：所述第一网络通道处理模块包括第一网络通道处理分支和第二网络通道处理分支；第一网络通道处理分支和第二网络通道处理分支结构相同；

33、所述第一网络通道处理分支由一个1×1卷积块和两个3×3卷积块组成，将一个分支中1×1卷积块的特征输出利用逐元素加的方式添加至另一个分支结构的3×3卷积块以进行特征融合。

34、进一步地：所述第一多尺度交互模块将第一网络通道处理模块的输出经过一个由逐元素加法和逐通道乘法组合的模块以得到相应输出。

35、进一步地：所述第一协同编码模块包括transformer结构与vgg16主干网络，多尺度交互模块输出依次通过transformer的主干网本文档来自技高网...

【技术保护点】

1.一种基于多尺度独立-协同编码与集成解码深度神经网络的视觉处理方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于多尺度独立-协同编码与集成解码深度神经网络的视觉处理方法，其特征在于：所述实际任务包括目标检测、语义分割、显著性检测。

3.根据权利要求1所述的一种基于多尺度独立-协同编码与集成解码深度神经网络的视觉处理方法，其特征在于：所述多尺度独立-协同编码与集成解码的深度神经网络包括第一分支结构和第二分支结构；

4.根据权利要求1所述的一种基于多尺度独立-协同编码与集成解码深度神经网络的视觉处理方法，其特征在于：所述第一分支结构包括第一独立编码模块、第一网络通道处理模块和第一多尺度交互模块；

5.根据权利要求4所述的一种基于多尺度独立-协同编码与集成解码深度神经网络的视觉处理方法，其特征在于：所述第一独立编码模块包括信息增强卷积编码块和Transformer特征编码块；所述信息增强卷积编码块和Transformer特征编码块的输出端均连接到第一网络通道处理模块；

6.根据权利要求4所述的一种基于多尺度独

7.根据权利要求4所述的一种基于多尺度独立-协同编码与集成解码深度神经网络的视觉处理方法，其特征在于：所述第一多尺度交互模块将第一网络通道处理模块的输出经过一个由逐元素加法和逐通道乘法组合的模块以得到相应输出。

8.根据权利要求4所述的一种基于多尺度独立-协同编码与集成解码深度神经网络的视觉处理方法，其特征在于：所述第一协同编码模块包括Transformer结构与VGG16主干网络，多尺度交互模块输出依次通过Transformer的主干网络得到一个输出，该输出再经过一个VGG16主干网络，同时通过残差连接方式将第一次Transformer的输出与VGG16的输出进行特征融合后，再进行一次Transformer编码，第一个Transformer结构的输出与VGG16的输出均由逐元素加法与一个3×3卷积块和一个5×5卷积块的输出进行特征融合，从而最后得到最终输出；第一协同编码模块和第一协同编码模块所在的分支上均使用相同的权重。

9.根据权利要求4所述的一种基于多尺度独立-协同编码与集成解码深度神经网络的视觉处理方法，其特征在于：

10.根据权利要求4所述的一种基于多尺度独立-协同编码与集成解码深度神经网络的视觉处理方法，其特征在于：所述第一集成解码器组合、第二集成解码器组合、第三集成解码器组合结构相同；所述第一集成解码器组合包括第一集成解码器和第二集成解码器；第一集成解码器的输出端连接到第二集成解码器的输入端；

...

【技术特征摘要】

1.一种基于多尺度独立-协同编码与集成解码深度神经网络的视觉处理方法，其特征在于：包括以下步骤：

5.根据权利要求4所述的一种基于多尺度独立-协同编码与集成解码深度神经网络的视觉处理方法，其特征在于：所述第一独立编码模块包括信息增强卷积编码块和transformer特征编码块；所述信息增强卷积编码块和transformer特征编码块的输出端均连接到第一网络通道处理模块；

6.根据权利要求4所述的一种基于多尺度独立-协同编码与集成解码深度神经网络的视觉处理方法，其特征在于：所述第一网络通道处理模块包括第一网络通道处理分支和第二网络通道处理分支；第一网络通道处理分支和第二网络通道处理分支结构相同；

7.根据权利要求4所述的一种基于多...

【专利技术属性】
技术研发人员：纪勋，陈龙，郝立颖，王靖淇，
申请(专利权)人：大连海事大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人