计算机视觉任务的处理方法、装置及电子系统制造方法及图纸

技术编号：24411686 阅读：43 留言：0更新日期：2020-06-06 09:30

本发明专利技术提供了一种计算机视觉任务的处理方法、装置及电子系统，在获取待处理图像后，将待处理图像输入至预先训练完成的网络模型中，输出待处理图像对应的特征数据；进而基于特征数据，完成预设的视觉任务。本发明专利技术采用的网络模型包括主干网络和注意力模块，该注意力模块从预设的模块结构空间中搜索得到，模块结构空间中包括多种操作算子以及多种数据融合方式；相对于人工设置注意力模块结构的方式，这种搜索的方式可以快速得到与目标计算机视觉任务相匹配的注意力模块的结构，提高了确定注意力模块的效率，同时，通过搜索得到的注意力模块的结构，与目标计算机视觉任务更加匹配，以利于从整体上提高处理计算机视觉任务的网络模型的性能。

Processing method, device and electronic system of computer vision task

全部详细技术资料下载

【技术实现步骤摘要】
计算机视觉任务的处理方法、装置及电子系统
本专利技术涉及神经网络
，尤其是涉及一种计算机视觉任务的处理方法、装置及电子系统。
技术介绍
在基于深度学习的计算机视觉和自然语言处理领域，注意力机制被广泛应用。注意力机制可以让模型专注于对目标任务更有用的输入信息，该目标任务可以为分类任务、检测任务、分割任务等。具体地，模型在处理特征数据的过程中，模型中的注意力模块可以将一部分特征数据增强，从而更好地完成目标任务，使模型的性能和效果更佳。然而，传统的注意力模块通常由工程师人工设置得到；需要工程师针对特定任务不断调整注意力模块的相关参数，较为依赖工程师的先验知识；不论是注意力模块的模块结构还是数据融合方式，每调整一次都需要让模型推理一次，并且基于推理结果再次调整，因此这种人工设置注意力模块的方式需要耗费大量的时间和计算资源。
技术实现思路
有鉴于此，本专利技术的目的在于提供一种计算机视觉任务的处理方法、装置及电子系统，以在确保处理计算机视觉任务的网络模型的性能的同时，提高确定该模型中注意力模块的效率。第一方面，本专利技术实施例提供了一种计算机视觉任务的处理方法，该方法包括：获取待处理图像，将待处理图像输入至预先训练完成的网络模型中，输出待处理图像对应的特征数据；基于特征数据，完成预设的计算机视觉任务；其中，上述网络模型包括主干网络和注意力模块；注意力模块从预设的模块结构空间中确定；模块结构空间中包括多种操作算子以及多种数据融合方式。结合第一方面，本专利技术实施例提供了第一方面的...

【技术保护点】
1.一种计算机视觉任务的处理方法，其特征在于，所述方法包括：/n获取待处理图像，将所述待处理图像输入至预先训练完成的网络模型中，输出所述待处理图像对应的特征数据；/n基于所述特征数据，完成预设的计算机视觉任务；/n其中，所述网络模型包括主干网络和注意力模块；所述注意力模块从预设的模块结构空间中确定；所述模块结构空间中包括多种操作算子以及多种数据融合方式。/n

【技术特征摘要】
1.一种计算机视觉任务的处理方法，其特征在于，所述方法包括：
获取待处理图像，将所述待处理图像输入至预先训练完成的网络模型中，输出所述待处理图像对应的特征数据；
基于所述特征数据，完成预设的计算机视觉任务；
其中，所述网络模型包括主干网络和注意力模块；所述注意力模块从预设的模块结构空间中确定；所述模块结构空间中包括多种操作算子以及多种数据融合方式。

2.根据权利要求1所述的方法，其特征在于，所述注意力模块包括：按照预设顺序排列的、所述多种操作算子中至少一部分操作算子；
所述注意力模块还包括：所述多种数据融合方式中至少一部分数据融合方式；所述数据融合方式用于：融合输入至所述注意力模块的特征数据和所述注意力模块输出的特征数据；如果所述注意力模块中的操作算子组成多条路径，所述数据融合方式还用于：融合每条路径输出的特征数据。

3.根据权利要求1所述的方法，其特征在于，所述模块结构空间包括：按照预设顺序排列的多层搜索层，每层所述搜索层包括多种操作算子或多种数据融合方式；
针对于每层所述搜索层，如果当前层的搜索层包括多种操作算子，所述注意力模块包括所述当前层的搜索中的至少一种操作算子；如果当前层的搜索层包括多种数据融合方式，所述注意力模块包括所述当前层的搜索中的至少一种数据融合方式。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述操作算子包括：全局平均池化算子、全连接算子、卷积算子、张量变形算子、带孔卷积算子、软最大化算子和空算子中的一种或多种；
所述数据融合方式包括：逐点相加、逐点相乘、矩阵相乘和空操作中的一种或多种。

5.根据权利要求1所述的方法，其特征在于，所述注意力模块，具体通过下述方式确定：
从所述模块结构空间中确定多个初始模块；
在所述模块结构空间对应的综合模块结构中，基于预设的训练样本以及每个所述初始模块对应的主干网络，逐一训练所述多个初始模块；在训练过程中，每个所述初始模块在所述综合模块结构的当前参数基础上训练；
所述多个初始模块训练结束后，从所述模块结构空间对应的综合模块结构中确定所述注意力模块。

6.根据权利要求5所述的方法，其特征在于，基于预设的训练样本以及每个所述初始模块对应的主干网络，逐一训练所述多个初始模块的步骤，包括：
如果所述计算机视觉任务包括目标检测任务，基于预设的目标分类任务对应的训练样本，以及每个所述初始模块对应的主干网络，逐一训练所述多个初始模块；
从所述模块结构空间中再次确定多个初始模块；
基于所述目标检测任务对应的训练样本，以及每个再次确定的所述初始模块对应的主干网络，逐一训练再次确定的所述多个初始模块。

7.根据权利要求5所述的方法，其特征在于，从所述模块结构空间对应的综合模块结构中确定所述注意力模块的步骤，包括：
从所述模...

【专利技术属性】
技术研发人员：张培圳，
申请(专利权)人：北京迈格威科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人