计算机视觉任务的处理方法、装置及电子系统制造方法及图纸

技术编号:24411686 阅读:43 留言:0更新日期:2020-06-06 09:30
本发明专利技术提供了一种计算机视觉任务的处理方法、装置及电子系统,在获取待处理图像后,将待处理图像输入至预先训练完成的网络模型中,输出待处理图像对应的特征数据;进而基于特征数据,完成预设的视觉任务。本发明专利技术采用的网络模型包括主干网络和注意力模块,该注意力模块从预设的模块结构空间中搜索得到,模块结构空间中包括多种操作算子以及多种数据融合方式;相对于人工设置注意力模块结构的方式,这种搜索的方式可以快速得到与目标计算机视觉任务相匹配的注意力模块的结构,提高了确定注意力模块的效率,同时,通过搜索得到的注意力模块的结构,与目标计算机视觉任务更加匹配,以利于从整体上提高处理计算机视觉任务的网络模型的性能。

Processing method, device and electronic system of computer vision task

【技术实现步骤摘要】
计算机视觉任务的处理方法、装置及电子系统
本专利技术涉及神经网络
,尤其是涉及一种计算机视觉任务的处理方法、装置及电子系统。
技术介绍
在基于深度学习的计算机视觉和自然语言处理领域,注意力机制被广泛应用。注意力机制可以让模型专注于对目标任务更有用的输入信息,该目标任务可以为分类任务、检测任务、分割任务等。具体地,模型在处理特征数据的过程中,模型中的注意力模块可以将一部分特征数据增强,从而更好地完成目标任务,使模型的性能和效果更佳。然而,传统的注意力模块通常由工程师人工设置得到;需要工程师针对特定任务不断调整注意力模块的相关参数,较为依赖工程师的先验知识;不论是注意力模块的模块结构还是数据融合方式,每调整一次都需要让模型推理一次,并且基于推理结果再次调整,因此这种人工设置注意力模块的方式需要耗费大量的时间和计算资源。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种计算机视觉任务的处理方法、装置及电子系统,以在确保处理计算机视觉任务的网络模型的性能的同时,提高确定该模型中注意力模块的效率。第一方面,本专利技术实施例提供了一种计算机视觉任务的处理方法,该方法包括:获取待处理图像,将待处理图像输入至预先训练完成的网络模型中,输出待处理图像对应的特征数据;基于特征数据,完成预设的计算机视觉任务;其中,上述网络模型包括主干网络和注意力模块;注意力模块从预设的模块结构空间中确定;模块结构空间中包括多种操作算子以及多种数据融合方式。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,上述注意力模块包括:按照预设顺序排列的、多种操作算子中至少一部分操作算子;上述注意力模块还包括:多种数据融合方式中至少一部分数据融合方式;该数据融合方式用于:融合输入至注意力模块的特征数据和注意力模块输出的特征数据;如果注意力模块中的操作算子组成多条路径,数据融合方式还用于:融合每条路径输出的特征数据。结合第一方面,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,上述模块结构空间包括:按照预设顺序排列的多层搜索层,每层搜索层包括多种操作算子或多种数据融合方式;针对于每层搜索层,如果当前层的搜索层包括多种操作算子,注意力模块包括当前层的搜索中的至少一种操作算子;如果当前层的搜索层包括多种数据融合方式,注意力模块包括当前层的搜索中的至少一种数据融合方式。结合第一方面至第一方面的第二种可能的实施方式中的任意一种,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,上述操作算子包括:全局平均池化算子、全连接算子、卷积算子、张量变形算子、带孔卷积算子、软最大化算子和空算子中的一种或多种;上述数据融合方式包括:逐点相加、逐点相乘、矩阵相乘和空操作中的一种或多种。结合第一方面,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,上述注意力模块,具体通过下述方式确定:从模块结构空间中确定多个初始模块;在模块结构空间对应的综合模块结构中,基于预设的训练样本以及每个初始模块对应的主干网络,逐一训练多个初始模块;在训练过程中,每个初始模块在综合模块结构的当前参数基础上训练;多个初始模块训练结束后,从模块结构空间对应的综合模块结构中确定注意力模块。结合第一方面的第四种可能的实施方式,本专利技术实施例提供了第一方面的第五种可能的实施方式,其中,基于预设的训练样本以及每个初始模块对应的主干网络,逐一训练多个初始模块的步骤,包括:如果计算机视觉任务包括目标检测任务,基于预设的目标分类任务对应的训练样本,以及每个初始模块对应的主干网络,逐一训练多个初始模块;从模块结构空间中再次确定多个初始模块;基于目标检测任务对应的训练样本,以及每个再次确定的初始模块对应的主干网络,逐一训练再次确定的多个初始模块。结合第一方面的第四种可能的实施方式,本专利技术实施例提供了第一方面的第六种可能的实施方式,其中,从模块结构空间对应的综合模块结构中确定注意力模块的步骤,包括:从模块结构空间对应的综合模块结构中确定多个备选模块;调整多个备选模块的模块结构,得到多个变异模块;根据多个备选模块和多个变异模块,确定注意力模块。结合第一方面的第六种可能的实施方式,本专利技术实施例提供了第一方面的第七种可能的实施方式,其中,从模块结构空间对应的综合模块结构中确定多个备选模块的步骤,包括:从模块结构空间对应的综合模块结构中随机选取多个模块结构;基于预设的验证样本以及每个模块结构对应的主干网络,逐一验证选取的多个模块结构,得到每个模块结构对应的主干网络的准确率;根据每个模块结构对应的主干网络的准确率,从选取的多个模块结构中确定多个备选模块。结合第一方面的第六种可能的实施方式,本专利技术实施例提供了第一方面的第八种可能的实施方式,其中,根据多个备选模块和多个变异模块,确定注意力模块的步骤,包括:将多个备选模块和多个变异模块确定为模块集合;基于预设的验证样本,以及模块集合中每个模块对应的主干网络,逐一验证模块集合中的每个模块,得到模块集合中每个模块对应的准确率;根据模块集合中每个模块对应的准确率,从模块集合中确定出更新的多个备选模块;继续执行调整多个备选模块的模块结构,得到多个变异模块的步骤,直至确定出更新的多个备选模块的次数达到预设的次数阈值;从最后一次确定出的多个备选模块中选取准确率最高的模块,将选取出的模块确定为注意力模块。结合第一方面的第四种可能的实施方式至第一方面的第八种可能的实施方式中的任意一种,本专利技术实施例提供了第一方面的第九种可能的实施方式,其中,从模块结构空间对应的综合模块结构中确定注意力模块的步骤之后,上述方法还包括:基于预设的训练样本,训练注意力模块以及注意力模块对应的主干网络,直至注意力模块对应的主干网络的损失值收敛,得到训练后的注意力模块。第二方面,本专利技术实施例还提供一种计算机视觉任务的处理装置,该装置包括:图像输出模块,用于获取待处理图像,将待处理图像输入至预先训练完成的网络模型中,输出待处理图像对应的特征数据;任务完成模块,用于基于特征数据,完成预设的计算机视觉任务;其中,网络模型包括主干网络和注意力模块;注意力模块从预设的模块结构空间中确定;模块结构空间中包括多种操作算子以及多种数据融合方式。第三方面,本专利技术实施例还提供一种电子系统,该电子系统包括:图像采集设备、处理设备和存储装置;图像采集设备,用于获取预览视频帧或图像数据;存储装置上存储有计算机程序,计算机程序在被处理设备运行时执行上述计算机视觉任务的处理方法。第四方面,本专利技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理设备运行时执行如上述计算机视觉任务的处理方法的步骤。本专利技术实施例带来了以下有益效果:本专利技术实施例提供了一种计算机视觉任务的处理方法、装置及电子系统,在获取待处理图像后,将待处理图像输入至预先训练完成的网络模型中,输出待处理图像对应的特征数据;进而基于特征数据,完成预设的计算机视觉任务;该方式采用的网络模型包括主干网络和注意力模块,该注意力模块从预设本文档来自技高网...

【技术保护点】
1.一种计算机视觉任务的处理方法,其特征在于,所述方法包括:/n获取待处理图像,将所述待处理图像输入至预先训练完成的网络模型中,输出所述待处理图像对应的特征数据;/n基于所述特征数据,完成预设的计算机视觉任务;/n其中,所述网络模型包括主干网络和注意力模块;所述注意力模块从预设的模块结构空间中确定;所述模块结构空间中包括多种操作算子以及多种数据融合方式。/n

【技术特征摘要】
1.一种计算机视觉任务的处理方法,其特征在于,所述方法包括:
获取待处理图像,将所述待处理图像输入至预先训练完成的网络模型中,输出所述待处理图像对应的特征数据;
基于所述特征数据,完成预设的计算机视觉任务;
其中,所述网络模型包括主干网络和注意力模块;所述注意力模块从预设的模块结构空间中确定;所述模块结构空间中包括多种操作算子以及多种数据融合方式。


2.根据权利要求1所述的方法,其特征在于,所述注意力模块包括:按照预设顺序排列的、所述多种操作算子中至少一部分操作算子;
所述注意力模块还包括:所述多种数据融合方式中至少一部分数据融合方式;所述数据融合方式用于:融合输入至所述注意力模块的特征数据和所述注意力模块输出的特征数据;如果所述注意力模块中的操作算子组成多条路径,所述数据融合方式还用于:融合每条路径输出的特征数据。


3.根据权利要求1所述的方法,其特征在于,所述模块结构空间包括:按照预设顺序排列的多层搜索层,每层所述搜索层包括多种操作算子或多种数据融合方式;
针对于每层所述搜索层,如果当前层的搜索层包括多种操作算子,所述注意力模块包括所述当前层的搜索中的至少一种操作算子;如果当前层的搜索层包括多种数据融合方式,所述注意力模块包括所述当前层的搜索中的至少一种数据融合方式。


4.根据权利要求1-3任一项所述的方法,其特征在于,所述操作算子包括:全局平均池化算子、全连接算子、卷积算子、张量变形算子、带孔卷积算子、软最大化算子和空算子中的一种或多种;
所述数据融合方式包括:逐点相加、逐点相乘、矩阵相乘和空操作中的一种或多种。


5.根据权利要求1所述的方法,其特征在于,所述注意力模块,具体通过下述方式确定:
从所述模块结构空间中确定多个初始模块;
在所述模块结构空间对应的综合模块结构中,基于预设的训练样本以及每个所述初始模块对应的主干网络,逐一训练所述多个初始模块;在训练过程中,每个所述初始模块在所述综合模块结构的当前参数基础上训练;
所述多个初始模块训练结束后,从所述模块结构空间对应的综合模块结构中确定所述注意力模块。


6.根据权利要求5所述的方法,其特征在于,基于预设的训练样本以及每个所述初始模块对应的主干网络,逐一训练所述多个初始模块的步骤,包括:
如果所述计算机视觉任务包括目标检测任务,基于预设的目标分类任务对应的训练样本,以及每个所述初始模块对应的主干网络,逐一训练所述多个初始模块;
从所述模块结构空间中再次确定多个初始模块;
基于所述目标检测任务对应的训练样本,以及每个再次确定的所述初始模块对应的主干网络,逐一训练再次确定的所述多个初始模块。


7.根据权利要求5所述的方法,其特征在于,从所述模块结构空间对应的综合模块结构中确定所述注意力模块的步骤,包括:
从所述模...

【专利技术属性】
技术研发人员:张培圳
申请(专利权)人:北京迈格威科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1