基于双向交互网络的行人搜索方法、系统、装置制造方法及图纸

技术编号:25803844 阅读:27 留言:0更新日期:2020-09-29 18:38
本发明专利技术属于计算机视觉、模式识别领域,具体涉及一种基于双向交互网络的行人搜索方法、系统、装置,旨在解决边界框外场景信息对行人特征的影响,导致行人搜索准确度较低的问题。本系统方法包括:获取输入视频中第t帧图像,作为输入图像;对输入图像进行归一化,并通过预训练的行人搜索模型获取待搜索行人目标的搜索结果;行人搜索模型基于残差网络构建,并在残差网络的分类回归层中增加新的分类层,用于获取行人目标的身份分类概率。本发明专利技术提高了行人搜索的准确度。

【技术实现步骤摘要】
基于双向交互网络的行人搜索方法、系统、装置
本专利技术属于计算机视觉、模式识别领域,具体涉及一种基于双向交互网络的行人搜索方法、系统、装置。
技术介绍
行人搜索的目的是在场景图中定位与目标行人身份相同的行人。与行人再识别相比,该任务包含了行人检测部分,更加符合现实生活的需求,在安防监控、智能视频分析、人员搜救检索等领域具有广泛的应用。通常单阶段行人搜索方法使用一个多任务模型,同时解决行人检测与身份识别两个子任务。多任务网络的输入是场景图,行人的特征需要从场景图的特征上截取得到。由于深度卷积网络在多层之后具有很大的感受野,这些行人特征通常会包含大量行人边界框外的场景信息。虽然这些信息对于行人检测有帮助,但是对于身份识别这一需要细节信息的任务来说,额外的场景信息会导致行人身份特征的判别力不足。这些困难在现有的研究中都尚未得到很好的解决。因此,本专利技术提出了一种基于双向交互网络的行人搜索方法。
技术实现思路
为了解决现有技术中的上述问题,即为了解决边界框外场景信息对行人特征的影响,导致行人搜索准确度较低的问题,本专利技术第一方面,提出了一种基于双向交互网络的行人搜索方法,该方法包括:步骤S100,获取输入视频中第t帧图像,作为输入图像;步骤S200,对所述输入图像进行归一化,并通过预训练的行人搜索模型获取待搜索行人目标的搜索结果;所述行人搜索模型基于残差网络构建,并在所述残差网络的分类回归层中增加新的分类层,用于获取行人目标的身份分类概率。在一些优选的实施方式中,所述行人搜索模型其训练方法为:获取训练样本图像的数据集,所述训练样本图像为场景图像;将各场景图像进行归一化;对残差网络,基于其的conv1层,conv2层,conv3层及conv4层提取归一化后各场景图像的特征,并通过其的区域提案网络层获取候选区域;通过残差网络的ROI-pooling层提取各候选区域的特征,并通过残差网络的conv5层、全局池化层进行池化,将池化后的特征作为第一特征;从归一化的场景图像上截取各候选区域的图像并归一化;归一化后通过实例感知网络得到各个区域池化后的特征,作为第二特征;所述实例感知网络基于行人搜索模型构建,将行人搜索模型中的区域提案网络层删除,并将分类回归层中新增的分类层保留,将原有的分类回归层删除;基于各第一特征,通过行人搜索模型新增的分类层得到各行人目标的分类概率,作为第一概率;基于各第二特征,通过实例感知网络的分类层得到各行人目标的分类概率,作为第二概率;通过预设的第一损失函数计算第一特征、第二特征之间的损失值,作为第一损失值;并通过预设的第二损失函数计算第一概率、第二概率之间的损失值,作为第二损失值;基于所述第一损失值、所述第二损失值,通过预设的第三损失函数计算全局损失值,并根据所述全局损失值更新行人搜索模型的网络参数。在一些优选的实施方式中,“通过预设的第一损失函数计算第一特征、第二特征之间的损失值,作为第一损失值”,其方法为:其中,Lfi表示第一损失值,fr(b)表示第二特征,fs(b)表示第一特征,Ω表示各训练样本图像获取的候选区域的集合,N(Ω)表示候选区域的数目。在一些优选的实施方式中,“通过预设的第二损失函数计算第一概率、第二概率之间的损失值,作为第二损失值”,其方法为:Lpi=DKL(pr(b)||ps(b))+DKL(ps(b)||pr(b))其中,Lpi表示第二损失值,ps(b)表示第一概率,pr(b)表示第二概率,DKL(·)表示衡量两个概率分布差异的Kullback-Leibler散度。在一些优选的实施方式中,“通过预设的第三损失函数计算全局损失值”,其方法为:其中,Lall表示全局损失值,Lfi表示第一损失值,Lpi表示第二损失值,Ldet表示行人搜索模型中区域提案网络的分类损失、回归损失与该模型分类分支和回归分支的分类损失、回归损失的和,分别表示行人搜索模型、实例感知网络得到的身份类别概率分布与真实是身份之间的损失。在一些优选的实施方式中,步骤S200中“通过预训练的行人搜索模型获取待搜索行人目标的搜索结果”,其方法为:基于归一化的图像,通过行人搜索模型获取各行人目标的检测区域;计算各检测区域与预设的行人目标图像的相似度,将相似度最大的检测区域作为待搜索行人目标在当前帧中的搜索结果。在一些优选的实施方式中,所述行人搜索模型其在训练的过程中采用反向传播算法和随机梯度下降法进行训练。本专利技术的第二方面,提出了一种基于双向交互网络的行人搜索系统,该系统包括获取模块、输出模块;所述获取模块,配置为获取输入视频中第t帧图像,作为输入图像;所述输出模块,配置为对所述输入图像进行归一化,并通过预训练的行人搜索模型获取待搜索行人目标的搜索结果;所述行人搜索模型基于残差网络构建,并在所述残差网络的分类回归层中增加新的分类层,用于获取行人目标的身份分类概率。本专利技术的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序应用由处理器加载并执行以实现上述的基于双向交互网络的行人搜索方法。本专利技术的第四方面,提出了一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的基于双向交互网络的行人搜索方法。本专利技术的有益效果:本专利技术提高了行人搜索的准确度。本专利技术将基于残差网络构建的行人搜索模型作为主分支,并在主分支的基础上,引入了实例感知分支,实例感知分支基于主分支的网络构建,但不包含RPN网络部分,其以主分支输入的训练样本图像中获取的行人目标的候选区域图像为输入。在训练过程中两个分支之间信息进行双向交互;在测试阶段,只使用主分支即可完成行人搜索任务。本专利技术方法中引入的实例感知分支,能够为行人搜索模型的训练提供指导作用,让模型在训练过程中关注行人,利用行人边界框内的信息来区分不同身份,而不是行人边界框外的部分,从而在测试阶段提升学习到的特征的判别力。从而较好的解决现有单阶段行人搜索方法中无关场景信息对行人特征的影响,提升行人搜索的准确度。附图说明通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。图1是本专利技术一种实施例的基于双向交互网络的行人搜索方法的流程示意图;图2是本专利技术一种实施例的基于双向交互网络的行人搜索系统的框架示意图;图3是本专利技术一种实施例的行人搜索模型训练流程的结构示意图;图4是适于用来实现本专利技术实施例的电子设备的计算机系统的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳本文档来自技高网...

【技术保护点】
1.一种基于双向交互网络的行人搜索方法,其特征在于,该方法包括:/n步骤S100,获取输入视频中第t帧图像,作为输入图像;/n步骤S200,对所述输入图像进行归一化,并通过预训练的行人搜索模型获取待搜索行人目标的搜索结果;/n所述行人搜索模型基于残差网络构建,并在所述残差网络的分类回归层中增加新的分类层,用于获取行人目标的身份分类概率。/n

【技术特征摘要】
1.一种基于双向交互网络的行人搜索方法,其特征在于,该方法包括:
步骤S100,获取输入视频中第t帧图像,作为输入图像;
步骤S200,对所述输入图像进行归一化,并通过预训练的行人搜索模型获取待搜索行人目标的搜索结果;
所述行人搜索模型基于残差网络构建,并在所述残差网络的分类回归层中增加新的分类层,用于获取行人目标的身份分类概率。


2.根据权利要求1所述的基于双向交互网络的行人搜索方法,其特征在于,所述行人搜索模型其训练方法为:
获取训练样本图像的数据集,所述训练样本图像为场景图像;将各场景图像进行归一化;
对残差网络,基于其的conv1层,conv2层,conv3层及conv4层提取归一化后各场景图像的特征,并通过其的区域提案网络层获取候选区域;
通过残差网络的ROI-pooling层提取各候选区域的特征,并通过残差网络的conv5层、全局池化层进行池化,将池化后的特征作为第一特征;
从归一化的场景图像上截取各候选区域的图像并归一化;归一化后通过实例感知网络得到各个区域池化后的特征,作为第二特征;所述实例感知网络基于行人搜索模型构建,将行人搜索模型中的区域提案网络层删除,并将分类回归层中新增的分类层保留,将原有的分类回归层删除;
基于各第一特征,通过行人搜索模型新增的分类层得到各行人目标的分类概率,作为第一概率;基于各第二特征,通过实例感知网络的分类层得到各行人目标的分类概率,作为第二概率;
通过预设的第一损失函数计算第一特征、第二特征之间的损失值,作为第一损失值;并通过预设的第二损失函数计算第一概率、第二概率之间的损失值,作为第二损失值;
基于所述第一损失值、所述第二损失值,通过预设的第三损失函数计算全局损失值,并根据所述全局损失值更新行人搜索模型的网络参数。


3.根据权利要求2所述的基于双向交互网络的行人搜索方法,其特征在于,“通过预设的第一损失函数计算第一特征、第二特征之间的损失值,作为第一损失值”,其方法为:



其中,Lfi表示第一损失值,fr(b)表示第二特征,fs(b)表示第一特征,Ω表示各训练样本图像获取的候选区域的集合,N(Ω)表示候选区域的数目。


4.根据权利要求3所述的基于双向交互网络的行人搜索方法,其特征在于,“通过预设的第二损失函数计算第一概率、第...

【专利技术属性】
技术研发人员:张兆翔谭铁牛宋纯锋董文恺
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1