当前位置: 首页 > 专利查询>苏州大学专利>正文

基于指称理解的视频安防检测方法技术

技术编号:22418426 阅读:36 留言:0更新日期:2019-10-30 02:05
本发明专利技术公开了一种基于指称理解的视频安防检测方法,其特征在于,包括以下步骤:获取待处理的视频中的图像帧数据及待检测目标的指称数据;由语言注意力模块、基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块4个部分构成指称理解系统;对图像帧数据采用实例分割模型检测出候选目标,获得一个或多个候选目标区域;对指称数据采用语言注意力模块处理,分别映射获得视觉主语表达、位置表达和关系表达,并确定各表达的权重;分别用基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块进行相似度匹配打分,利用加权方式融合得到相似度得分,得分最高的区域判断为目标区域。本发明专利技术用于视频安防检测,提高了目标检测的准确性,尤其适用于具有多人物视频图像的识别。

【技术实现步骤摘要】
基于指称理解的视频安防检测方法
本专利技术涉及一种目标检测方法,具体涉及一种根据指称检测图像中的特定目标的方法。
技术介绍
随着视频获取和处理技术的迅速发展,利用摄像头进行监控,实现入侵报警、安防监控、犯罪嫌疑人筛查的方案被广泛利用。而利用设置在大街小巷的大量摄像头组成监控网络,构成天网监控系统,也成为公安机关打击街面犯罪的一项法宝。由于视频信息流量极大,如何在大量视频信息中实现自动化的目标检测,对于安防监控的效率有着重大的影响。指称是对图像中特定目标的自然语言描述,而指称理解就是在图像中检测出与给定的指称相对应的目标。近年来,传统的目标检测在卷积神经网络(CNN)的帮助下取得了很大的进展。然而在自然的场景中,人们通常使用指称来描述目标而不是定义好的目标类别。因为指称包括类别、属性、空间位置以及与其他对象的关系等不同的短语,所以目前指称理解任务仍是一个巨大的挑战。随着人机交互以及自然语言目标检测等应用需求的发展,指称理解在计算机视觉领域、机器人研究领域具有重要的研究意义。现有典型的指称理解研究基于图像与自然语言两者的编码,将其视作为目标边界盒定位。研究方法主要可以分为基于训练好的生成模型和基于联合视觉-语言共同特征空间框架两类。基于训练好的生成模型的研究方法主要是基于CNN-LSTM框架,在给定指称前提下,从候选区域集合中利用后验概率最大原则选择一个与指称匹配度最高的区域。例如,Mao等人使用CNN-LSTM框架来度量图像中每一个候选目标与指称的相似度,并选择相似度最高的候选目标作为检测到的目标。Hu等人提出的空间上下文循环卷积神经网络(SpatialContextRecurrentConvNet),不仅利用了候选目标的局部特征,还融合了图像全局特征和语言特征。Yu等人基于Mao的模型,更进一步考虑了候选目标的视觉和位置差异,使得生成的描述更加具有差异性。Nagaraja等人则以Mao的模型为基础,加入了目标的上下文信息。他们将检测分成了两步,首先利用上下文检测出相关目标,然后结合相关目标确定最后的目标。基于视觉语言联合嵌入框架的研究方法将视觉特征和语言特征分别转换到同一个嵌入空间中,然后通过两者之间的距离计算相似度,选择相似度最高的作为检测到的目标。Wang等人使用双分支多层感知机学习视觉特征和语言特征的联合嵌入来计算两种特征之间的相似度。Hu等人提出通过注意力机制提取视觉特征重建指称,从而进行指称理解。优点就是可以灵活的选择是无监督,半监督还是监督训练。Liu等人则通过引入目标的属性信息来增强视觉特征的表达。Hu等人提出Speaker-Listener-Reinforcer模型联合学习指称理解和指称生成。Hu建立了图像中目标实体、实体之间的关系与指称中单词的对应关系来分别计算相似度。Yu等人综合了Hu、Liu、Wang等人各方法的优点,提出了模块注意力网络。上述方法主要存在两个问题:1、准确率:已存在的方法对于存在多个相似目标的图像,检测结果仍不能达到满意的效果。例如一张图像中存在多个人,而这些人具有穿红色衣服、金黄色的头发、带黑框眼镜等不同的属性特征。目前的方法对于这些细小的特征还不够敏感,导致目标检测不准确。2、相关目标视觉表达不充分。现有的几种方法都考虑到了相关目标对于目标检测结果具有很大的影响。但是这些方法对于相关目标的利用还都停留在局部视觉特征或坐标特征上。而这些不充分的视觉表达并没有对目标的检测提供很好的辅助作用。因此,当用于视频安防系统中的目标检测,尤其是犯罪嫌疑人检测时,需要对检测方法进行改进,以提高目标检测的准确性。
技术实现思路
本专利技术的专利技术目的是提供一种基于指称理解的视频安防检测方法,通过协同注意力和视觉上下文的结合,解决指称理解精度和相关目标视觉表达不充分的问题,以提高对视频安防系统中的目标检测的准确性。为达到上述专利技术目的,本专利技术采用的技术方案是:一种基于指称理解的视频安防检测方法,包括以下步骤:(1)获取待处理的视频中的图像帧数据;(2)获取待检测目标的指称数据;(3)构建指称理解系统,所述指称理解系统由语言注意力模块、基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块4个部分构成;(4)对步骤(1)中的图像帧数据采用实例分割模型(MaskR-CNN)检测出候选目标,获得一个或多个候选目标区域;对步骤(2)中的指称数据采用语言注意力模块处理,分别映射获得视觉主语表达、位置表达和关系表达,并确定各表达的权重;(5)将候选目标区域分别和视觉主语表达、位置表达和关系表达一起输入至基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块,进行相似度匹配打分,利用加权方式融合3个模块的分数得到该候选目标区域的相似度得分,当多个候选目标区域中相似度得分最高的区域得分大于设定域值时,将该候选目标区域判断为目标区域。上述技术方案中,所述语言注意力模块采用GloVe模型编码生成词向量,利用双向LSTM网络编码整个指称的表示;然后借助主语、位置和关系三个可训练矢量计算每个模块中每个单词的注意力,并将词向量的加权和作为模块的语言表达。上述技术方案中,利用MaskR-CNN提取网络中包含颜色、形状低层线索的C3特征和包含利于类别预测的高层视觉线索的C4特征作为候选目标的特征描述;主语模块通过语言表达引导空间注意力得到候选目标的视觉表达;在位置模块中,坐标特征由编码了候选目标左上、右下、相对面积的5维坐标向量和5个同类目标间的坐标偏移和面积比率构成的5维相对位置表示融合获得;关系模块中的相关目标特征采用平均池化后的C4特征,并选取与目标距离最近的5个相关目标构成它们的相对位置表示;随后将C4和相对位置表示融合构成每个相关目标的视觉表达。对视觉主语的处理包括以下步骤:步骤1:利用GloVe编码指称获得词向量,式中,u为一个单词的词向量,t为单词句子中顺序,l为词向量起始单词顺序为1,并通过Bi-LSTM的隐藏状态h引导单词的注意力a生成短语表达;步骤2:利用MaskR-CNN模型提取ROI区域图像,采用与MAtttNet相同的方式生成视觉特征V,随后用Ben-younes的MUTAN多模态融合策略自动学习融合所需的视觉和语言特征并生成视觉注意力,最后将注意力与V进行加权和得到属性增强的视觉表达;步骤3:使用属性增强视觉表达再次引导语言对属性的语言注意力,并获得属性增强的指称表达;步骤4:最后将和送入匹配函数计算相似度,匹配函数使用多层感知机和L2正则分别将和转换到共同的嵌入空间,随后计算它们的内积作为相似度得分。基于视觉上下文的关系模块的处理方法为,模块中视觉上下文的提取是目标区域和候选目标区域,利用各自原始视觉特征V之差获得,目标区域和相关目标区域5-d位置向量为,其中(x1,y1),(x2,y2)分别为目标区域的左上、右下坐标,wh,WH分别为目标区域和图像宽高,位置上下文则是目标5-d位置向量li和相关目标5-d位置向量lj之差及它们面积比率,即;在视觉特征和视觉上下文特征融合,位置特征和位置上下文特征融合基础上,再次将它们融合得到相关目标的视觉表达,最后将指称表达与视觉表达送入匹配函数进行匹配打分,并选择最高的分数作为关系模块的相似度分数计入总分,N为候选目标区域的个数。本文档来自技高网
...

【技术保护点】
1.一种基于指称理解的视频安防检测方法,其特征在于,包括以下步骤:(1) 获取待处理的视频中的图像帧数据;(2) 获取待检测目标的指称数据;(3) 构建指称理解系统,所述指称理解系统由语言注意力模块、基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块4个部分构成;(4) 对步骤(1)中的图像帧数据采用实例分割模型(Mask R‑CNN)检测出候选目标,获得一个或多个候选目标区域;对步骤(2)中的指称数据采用语言注意力模块处理,分别映射获得视觉主语表达、位置表达和关系表达,并确定各表达的权重;(5) 将候选目标区域分别和视觉主语表达、位置表达和关系表达一起输入至基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块,进行相似度匹配打分,利用加权方式融合3个模块的分数得到该候选目标区域的相似度得分,当多个候选目标区域中相似度得分最高的区域得分大于设定域值时,将该候选目标区域判断为目标区域。

【技术特征摘要】
1.一种基于指称理解的视频安防检测方法,其特征在于,包括以下步骤:(1)获取待处理的视频中的图像帧数据;(2)获取待检测目标的指称数据;(3)构建指称理解系统,所述指称理解系统由语言注意力模块、基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块4个部分构成;(4)对步骤(1)中的图像帧数据采用实例分割模型(MaskR-CNN)检测出候选目标,获得一个或多个候选目标区域;对步骤(2)中的指称数据采用语言注意力模块处理,分别映射获得视觉主语表达、位置表达和关系表达,并确定各表达的权重;(5)将候选目标区域分别和视觉主语表达、位置表达和关系表达一起输入至基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块,进行相似度匹配打分,利用加权方式融合3个模块的分数得到该候选目标区域的相似度得分,当多个候选目标区域中相似度得分最高的区域得分大于设定域值时,将该候选目标区域判断为目标区域。2.根据权利要求1所述的基于指称理解的视频安防检测方法,其特征在于:所述语言注意力模块采用GloVe模型编码生成词向量,利用双向LSTM网络编码整个指称的表示;然后借助主语、位置和关系三个可训练矢量计算每个模块中每个单词的注意力,并将词向量的加权和作为模块的语言表达。3.根据权利要求1所述的基于指称理解的视频安防检测方法,其特征在于:利用MaskR-CNN提取网络中包含颜色、形状低层线索的C3特征和包含利于类别预测的高层视觉线索的C4特征作为候选目标的特征描述;主语模块通过语言表达引导空间注意力得到候选目标的视觉表达;在位置模块中,坐标特征由编码了候选目标左上、右下、相对面积的5维坐标向量和5个同类目标间的坐标偏移和面积比率构成的5维相对位置表示融合获得;关系模块中的相关目标特征采用平均池化后的C4特征,并选取与目标距离最近的5个相关目标构成它们的相对位置表示;...

【专利技术属性】
技术研发人员:刘纯平高友明陈宁强徐云龙季怡
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1