基于指称理解的视频安防检测方法技术

技术编号：22418426 阅读：36 留言：0更新日期：2019-10-30 02:05

本发明专利技术公开了一种基于指称理解的视频安防检测方法，其特征在于，包括以下步骤：获取待处理的视频中的图像帧数据及待检测目标的指称数据；由语言注意力模块、基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块4个部分构成指称理解系统；对图像帧数据采用实例分割模型检测出候选目标，获得一个或多个候选目标区域；对指称数据采用语言注意力模块处理，分别映射获得视觉主语表达、位置表达和关系表达，并确定各表达的权重；分别用基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块进行相似度匹配打分，利用加权方式融合得到相似度得分，得分最高的区域判断为目标区域。本发明专利技术用于视频安防检测，提高了目标检测的准确性，尤其适用于具有多人物视频图像的识别。

全部详细技术资料下载

【技术实现步骤摘要】
基于指称理解的视频安防检测方法
本专利技术涉及一种目标检测方法，具体涉及一种根据指称检测图像中的特定目标的方法。
技术介绍
随着视频获取和处理技术的迅速发展，利用摄像头进行监控，实现入侵报警、安防监控、犯罪嫌疑人筛查的方案被广泛利用。而利用设置在大街小巷的大量摄像头组成监控网络，构成天网监控系统，也成为公安机关打击街面犯罪的一项法宝。由于视频信息流量极大，如何在大量视频信息中实现自动化的目标检测，对于安防监控的效率有着重大的影响。指称是对图像中特定目标的自然语言描述，而指称理解就是在图像中检测出与给定的指称相对应的目标。近年来，传统的目标检测在卷积神经网络（CNN）的帮助下取得了很大的进展。然而在自然的场景中，人们通常使用指称来描述目标而不是定义好的目标类别。因为指称包括类别、属性、空间位置以及与其他对象的关系等不同的短语，所以目前指称理解任务仍是一个巨大的挑战。随着人机交互以及自然语言目标检测等应用需求的发展，指称理解在计算机视觉领域、机器人研究领域具有重要的研究意义。现有典型的指称理解研究基于图像与自然语言两者的编码，将其视作为目标边界盒定位。研究方法主要可以分为基于训练好的生成模型和基于联合视觉-语言共同特征空间框架两类。基于训练好的生成模型的研究方法主要是基于CNN-LSTM框架，在给定指称前提下，从候选区域集合中利用后验概率最大原则选择一个与指称匹配度最高的区域。例如，Mao等人使用CNN-LSTM框架来度量图像中每一个候选目标与指称的相似度，并选择相似度最高的候选目标作为检测到的目标。Hu等人提出的空间上下文循环卷积神经网络（SpatialCo...

【技术保护点】
1.一种基于指称理解的视频安防检测方法，其特征在于，包括以下步骤：(1) 获取待处理的视频中的图像帧数据；(2) 获取待检测目标的指称数据；(3) 构建指称理解系统，所述指称理解系统由语言注意力模块、基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块4个部分构成；(4) 对步骤(1)中的图像帧数据采用实例分割模型（Mask R‑CNN）检测出候选目标，获得一个或多个候选目标区域；对步骤(2)中的指称数据采用语言注意力模块处理，分别映射获得视觉主语表达、位置表达和关系表达，并确定各表达的权重；(5) 将候选目标区域分别和视觉主语表达、位置表达和关系表达一起输入至基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块，进行相似度匹配打分，利用加权方式融合3个模块的分数得到该候选目标区域的相似度得分，当多个候选目标区域中相似度得分最高的区域得分大于设定域值时，将该候选目标区域判断为目标区域。

【技术特征摘要】
1.一种基于指称理解的视频安防检测方法，其特征在于，包括以下步骤：(1)获取待处理的视频中的图像帧数据；(2)获取待检测目标的指称数据；(3)构建指称理解系统，所述指称理解系统由语言注意力模块、基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块4个部分构成；(4)对步骤(1)中的图像帧数据采用实例分割模型（MaskR-CNN）检测出候选目标，获得一个或多个候选目标区域；对步骤(2)中的指称数据采用语言注意力模块处理，分别映射获得视觉主语表达、位置表达和关系表达，并确定各表达的权重；(5)将候选目标区域分别和视觉主语表达、位置表达和关系表达一起输入至基于协同注意力的主语模块、位置模块和基于视觉上下文的关系模块，进行相似度匹配打分，利用加权方式融合3个模块的分数得到该候选目标区域的相似度得分，当多个候选目标区域中相似度得分最高的区域得分大于设定域值时，将该候选目标区域判断为目标区域。2.根据权利要求1所述的基于指称理解的视频安防检测方法，其特征在于：所述语言注意力模块采用GloVe模型编码生成词向量，利用双向LSTM网络编码整个指称的表示；然后借助主语、位置和关系三个可训练矢量计算每个模块中每个单词的注意力，并将词向量的加权和作为模块的语言表达。3.根据权利要求1所述的基于指称理解的视频安防检测方法，其特征在于：利用MaskR-CNN提取网络中包含颜色、形状低层线索的C3特征和包含利于类别预测的高层视觉线索的C4特征作为候选目标的特征描述；主语模块通过语言表达引导空间注意力得到候选目标的视觉表达；在位置模块中，坐标特征由编码了候选目标左上、右下、相对面积的5维坐标向量和5个同类目标间的坐标偏移和面积比率构成的5维相对位置表示融合获得；关系模块中的相关目标特征采用平均池化后的C4特征，并选取与目标距离最近的5个相关目标构成它们的相对位置表示；...

【专利技术属性】
技术研发人员：刘纯平，高友明，陈宁强，徐云龙，季怡，
申请(专利权)人：苏州大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人