The present invention provides a method for pedestrian re identification of image and video based on cross modal matching, used from multiple video retrieval with the corresponding character input query image in the video, which comprises the following steps: S1, construct the depth model of configurable; S2, obtaining training samples, and the depth of the input sample model in the training, to carry out training on the depth model; using the forward algorithm and backward algorithm to learn the parameters of every part of the depth model; S3, by learning the parameters in S2 is obtained to initialize the depth model; the input query image to be detected and a plurality of video to the depth of the model, a model to calculate the depth the video similarity with the query image measurement; S4, the similarity of the query image and the metric is higher than a threshold of the video list, and according to the similarity measure of the size of the row Order. Under the premise of high precision, the invention realizes the pedestrian weight recognition based on the cross modal comparison of image and video.
【技术实现步骤摘要】
一种基于图像与视频跨模态比对的行人重识别方法
本专利技术涉及计算机视觉和模式识别领域,具体涉及一种基于图像与视频跨模态比对的行人重识别方法。
技术介绍
行人重识别技术是计算机视觉领域一个重要的基础性研究课题。行人重识别起源于视频领域的人物跟踪技术。当被跟踪的人物暂时离开摄像机拍摄区域,当其重新进入被拍摄区域时,需要重新将其识别出来,并为之分配与之前相同的ID。随着视频监控的广泛应用,有关行人重识别的研究受到越来越多的关注。目前,行人重识别并不局限于单一视角下的同一个人的识别,更普遍的情况是指在不同时间、不同视角下的人物重识别。目前关于行人重识别的研究大部分局限于基于图像间相似性比对的方法。即输入的查询为图像,而搜索的数据库也同样是由图像构成。尽管关于行人重识别的研究开展了很长时间,同时也取得了很大的进步,但是该问题仍然是一个非常具有挑战性的研究课题。其主要的原因是由于不同摄像机之间存在的光照、角度、背景之间的不同,再加上随着人物姿态的变化,同一个人在不同摄像机获取的照片中在外观上具有很大的差异。随着智慧城市建设步伐的加快,我们可以方便的获取包含人物信息的监控视频。 ...
【技术保护点】
一种基于图像与视频跨模态比对的行人重识别方法,用于从多个视频中检索出含有输入的查询图像中对应人物的视频,其特征在于,包括以下步骤:S1、构建可配置的深度模型;所述深度模型包括卷积神经网络、长短时记忆网络和相似性学习网络;卷积神经网络用于分别提取查询图像的图像特征和视频的视频特征;长短时记忆网络用于向提取到的视频特征中嵌入视频的空间信息,并输出包含该空间信息的空间视频特征;相似性学习网络用于将图像特征和空间视频特征映射到同一维度,并学习两者之间的相似性度量;S2、获取训练样本,并将训练样本输入深度模型中,以对深度模型进行训练;利用前向算法和后向算法学习出构建的深度模型的各部分 ...
【技术特征摘要】
1.一种基于图像与视频跨模态比对的行人重识别方法,用于从多个视频中检索出含有输入的查询图像中对应人物的视频,其特征在于,包括以下步骤:S1、构建可配置的深度模型;所述深度模型包括卷积神经网络、长短时记忆网络和相似性学习网络;卷积神经网络用于分别提取查询图像的图像特征和视频的视频特征;长短时记忆网络用于向提取到的视频特征中嵌入视频的空间信息,并输出包含该空间信息的空间视频特征;相似性学习网络用于将图像特征和空间视频特征映射到同一维度,并学习两者之间的相似性度量;S2、获取训练样本,并将训练样本输入深度模型中,以对深度模型进行训练;利用前向算法和后向算法学习出构建的深度模型的各部分参数;S3、利用S2中学习得到的参数对深度模型进行初始化;向深度模型中输入待测的查询图像和多个视频,由深度模型计算出各视频分别与该查询图像的相似性度量;S4、将与该查询图像的相似性度量高于一阈值的视频列出,并按照相似性度量的大小进行排序。2.根据权利要求1所述的方法,其特征在于,在S2中,输入训练样本之前,采用随机方式对深度模型的参数进行初始化。3.根据权利要求1所述的方法,其特征在于,在S2中,每组训练样本包括一查询图像和一视频,以及预先计算好的两者之间相互的相似性度量。4.根据权利要求1所述的方法,其特征在于,在卷积神经网络中,令x代表输入的查询图像,Y代表视频,Y={yt|t=1,...,N},其中yt为视频Y的第t帧图像,N为视频的总帧数。令Cnn代表卷积神经网络的函数,则查询图像x通过卷积神经网络后获取的图像特征表示如下:fx=Cnn(x);对于视频Y,利用卷积神经网络获取其每一帧图...
【专利技术属性】
技术研发人员:林倞,张冬雨,吴文熙,
申请(专利权)人:广州深域信息科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。