The present invention discloses a method of video GIS data retrieval based on depth learning. The method includes: firstly, the Euclidean distance of video GIS frame difference is calculated under the spatial and time sampling of video GIS data, and the key frame is extracted from the video lens; then the depth of the coiling layer, activation layer and pool layer is formed alternately. The convolution neural network model maps the input video GIS frame images layer layer to realize the depth feature of the video GIS frame image. Finally, the hierarchical retrieval is carried out. The first layer is the rough retrieval with hash method and Hamming distance, and the second layer is used to filter the first rough retrieval result and realize the video GIS from the candidate pool. The first m of the frame image is retrieved. The invention adopts the frame difference Euclidean distance to extract key frames, greatly improves the efficiency of the retrieval, and trains with the deep convolution neural network model to extract the higher level of the feature representation, which makes the retrieval time and storage cost greatly reduced.
【技术实现步骤摘要】
一种基于深度学习的视频GIS数据检索方法
本专利技术涉及一种基于深度学习的视频GIS(GeographicInformationSystem,地理信息系统)数据检索方法,属于计算机视觉
技术介绍
视频GIS是地理视频与GIS融合产生的一种新视频,该视频的检索给政府管理和人民生活带来了巨大的便利。随着应用广度和深度的持续增强,视频GIS相关产业已经成为新的产业增长点。同时,随着智慧城市建设的发展和城市安防要求的提高,如何从视频GIS大数据中准确发现和获取用户所需的数据面临一系列瓶颈问题。一方面我们已经积累了巨量视频GIS数据,并且还在继续投巨资生产数据,另一方面,大量视频GIS数据受制于庞大的体量和缺乏有效的分析,限制了其应用的广度和深度。因此,对这些数据加以分析利用便成为关键,如何从这些视频GIS数据中快速有效的检索出自己所需要的数据成为了最近研究的热点。传统的视频检索方式是基于文本关键词的视频检索和基于内容的视频检索(Content-BasedVideoRetrieval,CBVR)。由于描述能力有限、主观性强和工作量大等原因,基于文本关键词的视频检索对于上述典型应用无能为力,不能满足视频GIS数据深度检索的需求。基于内容的视频检索(CBVR)就是根据用户输入的内容(图像等),在视频数据库中检索到与之相同或相似的视频片段或关键帧的过程。在基于内容的视频检索中,检索的对象往往不再局限于视频数据的本身,而是基于视频“内容”描述的数据,例如颜色特征和纹理特征。视频检索一般分为视频预处理、特征提取两个步骤。视频预处理最为关键的是关键帧的提取。关键帧是描 ...
【技术保护点】
1.一种基于深度学习的视频GIS数据检索方法,其特征在于,包括以下步骤:a.关键帧提取在对视频GIS数据进行空间和时间采样下,计算视频GIS帧帧差的欧式距离,并对视频镜头进行关键帧提取;b.深度特征提取建立由卷积层、激活层和池化层交替构成的深度卷积神经网络模型,对输入的视频GIS帧图像进行层层映射,得到各层对于视频GIS帧图像不同的表示形式,实现视频GIS帧图像的深度特征表示;c.分层检索所述检索过程包括粗检索和精检索:第一层将深度卷积神经网络模型学习到的高维特征向量转化成二值码,然后使用汉明距离度量二值码之间的相似性,得到候选相似关键帧的候选池;第二层将待检索的视频GIS帧图像与候选池中的视频GIS帧图像用欧式距离度量它们之间的相似性,最终得到前m个相似的检索结果。
【技术特征摘要】
1.一种基于深度学习的视频GIS数据检索方法,其特征在于,包括以下步骤:a.关键帧提取在对视频GIS数据进行空间和时间采样下,计算视频GIS帧帧差的欧式距离,并对视频镜头进行关键帧提取;b.深度特征提取建立由卷积层、激活层和池化层交替构成的深度卷积神经网络模型,对输入的视频GIS帧图像进行层层映射,得到各层对于视频GIS帧图像不同的表示形式,实现视频GIS帧图像的深度特征表示;c.分层检索所述检索过程包括粗检索和精检索:第一层将深度卷积神经网络模型学习到的高维特征向量转化成二值码,然后使用汉明距离度量二值码之间的相似性,得到候选相似关键帧的候选池;第二层将待检索的视频GIS帧图像与候选池中的视频GIS帧图像用欧式距离度量它们之间的相似性,最终得到前m个相似的检索结果。2.根据权利要求1所述的一种基于深度学习的视频GIS数据检索方法,其特征在于,所述a.关键帧提取具体包括:输入:视频镜头V={V1,V2,...Vn},选取的关键帧数:K;输出:视频的关键帧;a1.采用欧式距离来计算相邻关键帧的帧差,设置循环变量i从1到n-2,n表示镜头的总帧数;a2.当i=n-2时,表示镜头的所有视频GIS帧已经遍历结束,输出视频GIS帧差的欧式距离,结束循环,否则继续执行a1;a3.计算帧差欧式距离的极值、最大值、最小值及中间值;a4.若极值>中间值,则筛选出极值,否则删除小于等于中间值的极值点;a5.若选取的关键帧数K>筛选的极值点的个数,则选取筛选的极值作为关键帧,否则,选取筛选的极值中前K帧作为关键帧。3.根据权利要求1所述的一种基于深度学习的视频GIS数据检索方法,其特征在于,所述b.深度特征提取具体包括:b1.训练前统一图像的尺寸:采用centerCrop的方法将图像尺寸统一到224*224,即先按照最小边缩放到224的比例系数,并进行整体缩放,接着对长边以中心为基准向两边分别做等长裁剪,保留224的尺寸;b2.建立深度卷积神经网络模型:包括5段卷积和3个全连接层,每段卷积内有2-3个卷积层,同时每段卷积尾部连接一个最大池化层来缩小图片的尺寸;每个卷积层有3*3的过滤器,然后使用激活函数ReLU,由激活函数完成非线性变换,增强本模型对特征的学习能力;b3.损失函数及优化方法:在上述模型构建后,需要训练该模型,其中选用categorical_crossentropy损失函数,通过随机梯度下降法进行参数寻优以最小化损失函数,其中学习率为0.1,衰减项1e-6,动量0.9,使用nesterov最优梯度优化算法;b4.基于模型提取特征:在提取特征时,通过b1.将图像缩放到一个统一的尺寸,并将图像输入上述模型中进行计算,同时训练卷积神经网络,最终得到高维的特征向量;在初始化阶段,首先对视频GIS关键帧库进行特征提取操作,生成高维实值特征,从而构造一个特征数据库;当进行视频GIS数据检索时,对待检索的视频GIS帧图像进行特征提取操作,生成待检索特征。4.根据权利要求3所述的一种基于深度学习的视频GIS数据检索方法,...
【专利技术属性】
技术研发人员:邹志强,戴海宏,吴家皋,何旭,熊俊杰,索玉聪,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。