一种基于深度学习的视频GIS数据检索方法技术

技术编号:18445184 阅读:68 留言:0更新日期:2018-07-14 10:29
本发明专利技术公开了一种基于深度学习的视频GIS数据检索方法,包括:首先在对视频GIS数据进行空间和时间采样下,计算视频GIS帧帧差的欧式距离,并对视频镜头进行关键帧提取;然后建立由卷积层、激活层和池化层交替构成的深度卷积神经网络模型,对输入的视频GIS帧图像进行层层映射,实现视频GIS帧图像的深度特征表示;最后进行分层检索:第一层是用哈希方法和汉明距离进行粗检索;第二层把第一层粗检索的结果进行过滤,实现从候选池中视频GIS帧图像的前m个精检索。本发明专利技术采用帧差欧式距离来提取关键帧,使得检索的效率大大地提高,并采用深度卷积神经网络模型进行训练,提取更高层次的特征表示,使得检索时间和存储开销大幅度减少。

A method of video GIS data retrieval based on deep learning

The present invention discloses a method of video GIS data retrieval based on depth learning. The method includes: firstly, the Euclidean distance of video GIS frame difference is calculated under the spatial and time sampling of video GIS data, and the key frame is extracted from the video lens; then the depth of the coiling layer, activation layer and pool layer is formed alternately. The convolution neural network model maps the input video GIS frame images layer layer to realize the depth feature of the video GIS frame image. Finally, the hierarchical retrieval is carried out. The first layer is the rough retrieval with hash method and Hamming distance, and the second layer is used to filter the first rough retrieval result and realize the video GIS from the candidate pool. The first m of the frame image is retrieved. The invention adopts the frame difference Euclidean distance to extract key frames, greatly improves the efficiency of the retrieval, and trains with the deep convolution neural network model to extract the higher level of the feature representation, which makes the retrieval time and storage cost greatly reduced.

【技术实现步骤摘要】
一种基于深度学习的视频GIS数据检索方法
本专利技术涉及一种基于深度学习的视频GIS(GeographicInformationSystem,地理信息系统)数据检索方法,属于计算机视觉

技术介绍
视频GIS是地理视频与GIS融合产生的一种新视频,该视频的检索给政府管理和人民生活带来了巨大的便利。随着应用广度和深度的持续增强,视频GIS相关产业已经成为新的产业增长点。同时,随着智慧城市建设的发展和城市安防要求的提高,如何从视频GIS大数据中准确发现和获取用户所需的数据面临一系列瓶颈问题。一方面我们已经积累了巨量视频GIS数据,并且还在继续投巨资生产数据,另一方面,大量视频GIS数据受制于庞大的体量和缺乏有效的分析,限制了其应用的广度和深度。因此,对这些数据加以分析利用便成为关键,如何从这些视频GIS数据中快速有效的检索出自己所需要的数据成为了最近研究的热点。传统的视频检索方式是基于文本关键词的视频检索和基于内容的视频检索(Content-BasedVideoRetrieval,CBVR)。由于描述能力有限、主观性强和工作量大等原因,基于文本关键词的视频检索对于上述典型应用无能为力,不能满足视频GIS数据深度检索的需求。基于内容的视频检索(CBVR)就是根据用户输入的内容(图像等),在视频数据库中检索到与之相同或相似的视频片段或关键帧的过程。在基于内容的视频检索中,检索的对象往往不再局限于视频数据的本身,而是基于视频“内容”描述的数据,例如颜色特征和纹理特征。视频检索一般分为视频预处理、特征提取两个步骤。视频预处理最为关键的是关键帧的提取。关键帧是描述一个视频镜头的关键内容的图像特征,从关键帧中可以提取颜色、纹理、形状等底层特征,以作为视频摘要和数据库索引的数据源。若提取视频的每一帧,数据量庞大,而且存在重复和冗余的视频帧,因此关键帧的提取对建立视频索引是非常重要的。在特征提取方面,传统的视频检索特征提取算法(颜色特征、纹理特征和形状特征等)对特征的描绘需要很高的领域知识,而深度学习模拟人类大脑的结构,利用卷积神经网络的卷积层、池化层和全连接层等基本结构,就可以让网络结构自己学习和提取相关特征。因此,采用深度学习提取特征能够对视频GIS图像有更加精准的描绘程度,使得视频GIS数据检索的范围大大缩小,从而达到准确且快速的检索目的。现有技术中为了高效的表示视频特征数据,可以采用实数特征表示的方法或者二值哈希编码表示的方法。基于实数特征表示的方法是指将视频帧图像提取的实数特征向量作为表示,但是由于这种表示方法在检索时相当的耗时以及占存储空间,不能满足大规模的视频GIS数据检索的需求;基于二值哈希编码表示的方法是将视频帧图像用二值编码向量来编码表示,相较于采用实数特征表示的方法,在相同长度的表示下,存储空间大幅度减少。例如,在原始空间中,如果一个视频特征向量占1024个字节,那么一亿个视频特征就需要100G的存储空间,而如果每个视频特征用128比特的哈希编码表示的话,所有视频哈希的存储空间只需要1.6G。同时,相似的视频帧图像具有相似的二值码,然后使用汉明距离度量二值码之间的相似性,速度相当之快。
技术实现思路
专利技术目的:为了克服现有技术中存在的不足,本专利技术提供一种基于深度学习的视频GIS数据检索方法,以解决视频GIS数据检索中难以获得精准的检索结果、存储空间消耗大、检索速度慢的问题。要实现上述
技术实现思路
,必须要解决几个核心问题:(1)针对视频GIS库中存在重复与冗余的视频GIS帧的问题,设计一种高效的关键帧提取方法;(2)针对现有技术中对视频GIS图像底层特征表达能力不强的问题,利用深度学习方法,实现基于深度卷积神经网络的特征提取算法;(3)针对检索速度的问题,设计一种分层检索的视频GIS数据检索方法,在检索速度、精度等方面满足大规模视频GIS数据的检索需求。技术方案:为实现上述目的,本专利技术采用的技术方案为:一种基于深度学习的视频GIS数据检索方法,其特征在于,包括以下步骤:a.关键帧提取为了保证关键帧的有效性(即关键帧的数量足以代表视频镜头)和视频GIS数据检索的效率,并且反映了视频的时间特性,本专利技术在对视频进行空间和时间采样下,计算视频GIS帧帧差的欧式距离,并对视频镜头进行关键帧提取;其中相邻帧之间帧差的计算采用了欧式距离,一般情况下,同一镜头内的视频GIS帧之间帧差在平均值上下波动,且变化较小。假定相邻帧之间的帧差为(D1,D2,……,Dn-1,n表示镜头的总帧数),而视频GIS帧是彩色图像,需要将其转换成灰度图像,假设转换的帧是(X[1],X[2],...,X[n]),则公式1为镜头内所有视频GIS帧之间的帧差计算公式。需要特别指明的是,由于视频GIS数据是高清数据,关键帧像素比较高,导致后续提取时得到的关键点过多,特征匹配速度慢,影响视频GIS数据检索效率,因此本专利技术在保存关键帧之前,对镜头进行了采样处理,在尽可能保证关键帧信息完整的情况下降低了关键帧的像素。b.深度特征提取建立由卷积层、激活层和池化层交替构成的深度卷积神经网络模型,输入的视频GIS帧图像在网络中进行层层映射,得到各层对于视频GIS帧图像不同的表示形式,实现视频GIS帧图像的深度特征表示;c.分层检索所述检索过程包括粗检索和精检索:首先将深度网络模型学习到的高维特征向量转化成二值码,然后使用汉明距离度量二值码之间的相似性,得到候选相似关键帧的候选池;然后将待检索的视频GIS帧图像与候选池中的视频GIS帧图像用欧式距离度量它们之间的相似性,最终得到前m个相似的检索结果。进一步的,所述a.关键帧提取具体包括:输入:视频镜头V={V1,V2,...Vn},选取的关键帧数:K;输出:视频的关键帧;a1.采用欧式距离来计算相邻关键帧的帧差,设置循环变量i从1到n-2,n表示镜头的总帧数;a2.当i=n-2时,表示镜头的所有视频GIS帧已经遍历结束,输出视频GIS帧差的欧式距离,结束循环,否则继续执行a1;a3.计算帧差欧式距离的极值、最大值、最小值及中间值;a4.若极值>中间值,则筛选出极值,否则删除小于等于中间值的极值点;a5.若选取的关键帧数K>筛选的极值点的个数,则选取筛选的极值作为关键帧,否则,选取筛选的极值中前K帧作为关键帧。进一步的,所述b.深度特征提取具体包括:b1.训练前统一图像的尺寸:采用居中裁剪(centerCrop)的方法将尺寸统一到224*224,即先按照最小边缩放到224的比例系数,然后进行整体缩放,接着对长边以中心为基准向两边分别做等长裁剪,保留224长度,这样基本可以保证图像不变形的同时突出图像的主体;b2.建立深度卷积神经网络模型:包括5段卷积和3个全连接层,每段卷积内有2-3个卷积层,同时每段卷积尾部会连接一个最大池化层来缩小图片的尺寸;每个卷积层有3*3的过滤器,然后使用激活函数为修正线性单元(RectifiedLinearUnit,ReLU),由激活函数完成非线性变换,增强本模型对特征的学习能力;b3.损失函数及优化方法:在上述模型构建后,我们需要训练模型,其中损失函数选用多类的对数损失(categorical_crossentropy)函数,通过随机梯度下降法进行参数寻优以最本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的视频GIS数据检索方法,其特征在于,包括以下步骤:a.关键帧提取在对视频GIS数据进行空间和时间采样下,计算视频GIS帧帧差的欧式距离,并对视频镜头进行关键帧提取;b.深度特征提取建立由卷积层、激活层和池化层交替构成的深度卷积神经网络模型,对输入的视频GIS帧图像进行层层映射,得到各层对于视频GIS帧图像不同的表示形式,实现视频GIS帧图像的深度特征表示;c.分层检索所述检索过程包括粗检索和精检索:第一层将深度卷积神经网络模型学习到的高维特征向量转化成二值码,然后使用汉明距离度量二值码之间的相似性,得到候选相似关键帧的候选池;第二层将待检索的视频GIS帧图像与候选池中的视频GIS帧图像用欧式距离度量它们之间的相似性,最终得到前m个相似的检索结果。

【技术特征摘要】
1.一种基于深度学习的视频GIS数据检索方法,其特征在于,包括以下步骤:a.关键帧提取在对视频GIS数据进行空间和时间采样下,计算视频GIS帧帧差的欧式距离,并对视频镜头进行关键帧提取;b.深度特征提取建立由卷积层、激活层和池化层交替构成的深度卷积神经网络模型,对输入的视频GIS帧图像进行层层映射,得到各层对于视频GIS帧图像不同的表示形式,实现视频GIS帧图像的深度特征表示;c.分层检索所述检索过程包括粗检索和精检索:第一层将深度卷积神经网络模型学习到的高维特征向量转化成二值码,然后使用汉明距离度量二值码之间的相似性,得到候选相似关键帧的候选池;第二层将待检索的视频GIS帧图像与候选池中的视频GIS帧图像用欧式距离度量它们之间的相似性,最终得到前m个相似的检索结果。2.根据权利要求1所述的一种基于深度学习的视频GIS数据检索方法,其特征在于,所述a.关键帧提取具体包括:输入:视频镜头V={V1,V2,...Vn},选取的关键帧数:K;输出:视频的关键帧;a1.采用欧式距离来计算相邻关键帧的帧差,设置循环变量i从1到n-2,n表示镜头的总帧数;a2.当i=n-2时,表示镜头的所有视频GIS帧已经遍历结束,输出视频GIS帧差的欧式距离,结束循环,否则继续执行a1;a3.计算帧差欧式距离的极值、最大值、最小值及中间值;a4.若极值>中间值,则筛选出极值,否则删除小于等于中间值的极值点;a5.若选取的关键帧数K>筛选的极值点的个数,则选取筛选的极值作为关键帧,否则,选取筛选的极值中前K帧作为关键帧。3.根据权利要求1所述的一种基于深度学习的视频GIS数据检索方法,其特征在于,所述b.深度特征提取具体包括:b1.训练前统一图像的尺寸:采用centerCrop的方法将图像尺寸统一到224*224,即先按照最小边缩放到224的比例系数,并进行整体缩放,接着对长边以中心为基准向两边分别做等长裁剪,保留224的尺寸;b2.建立深度卷积神经网络模型:包括5段卷积和3个全连接层,每段卷积内有2-3个卷积层,同时每段卷积尾部连接一个最大池化层来缩小图片的尺寸;每个卷积层有3*3的过滤器,然后使用激活函数ReLU,由激活函数完成非线性变换,增强本模型对特征的学习能力;b3.损失函数及优化方法:在上述模型构建后,需要训练该模型,其中选用categorical_crossentropy损失函数,通过随机梯度下降法进行参数寻优以最小化损失函数,其中学习率为0.1,衰减项1e-6,动量0.9,使用nesterov最优梯度优化算法;b4.基于模型提取特征:在提取特征时,通过b1.将图像缩放到一个统一的尺寸,并将图像输入上述模型中进行计算,同时训练卷积神经网络,最终得到高维的特征向量;在初始化阶段,首先对视频GIS关键帧库进行特征提取操作,生成高维实值特征,从而构造一个特征数据库;当进行视频GIS数据检索时,对待检索的视频GIS帧图像进行特征提取操作,生成待检索特征。4.根据权利要求3所述的一种基于深度学习的视频GIS数据检索方法,...

【专利技术属性】
技术研发人员:邹志强戴海宏吴家皋何旭熊俊杰索玉聪
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1