一种基于深度学习的视频检索方法技术

技术编号：23161753 阅读：33 留言：0更新日期：2020-01-21 21:59

本发明专利技术提供一种基于深度学习的视频检索方法，该方法能通过G网络中的视频输入层以及RseNet的深度学习模型学习到视频的上下文特征，能够提取出可以表达视频类型的特征数，并且经过Hash层转换优化存储空间，使得视频特征存储所占空间极大降低。通过在相应数据集上的实验表明，本发明专利技术对比之前的视频检索方法，有较大提升，并且同样数据集占用的存储空间也有较大降低。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的视频检索方法
本专利技术涉及计算机视觉领域，更具体地，涉及一种基于深度学习的视频检索方法。
技术介绍
近年来，随着互联网的快速发展，网络已经成为人们娱乐和获取信息的主要途径，在这个过程中，互联网上积累了大量的视频数据，目前相当成熟的文字检索技术可以帮助人们获取信息，但是对于利用视频去进行检索却还有所欠缺。视频检索技术可以帮助人们查找某个视频相关的其他视频，因此视频检索技术无论是对学术界或者是工业界都表现除了极大的吸引力。目前的检索技术常见的如文字搜索文字、图片、视频，以及图片搜索图片，但是对于以视频搜索视频的技术还并不完善。本专利基于深度学习的方法，对视频特征进行提取，然后提供给检索用。深度学习的模型在图片领域上的应用比较成熟，但是对于视频领域，由于各种原因，比如视频数据集太大、数据集质量欠缺、模型不足以提取视频特征等因素，导致视频特征提取还不是非常成熟。目前常见的视频特征提取网络有3DConvolution、Two-StreamNetwork、CNN+RNN等。对于上述一些问题，通过调研后采取了3DConvolution网络，具体是3DResNet，该模型有许多种深度，例如常见的18层、34层、50层、101层、152层等。一般来说，深度越深，越能提取视频的细节特征。但是深度越深也会带来越高的计算开销，对硬件的要求会越高。综合了个因素后，采取了18层的ResNet进行视频的特征提取。经过测试，得出了18层ResNet已经可以达到一个不错的效果了。让深度学习进行学习从而达到对视频特征...

【技术保护点】
1.一种基于深度学习的视频检索方法，其特征在于，包括以下步骤：/nS1：建立用于视频特征提取的深度学习网络模型G；/nS2：对步骤S1中得到的模型进行训练与测试；/nS3：利用S3中得到的弄醒建立用于提供后台接口的进程，提供检索入口以及返回检索结果。/n

【技术特征摘要】
1.一种基于深度学习的视频检索方法，其特征在于，包括以下步骤：
S1：建立用于视频特征提取的深度学习网络模型G；
S2：对步骤S1中得到的模型进行训练与测试；
S3：利用S3中得到的弄醒建立用于提供后台接口的进程，提供检索入口以及返回检索结果。

2.根据权利要求1所述的基于深度学习的视频检索方法，其特征在于，所述步骤S1的具体过程是：
S11：建立G网络的第一层视频向量层，将预处理后的每个视频中的每一帧照片表示成一个低纬、稠密的实数向量，在大规模标注照片上预训练好的图片模型Resnet，将整个视频表示成视频向量矩阵X＝[x1,…,xt,…,xn]，其中n是视频帧数，向量矩阵X的维度是照片预处理大小112*112；
S12：建立G网络的第二层ResNet层，在这一层中让模型学习到整个视频的上下文信息，对于向量X，每一帧图片是向量中的一个元素，第t个帧元素表示为xt，通过ResNet模型后提取到一组设定好的nbit长度的特征向量；
S13：建立G网络的第三层特征向量Hash层，将ResNet输出的特征向量进行Hash转化成0、1值的向量，以此减少存储空间。

3.根据权利要求2所述的基于深度学习的视频检索方法，其特征在于，所述步骤S2的具体过程是：
S21：将数据集分为训练数据以及测试数据；
S22：整体的模型要进行训练，G网络的训练步骤如下：由G网络提取出视频特征，由损失函数L1的最小化来训练G网络模型，训练G网络的参数；
S23：模型的测试步骤为：先过第一遍测试数据集，将测试数据输...

【专利技术属性】
技术研发人员：印鉴，陈智聪，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人