一种匹配文字信息的视频检索方法技术

技术编号：24574800 阅读：32 留言：0更新日期：2020-06-21 00:13

本发明专利技术提出一种匹配文字信息的视频检索方法。首先使用知识图谱对文字信息进行信息扩充并建立文字特征向量矩阵，其次参考文字特征向量矩阵训练FCN模型，建立视频与文字信息的关系，使用单向LSTM神经网络将视频生成特征描述并建立视频特征向量矩阵，再将两个向量矩阵导入RNN循环神经网络模型进行训练，最后将生成文字特征向量矩阵和视频特征向量矩阵的方法加入到已训练好的模型作为处理文字和视频的接口，实现匹配文字信息的视频检索。本发明专利技术能通过输入的文字信息检索出视频库中内容高契合度的视频，而且由于筛选和检索在RNN内部完成，并不需要储存视频的特征描述信息，减少了关键数据储存量，提升了视频检索的效率，实现了基于视频内容的视频检索。

A video retrieval method for matching text information

全部详细技术资料下载

【技术实现步骤摘要】
一种匹配文字信息的视频检索方法
本专利技术涉及视频检索
，特别是涉及一种匹配文字信息的视频检索方法。
技术介绍
随着互联网技术的飞速发展、各种视频拍摄，剪辑和采集设备不断的更新换代，网络视频的数量呈爆炸式增长。人们能够更加便利的查看视频的同时，也要求更加高效更加精准的视频检索。传统的基于文本的视频检索方法需要先人工对视频信息进行注解，再使用基于文本的数据库管理系统进行视频检索，因此，在视频检索过程需要大量的时间和存储索引空间。随着视频数据数量上的飞速增长，基于文本的视频检索已无法满足人们的检索需求，难以通过少量简要的文字信息检索出视频，同时在处理基于视频内容的检索时效率很低甚至无效。综上可知，解决视频检索问题的关键在于文字信息如何扩充来降低检索复杂度以及如何实现基于视频内容的检索。随着人工智能技术的发展，深度学习技术为解决这些问题提供了新的思路。神经网络是一种模拟人脑的神经网络以期能够实现类人工智能的机器学习技术，其中的知识图谱技术可以将复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制显示出来，并加以处理和使用，可以对文字信息进行扩充。视频描述(videocaptioning)技术能将视频生成文字描述，即视频图像领域到文本领域的转化。循环神经网络(RecurrentNeuralNetwork,RNN)可以用于实现视频检索系统整体的功能。基于此，设计一种匹配文字信息的视频检索方法。
技术实现思路
本专利技术公开了一种匹配文字信息的视频检索方法，主要应用知识图谱和videocap...

【技术保护点】
1.一种匹配文字信息的视频检索方法，其特征在于所述方法至少包括以下步骤：/n步骤1、使用知识图谱对文字信息进行信息扩充并建立文字特征向量矩阵，再参考文字特征向量矩阵训练全卷积神经网络FCN模型，建立视频与文字信息的关系，使用单向LSTM神经网络对视频生成特征描述并建立视频特征向量矩阵，记录对文字信息进行信息扩充并生成文字特征向量矩阵和用video captioning技术对待检测视频生成描述并通过word2vec模型建立视频特征向量矩阵的方法及参数；/n步骤2、将文字特征向量矩阵和视频特征向量矩阵导入RNN循环神经网络模型进行训练，再将用知识图谱对文字信息进行信息扩充并生成文字特征向量矩阵的方法作为处理文字信息的接口，将用video captioning技术对待检测视频生成描述并通过word2vec模型建立视频特征向量矩阵的方法作为处理视频的接口，最后把整个模型载入视频检索引擎，处理并判断模型可用性是否达成目标。/n

【技术特征摘要】
1.一种匹配文字信息的视频检索方法，其特征在于所述方法至少包括以下步骤：
步骤1、使用知识图谱对文字信息进行信息扩充并建立文字特征向量矩阵，再参考文字特征向量矩阵训练全卷积神经网络FCN模型，建立视频与文字信息的关系，使用单向LSTM神经网络对视频生成特征描述并建立视频特征向量矩阵，记录对文字信息进行信息扩充并生成文字特征向量矩阵和用videocaptioning技术对待检测视频生成描述并通过word2vec模型建立视频特征向量矩阵的方法及参数；
步骤2、将文字特征向量矩阵和视频特征向量矩阵导入RNN循环神经网络模型进行训练，再将用知识图谱对文字信息进行信息扩充并生成文字特征向量矩阵的方法作为处理文字信息的接口，将用videocaptioning技术对待检测视频生成描述并通过word2vec模型建立视频特征向量矩阵的方法作为处理视频的接口，最后把整个模型载入视频检索引擎，处理并判断模型可用性是否达成目标。

2.根据权利要求1所述的匹配文字信息的视频检索方法，其特征在于所述的使用知识图谱对文字信息进行信息扩充并建立文字特征向量矩阵至少还包括：
1)将输入的文字信息拆成一组词，并将其与知识库的实体进行链接，再接着找出距离链接实体一跳之内的所有邻接实体，利用word2vec模型可以得到词的向量表示，利用知识图谱嵌入模型可以得到知识库实体的向量表示；
2)把输入的文字、链接实体、上下文实体的向量表示通过一个非线性变换映射到同一个向量空间：
g(e1:n)＝[g(e1)g(e2)…g(en)]

3)然后类似于图像中RGB的三通道，将词、链接实体、上下文实体的向量表示作为CNN神经网络多通道的输入，架构一个KCNN神经网络，这样KCNN神经网络模型的输入就可以表示为：

4)给定词汇数据库，通过KCNN神经网络得到文字信息的向量表示：采用一个DNN神经网络模型作为注意力网络和一个归一化函数softmax计算归一化影响力权重：

得到词汇数据库关于输入文字的向量表示：再使用另一个DNN神经网络模型预测文字与拓展信息的关联概率，通过两个模型的结果，从语义和知识两个层面对输入进行表示，而且实体和单词的对齐机制融合了异构的信息源，能更好地捕捉文字之间的隐含关系，使其能通过隐含关系对输入的文字信息进行信息扩充。

3.根据权利要求1所述的匹...

【专利技术属性】
技术研发人员：邓清勇，钱利智，谭智辉，向懿，房海鹏，徐康宇，曾艳，欧阳艳，关屋大雄，胡怡玮，
申请(专利权)人：湘潭大学，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人