一种相似视频的检索方法、装置和存储介质制造方法及图纸

技术编号：16038287 阅读：43 留言：0更新日期：2017-08-19 20:07

本发明专利技术实施例公开了一种相似视频的检索方法、装置和存储介质；本实施例在获取需要检索相似视频的视频信息后，一方面，可以根据预设知识图谱从视频库中获取与该视频信息匹配的视频，得到第一候选视频集合；另一方面，可以采用预设文本深度表示模型对该视频信息进行训练，以将视频信息转化为词向量，并根据词向量从视频库中筛选与该视频信息相似的视频，得到第二候选视频集合，然后，综合该第一候选视频集合和第二候选视频集合来选择该视频信息的相似视频，以达到检索相似视频的目的；该方案不仅可以提高召回率和检索结果的准确性，而且可以降低模型训练的频率，节省计算资源。

全部详细技术资料下载

【技术实现步骤摘要】
一种相似视频的检索方法、装置和存储介质
本专利技术涉及通信
，具体涉及一种相似视频的检索方法、装置和存储介质。
技术介绍
在信息爆炸的时代，面对海量的视频，如何从中准确且全面地检索到相似视频，对于用户查询和视频信息推荐等场景，都有着积极的意义。现有在检索相似视频时，一般都会采用文本深度表示模型(word2vec)来进行建模，然后，基于该模型计算视频标题的相似度，并根据该相似度来查找相似的视频。其中，训练word2vec模型的语料主要来自于网络，若语料发生更新，则该word2vec模型需要重新进行训练。在对现有技术的研究和实践过程中，本专利技术的专利技术人发现，现有方案非常依赖于分词效果、语料的量级以及语料更新的及时性，若语料更新不及时，对于一些新出现的视频信息，则可能无法取得正确的分词结果，进而影响word2vec模型的训练结果，最终导致召回率(R，Recall，也称为查全率)较低，检索结果不准确，而若语料更新频率过大，则需要消耗大量的训练时间和计算资源，导致资源浪费。
技术实现思路
本专利技术实施例提供一种相似视频的检索方法、装置和存储介质，不仅可以提高召回率...

【技术保护点】
一种相似视频的检索方法，其特征在于，包括：获取需要检索相似视频的视频信息，所述视频信息包括视频标签和视频标题；根据预设知识图谱从视频库中获取与所述视频信息匹配的视频，得到第一候选视频集合；采用预设文本深度表示模型对所述视频信息进行训练，以将所述视频信息转化为词向量；根据词向量从所述视频库中筛选与所述视频信息相似的视频，得到第二候选视频集合；根据所述第一候选视频集合和第二候选视频集合确定所述视频信息的相似视频。

【技术特征摘要】
1.一种相似视频的检索方法，其特征在于，包括：获取需要检索相似视频的视频信息，所述视频信息包括视频标签和视频标题；根据预设知识图谱从视频库中获取与所述视频信息匹配的视频，得到第一候选视频集合；采用预设文本深度表示模型对所述视频信息进行训练，以将所述视频信息转化为词向量；根据词向量从所述视频库中筛选与所述视频信息相似的视频，得到第二候选视频集合；根据所述第一候选视频集合和第二候选视频集合确定所述视频信息的相似视频。2.根据权利要求1所述的方法，其特征在于，所述根据预设知识图谱从视频库中获取与所述视频信息匹配的视频，得到第一候选视频集合，包括：从所述视频标签和视频标题中抽取实体词，得到种子；根据预设知识图谱从视频库中获取与所述种子匹配的视频，得到第一候选视频集合。3.根据权利要求2所述的方法，其特征在于，所述根据预设知识图谱从视频库中获取与所述种子匹配的视频，得到第一候选视频集合，包括：根据预设知识图谱确定与所述种子具有强关联关系的实体词，得到候选词；从视频库中获取视频信息中包含所述候选词的视频，得到第一候选视频集合。4.根据权利要求3所述的方法，其特征在于，所述根据预设知识图谱确定与所述种子具有强关联关系的实体词，得到候选词，包括：将所述种子映射到预设实体库中的实体词上，所述实体库根据预设知识图谱建立而成；确定所述种子与所述实体库中各个实体词的关系度；选取关系度小于等于设定值的实体词作为候选词。5.根据权利要求4所述的方法，其特征在于，所述将所述种子映射到预设实体库中的实体词上之前，还包括：设置基础词库；根据所述基础词库获取互联网信息，并对所述互联网信息进行非实体词清洗；根据所述基础词库、以及清洗后的互联网信息构建实体词之间的三元组关系，得到实体库。6.根据权利要求1至5任一项所述的方法，其特征在于，所述采用预设文本深度表示模型对所述视频信息进行训练，以将所述视频信息转化为词向量，包括：对所述视频标签和视频标题进行分词，得到分词后视频文本；采用预设文本深度表示模型对所述分词后视频文本进行训练，得到所述分词后视频文本的词向量；所述根据词向量从所述视频库中筛选与所述视频信息相似的视频，得到第二候选视频集合，包括：根据所述分词后视频文本的词向量从所述视频库中筛选与所述视频信息相似的视频，得到第二候选视频集合。7.根据权利要求6所述的方法，其特征在于，所述根据所述分词后视频文本的词向量从所述视频库中筛选与所述视频信息相似的视频，得到第二候选视频集合，包括：根据所述分词后视频文本的词向量，分别计算所述视频信息与所述视频库中各个视频的相似度；选取相似度高于预设阈值的视频，得到第二候选视频集合中。8.根据权利要求6所述的方...

【专利技术属性】
技术研发人员：张媛媛，于群，占飞，华枭，張永燊，熊磊，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人