一种基于关键词树的视频检索方法及系统技术方案

技术编号:13743223 阅读:115 留言:0更新日期:2016-09-23 04:25
本发明专利技术公开一种基于关键词树的视频检索方法及系统,其中,所述方法包括步骤:从网络端获取视频语料库信息并进行整理;根据整理后的视频语料库信息构建具有不同层次的关键词树;获取用户语音指令并对语音识别后的文本进行分词,提取包含视频信息的目标关键词;在关键词树上查找与所述目标关键词相关联的同义关键词,并计算所述目标关键词与所述同义关键词之间的距离;根据所述距离的大小对同义关键词进行排序,并根据排序结果在数据库中对所述同义关键词依次进行检索,并按照检索顺序返回检索结果。通过本发明专利技术能有效解决现有视频检索仅通过文本中的关键词进行检索导致检索结果不准确的问题。

【技术实现步骤摘要】

本专利技术涉及检索领域,尤其涉及一种基于关键词树的视频检索方法及系统
技术介绍
视频检索是搜索的一个特定应用领域,根据关键词在视频库检索排序需要考虑结果和关键词的相似度,常用的视频检索主要是基于视频文本的匹配。在智能家居领域,用户在智能电视和智能手机等终端输入语音,进一步转换为文本处理,在用户表达中,一般是用户的口头表达,往往直接利用语音转换后的文本进行简单的文本匹配搜索,很有可能找不到用户需要的结果。一个目标视频的名称在视频的存储是给定的,然而这种名称还包含着其他形式的表达,例如用户语音输入【我要看武则天】,在视频库可能存储的是【武媚娘传奇】等相关视频,因此首先需要将语音识别的文本进行分词,识别文本中的视频信息关键词【武则天】,进一步利用识别到的关键词进行检索。然而,如果仅仅通过【武则天】到视频库查找,很可能找不到用户想要的视频信息,导致检索失败。而实际的【武媚娘传奇】和【武则天】关联很大,并且可能是同一部影视的别名。因此,现有技术还有待于改进和发展。
技术实现思路
鉴于上述现有技术的不足,本专利技术的目的在于提供一种基于关键词树的视频检索方法及系统,旨在解决现有视频检索仅通过文本中的关键词进行检索导致检索结果不准确的问题。本专利技术的技术方案如下:一种基于关键词树的视频检索方法,其中,包括步骤:A、从网络端获取视频语料库信息并进行整理;B、根据整理后的视频语料库信息构建具有不同层次的关键词树;C、获取用户语音指令并对语音识别后的文本进行分词,提取包含视频信息的目标关键词;D、在关键词树上查找与所述目标关键词相关联的同义关键词,并计算所述目标关键词与所述同义关键词之间的距离;E、根据所述距离的大小对同义关键词进行排序,并根据排序结果在数据库中对所述同义关键词依次进行检索,并按照检索顺序返回检索结果。较佳地,所述的基于关键词树的视频检索方法,其中,所述步骤A中的视频语料库信息包括:视频类别、视频标签、视频官方标题以及视频相关命名。较佳地,所述的基于关键词树的视频检索方法,其中,所述步骤B具体包括:B1、将所述视频语料库信息分层次列表;B2、根据所述列表构建具有不同层次的关键词树。较佳地,所述的基于关键词树的视频检索方法,其中,所述步骤D具体包括:D1、在关键词树上查找与所述目标关键词相关联的同义关键词;D2、当所述目标关键词为一个时,根据公式计算目标关键词与同义关联词的距离,所述A和B均为关键词树上的节点,所述表示节点A和节点B包含的关键词的交集的个数,且;当所述目标关键词为多个时,根据公式计算目标关键词与同义关键词的距离,所述,分别为两个节点组合。较佳地,所述的基于关键词树的视频检索方法,其中,所述步骤D还包括:D3、计算所述目标关键词与所述同义关键词之间的相似度。较佳地,所述的基于关键词树的视频检索方法,其中,所述步骤E具体包括:E1、根据所述距离的大小对同义关键词进行排序,将与所述目标关键词距离较小的同义关键词排在前面,与所述目标关键词距离较大的同义关键词排在后面;E2、先对目标关键词进行检索,再根据排序结果对同义关键词依次进行检索,最后按照检索顺序返回检索结果。一种基于关键词树的视频检索系统,其中,包括:信息获取模块,用于从网络端获取视频语料库信息并进行整理;关键词树构建模块,用于根据整理后的视频语料库信息构建具有不同层次的关键词树;目标关键词提取模块,用于获取用户语音指令并对语音识别后的文本进行分词,提取包含视频信息的目标关键词;计算模块,用于在关键词树上找出与所述目标关键词相关联的同义关键词,并计算所述目标关键词与所述同义关键词之间的距离;检索模块,用于根据所述距离的大小对目标关键词和同义关键词进行排序,并根据排序结果在数据库中对所述目标关键词和同义关键词依次进行检索,并按照检索顺序返回检索结果。较佳地,所述的基于关键词树的视频检索系统,其中,所述关键词树构建模块具体包括:列表单元,用于将所述视频语料库信息分层次列表;关键词树构建单元,用于根据所述列表构建具有不同层次的关键词树。较佳地,所述的基于关键词树的视频检索系统,其中,所述计算模块具体包括:查找单元,用于在关键词树上查找与所述目标关键词相关联的同义关键词;距离计算单元,用于当所述目标关键词为一个时,根据公式计算目标关键词与同义关联词的距离,所述A和B均为关键词树上的节点,所述表示节点A和节点B包含的关键词的交集的个数,且;当所述目标关键词为至少两个时,根据公式计算目标关键词与同义关键词的距离,所述,分别为两个节点组合;相似度计算单元,用于计算所述目标关键词与所述同义关键词之间的相似度。较佳地,所述的基于关键词树的视频检索系统,其中,所述检索模块具体包括:排序单元,用于根据所述距离的大小对同义关键词进行排序,将与所述目标关键词距离较小的同义关键词排在前面,与所述目标关键词距离较大的同义关键词排在后面;检索单元,用于先对目标关键词进行检索,再根据排序结果对同义关键词依次进行检索,最后按照检索顺序返回检索结果。有益效果:本专利技术通过构建关键词树,根据构建的关键词树计算目标关键词与同义关键词之间的距离,根据距离大小对所述同义关键词进行排序,最后根据目标关键词与排序后的同义关键词依次进行视频检索,并返回检索结果。通过本专利技术能有效解决现有视频检索仅通过文本中的关键词进行检索导致检索结果不准确的问题。附图说明图1为本专利技术一种基于关键词树的视频检索方法较佳实施例的流程图。图2为本专利技术构建的一种关键词树较佳实施例的示例图。图3为本专利技术图2中关键词树各节点之间距离的无向图。图4为本专利技术一种基于关键词树的视频检索系统较佳实施例的结构框图。具体实施方式本专利技术提供一种基于关键词树的视频检索方法及系统,为使本专利技术的目的、技术方案及效果更加清楚、明确,以下对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。请参阅图1,图1为本专利技术一种基于关键词树的视频检索方法较佳实施例的流程图,其包括步骤:S10、从网络端获取视频语料库信息并进行整理;S20、根据整理后的视频语料库信息构建关键词树;S30、获取用户语音指令并对语音识别后的文本进行分词,提取包含视频信息的目标关键词;S40、在关键词树上查找与所述目标关键词相关联的同义关键词,并计算所述目标关键词与所述同义关键词之间的距离;S50、根据所述距离的大小对同义关键词进行排序,并根据排序结果在数据库中对所述同义关键词依次进行检索,返回检索结果。首先,在本专利技术所述步骤S10中,所述视频语料库信息获取途径考虑从网络端采集,较佳地,例如从百科信息、优酷网站、豆瓣影视或乐视网等具有丰富视频信息的网站中搜集。进一步,所述视频语料库信息主要包括视频类别、视频标签、视频官方标题以及视频相关命名等信息,为保证视频检索的准确性与全面性,应尽可能地搜集更多的视频语料库信息。较佳地,对搜集到的视频语料库信息进行整理,整理后的视频语料库信息如表1所示:表1 整理后的视频语料库信息类别标签官方标题其他名电影动作/惊悚/冒险007:幽灵党007:鬼影帝国/ 007:恶魔四伏/ 007:大破幽灵危机/ 007系24:大破幽灵危机 电视剧传记 / 历史 / 古装/剧情武媚娘传奇武则天 / 武本文档来自技高网...

【技术保护点】
一种基于关键词树的视频检索方法,其特征在于,包括步骤:A、从网络端获取视频语料库信息并进行整理;B、根据整理后的视频语料库信息构建具有不同层次的关键词树;C、获取用户语音指令并对语音识别后的文本进行分词,提取包含视频信息的目标关键词;D、在关键词树上查找与所述目标关键词相关联的同义关键词,并计算所述目标关键词与所述同义关键词之间的距离;E、根据所述距离的大小对同义关键词进行排序,并根据排序结果在数据库中对所述同义关键词依次进行检索,并按照检索顺序返回检索结果。

【技术特征摘要】
1.一种基于关键词树的视频检索方法,其特征在于,包括步骤:A、从网络端获取视频语料库信息并进行整理;B、根据整理后的视频语料库信息构建具有不同层次的关键词树;C、获取用户语音指令并对语音识别后的文本进行分词,提取包含视频信息的目标关键词;D、在关键词树上查找与所述目标关键词相关联的同义关键词,并计算所述目标关键词与所述同义关键词之间的距离;E、根据所述距离的大小对同义关键词进行排序,并根据排序结果在数据库中对所述同义关键词依次进行检索,并按照检索顺序返回检索结果。2.根据权利要求1所述的基于关键词树的视频检索方法,其特征在于,所述步骤A中的视频语料库信息包括:视频类别、视频标签、视频官方标题以及视频相关命名。3.根据权利要求1所述的基于关键词树的视频检索方法,其特征在于,所述步骤B具体包括:B1、将所述视频语料库信息分层次列表;B2、根据所述列表构建具有不同层次的关键词树。4.根据权利要求1所述的基于关键词树的视频检索方法,其特征在于,所述步骤D具体包括:D1、在关键词树上查找与所述目标关键词相关联的同义关键词;D2、当所述目标关键词为一个时,根据公式计算目标关键词与同义关联词的距离,所述A和B均为关键词树上的节点,所述表示节点A和节点B包含的关键词的交集的个数,且;当所述目标关键词为多个时,根据公式计算目标关键词与同义关键词的距离,所述,分别为两个节点组合。5.根据权利要求4所述的基于关键词树的视频检索方法,其特征在于,所述步骤D还包括:D3、计算所述目标关键词与所述同义关键词之间的相似度。6.根据权利要求1所述的基于关键词树的视频检索方法,其特征在于,所述步骤E具体包括:E1、根据所述距离的大小对同义关键词进行排序,将与所述目标关键词距离较小的同义关键词排在前面,与所述目标关键词距离较大的同义关键词排在后面;E2、先对目标关键词进行检索,再根据排序结果对同义关键词依次进行检索,最后按照...

【专利技术属性】
技术研发人员:吴成龙
申请(专利权)人:TCL集团股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1