视频网站的垂直搜索方法及其系统技术方案

技术编号:9906982 阅读:102 留言:0更新日期:2014-04-11 06:01
本发明专利技术公开了一种视频网站的垂直搜索方法及其系统,其中该方法包括:获取多种维度的视频数据的数据源,将所述数据源转换为按照预定数据结构建立的数据模型,并将所述数据模型存储为物化视图文件;根据所述物化视图文件建立视频数据的倒排索引文件;根据接收到的检索信息,从所述倒排索引文件中获取视频数据的倒排索引结果集;根据选定的排序参数对所述倒排索引结果集进行排序。通过本发明专利技术实现了视频资源的垂直搜索,有效提高了视频资源的检索效率。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种视频网站的垂直搜索方法及其系统,其中该方法包括:获取多种维度的视频数据的数据源,将所述数据源转换为按照预定数据结构建立的数据模型,并将所述数据模型存储为物化视图文件;根据所述物化视图文件建立视频数据的倒排索引文件;根据接收到的检索信息,从所述倒排索引文件中获取视频数据的倒排索引结果集;根据选定的排序参数对所述倒排索引结果集进行排序。通过本专利技术实现了视频资源的垂直搜索,有效提高了视频资源的检索效率。【专利说明】视频网站的垂直搜索方法及其系统
本专利技术涉及信息检索技术,尤其涉及一种视频网站的垂直搜索方法及其系统。
技术介绍
随着科技的发展,越来越多的用户通过互联网搜索并观看各种视频。由于互联网提供的视频信息十分丰富,并具有不断变化及更新的特点,随之产生了多种搜索引擎进行视频信息检索。在关系数据库系统中,索引是检索数据最有效率的方式。但对于全网的视频搜索引擎,并不能满足其特殊要求。由于搜索引擎面对的是全网的海量视频数据,例如乐视网等大型的视频网站搜索引擎索引都是亿级甚至几千亿的网页数量,面对如此海量的视频数据,使得数据库系统很难有效的管理。在进行全网搜索时,会产生大量的检索结果,而用户需要的有用信息不能快速地查找到,不能够满足排序需求。综上所述可知,现有技术中对海量视频资源的垂直搜索尚未提出有效地解决方案,因此有必要提出改进的技术手段解决上述问题。
技术实现思路
本专利技术的主要目的在于提供一种视频网站的垂直搜索方法及其系统,以解决现有技术存在的缺少有效的视频资源的垂直搜索技术方案的问题。根据本专利技术的一方面,提供一种视频网站的垂直搜索方法,其包括:获取多种维度的视频数据的数据源,将所述数据源转换为按照预定数据结构建立的数据模型,并将所述数据模型存储为物化视图文件;根据所述物化视图文件建立视频数据的倒排索引文件;根据接收到的检索信息,从所述倒排索引文件中获取视频数据的倒排索引结果集;根据选定的排序参数对所述倒排索引结果集进行排序。其中,所述视频数据包括基础数据和扩展数据;所述将所述数据源转换为按照预定数据结构建立的数据模型,包括:将所述基础数据按照横表的方式进行存储,将所述扩展数据按照列表的方式进行存储。其中,所述根据所述物化视图文件建立视频数据的倒排索引文件,包括:通过预设的分词方式对物化视图文件进行分词处理得到关键词;建立所述关键词与具有所述关键词的物化视图文件之间的索引关系,从而建立视频数据的倒排索引文件。其中,所述根据接收到的检索信息,从所述倒排索引文件中获取视频数据的倒排索引结果集,包括:接收对于视频数据的检索信息;在所述倒排索引文件中匹配所述检索信息,根据与所述检索信息匹配的所述倒排索引文件中的数据得到所述倒排索引结果集。其中,在所述根据选定的排序参数对倒排索引结果集进行排序之前,所述方法还包括:接收用户选定的排序参数,所述排序参数包括:视频类型、上映时间、播放时长、视频文件相关的信息。根据本专利技术的另一方面,还提供一种视频网站的垂直搜索系统,其包括:数据源处理模块,用于获取多种维度的视频数据的数据源,将所述数据源转换为按照预定数据结构建立的数据模型,并将所述数据模型存储为物化视图文件;倒排索引模块,用于根据所述物化视图文件建立视频数据的倒排索引文件,以及根据接收到的检索信息,从所述倒排索引文件中获取视频数据的倒排索引结果集;排序模块,用于根据选定的排序参数对所述倒排索引结果集进行排序。其中,所述视频数据包括基础数据和扩展数据;所述数据源处理模块进一步包括:处理子模块,用于将所述基础数据按照横表的方式进行存储,将所述扩展数据按照列表的方式进行存储。其中,所述倒排索引模块包括:关键词获取子模块,用于通过预设的分词方式对物化视图文件进行分词处理得到关键词;倒排索引建立子模块,用于建立所述关键词与具有所述关键词的物化视图文件之间的索引关系,从而建立视频数据的倒排索引文件。其中,所述倒排索引模块还包括:检索信息接收子模块,用于接收对于视频数据的检索信息;匹配子模块,用于在所述倒排索引文件中匹配所述检索信息,并根据与所述检索信息匹配的所述倒排索引文件中的数据得到所述倒排索引结果集。其中,所述排序模块包括:参数接收子模块,用于接收用户选定的排序参数,所述排序参数包括:视频类型、上映时间、播放时长、视频文件相关的信息;排序子模块,用于根据所述参数接收模块接收的排序参数对倒排索引结果集进行排序。根据本专利技术的技术方案,通过将多维度数据源建立数据模型,建立倒排索引文件,并根据排序参数对倒排索引结果集进行排序,有效提高了视频资源的检索效率,实现了视频资源的垂直搜索。【专利附图】【附图说明】此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1和图2是根据本专利技术实施例的视频网站的垂直搜索方法的流程图;图3是根据本专利技术实施例的视频网站的垂直搜索系统的结构框图;图4是图3中的倒排索引模块的一个实施例的结构框图。【具体实施方式】为使本专利技术的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本专利技术作进一步地详细说明。根据本专利技术的实施例,提供了一种视频网站的垂直搜索方法的流程图。图1是根据本专利技术实施例的视频网站的垂直搜索方法的流程图,如图1所示,该方法包括:步骤S102,获取多种维度的视频数据的数据源,将所述数据源转换为按照预定数据结构建立的数据模型,并将所述数据模型存储为物化视图文件。上述的数据源是指原始的、没有经过任何处理的视频数据。一般情况下,原始数据都带有一定的业务逻辑,这种结构的数据不能够直接建立倒排索引,因此需要对数据源进行处理。在实际应用中,维度包括:资源数据的来源、视频资源应用的终端渠道、视频资源的文件格式等。获取到的视频资源数据的数据源是多种维度的,可以有多种划分方式,例如:按照视频资源数据的来源划分所述数据源包括:文件系统或数据库(DB);按照视频资源应用的终端渠道划分所述数据源包括:电视终端或移动终端;按照视频资源的文件格式划分所述数据源包括:可扩展标记语言(XML)文件、或文本文件(TXT)。当然,数据源的维度不仅限于上述划分方式,本专利技术对于其他维度的划分方式不进行限定。物化视图实际上就是物理表,数据模型是基于数据库的,存储为物化视图即把数据模型以物理表的形式进行存储,便于后续过程中搜索引擎查询时调用,物理表格包括横表和列表。不同维度的数据源具有各自的特点,为了屏蔽多数据源的复杂的业务逻辑,需要将多维度的数据源转换为统一结构的数据模型,该数据结构的数据模型包括基础数据和扩展数据。其中,基础数据是搜索最关心的基本的维度数据,是展现视频(影视剧)所必不可少的数据。例如包括:视频标题、视频简介、演员(主演)、导演等信息。一般情况下,视频数据都带有离线的应用逻辑属性,例如扩展数据包括平台属性;另外,还有些视频数据带有自定义的功能属性,例如扩展数据包括平台价格、码流信息等。需要说明,上述举例仅为示例性说明,并不用于限制本专利技术。数据模型是基于数据库的,将基础数据和扩展数据按照预定的数据结构存储起来。具体地,基础数据是定长的,基础数据按照水平扩展,每一个数据逐项存储;而扩展数本文档来自技高网...

【技术保护点】
一种视频网站的垂直搜索方法,其特征在于,包括:获取多种维度的视频数据的数据源,将所述数据源转换为按照预定数据结构建立的数据模型,并将所述数据模型存储为物化视图文件;根据所述物化视图文件建立视频数据的倒排索引文件;根据接收到的检索信息,从所述倒排索引文件中获取视频数据的倒排索引结果集;根据选定的排序参数对所述倒排索引结果集进行排序。

【技术特征摘要】

【专利技术属性】
技术研发人员:曹坤波郑磊
申请(专利权)人:乐视网信息技术北京股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1