当前位置: 首页 > 专利查询>北京大学专利>正文

一种编目信息的分类、检索方法和装置制造方法及图纸

技术编号:17346419 阅读:15 留言:0更新日期:2018-02-25 11:41
本发明专利技术公开了一种编目信息的分类、检索方法和装置,所述检索方法包括:提取查询信息中的特征词语,将提取的特征词语组成所述查询信息的特征词语集合;针对所述查询信息的特征词语集合应用预先构建的一组局部敏感的哈希函数簇H将所述查询信息映射到相应的哈希桶;在所述查询信息映射的哈希桶中的编目信息里,根据所述查询信息进行检索,得到检索结果;其中,所述哈希桶中的编目信息是预先利用所述哈希函数簇H从海量编目信息中映射到所述哈希桶中的。应用本发明专利技术可以更高效地对海量信息资源的编目信息进行检索,以高效地实现对海量信息资源的检索和价值利用。

【技术实现步骤摘要】
一种编目信息的分类、检索方法和装置
本专利技术涉及检索领域,特别是指一种编目信息的分类、检索方法和装置。
技术介绍
伴随着互联网技术的飞速发展以及网络带宽的极大提升,存储在互联网上的各种信息资源呈爆炸式增长。这些海量的信息资源中,不乏存在巨大商业价值的宝贵资源。如何在海量的信息资源中进行高效检索便成为信息资源高效利用并最大化其价值的关键。各种信息资源中包括文档、视频、音频等资源,为便于对这些信息资源进行管理和检索,通常会对每个信息资源维护一个编目信息,用以概括该信息资源的主要信息。不同的媒资生产商会根据自己的需要定义不同的媒资编目信息,但这种异构的媒资编目信息严重地阻碍了不同厂商之间进行媒资系统间信息的融合。这种异构数据往往是海量的且是高维度的,如何快速、有效地从海量的高维编目数据集合中找到与某个数据最相似(距离最近)的一个或多个编目数据成为信息资源高效利用的关键。
技术实现思路
有鉴于此,本专利技术的目的在于提出一种编目信息的分类、检索方法和装置,以便更高效地对海量信息资源的编目信息进行检索,以高效地实现对海量信息资源的检索和价值利用。基于上述目的本专利技术提供一种编目信息的检索方法,包括:提取查询信息中的特征词语,将提取的特征词语组成所述查询信息的特征词语集合;针对所述查询信息的特征词语集合应用预先构建的一组局部敏感的哈希函数簇H将所述查询信息映射到相应的哈希桶;在所述查询信息映射的哈希桶中的编目信息里,根据所述查询信息进行检索,得到检索结果;其中,所述哈希桶中的编目信息是预先利用所述哈希函数簇H从海量编目信息中映射到所述哈希桶中的。其中,所述哈希桶中的编目信息具体是根据如下方法预先从海量编目信息中映射到所述哈希桶中的:针对海量编目信息中的每个编目信息,提取该编目信息中的特征词语,将提取的特征词语组成该编目信息的特征词语集合;针对海量编目信息中的每个编目信息,对该编目信息的特征词语集合应用所述哈希函数簇H将该编目信息映射到相应的哈希桶中。其中,所述局部敏感的哈希函数簇H是根据如下方法预先构建的:基于确定的参数k和L,以及一组基础的局部敏感的哈希函数簇H0,构建所述哈希函数簇H;其中,参数k为哈希键长度,参数L为组成哈希函数簇H的哈希函数的个数。本专利技术还提供一种编目信息的分类方法,包括:针对海量编目信息中的每个编目信息,提取该编目信息中的特征词语,将提取的特征词语组成该编目信息的特征词语集合;针对海量编目信息中的每个编目信息,对该编目信息的特征词语集合应用所述哈希函数簇H将该编目信息映射到相应的哈希桶中。本专利技术还提供一种编目信息的检索装置,包括:特征提取模块,用于提取查询信息中的特征词语,将提取的特征词语组成所述查询信息的特征词语集合;映射模块,用于针对所述查询信息的特征词语集合应用预先构建的一组局部敏感的哈希函数簇H将所述查询信息映射到相应的哈希桶;其中,所述哈希桶中的编目信息是预先利用所述哈希函数簇H从海量编目信息中映射到所述哈希桶中的;检索模块,用于在所述查询信息映射的哈希桶中的编目信息里,根据所述查询信息进行检索,得到检索结果。本专利技术还提供一种编目信息的分类装置,包括:特征提取模块,用于针对海量编目信息中的每个编目信息,提取该编目信息中的特征词语,将提取的特征词语组成该编目信息的特征词语集合;映射模块,用于针对海量编目信息中的每个编目信息,对该编目信息的特征词语集合应用所述哈希函数簇H将该编目信息映射到相应的哈希桶中。本专利技术技术方案中,针对查询信息利用局部敏感哈希算法确定出查询信息所映射的哈希桶;根据查询信息,在确定出的哈希桶中进行检索,而对于其它哈希桶中的编目信息则可忽略,从而可以更高效、快速地从海量信息资源的编目信息中检索到与查询信息相匹配的编目信息,实现高效地对海量信息资源的检索和价值利用。附图说明图1为本专利技术实施例提供的一种编目信息的分类方法流程图;图2为本专利技术实施例提供的一种哈希函数簇H构建方法流程图;图3为本专利技术实施例提供的一种编目信息的检索方法流程图;图4为本专利技术实施例提供的一种编目信息的分类装置内部结构框图;图5为本专利技术实施例提供的一种编目信息的检索装置内部结构框图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术进一步详细说明。下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。需要说明的是,本专利技术实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本专利技术实施例的限定,后续实施例对此不再一一说明。本专利技术的专利技术人考虑到,利用局部敏感哈希算法来解决异构、高纬度的海量编目信息分类问题,进而再利用局部敏感哈希算法基于已分类的编目信息进行快速检索。事实上,局部敏感哈希算法可以将原始数据空间中的两个相邻数据点通过相同的映射或投影变换后,使得这两个数据点在新的数据空间中仍然相邻(即在同一个哈希桶)的概率很大,而不相邻的数据点被映射到同一哈希桶的概率很小。也就是说,如果对原始数据进行一些哈希映射后,希望原先特征向量相近的特征点以较大的概率映射到同一个哈希桶中。由此,本专利技术的技术方案中,首先利用局部敏感哈希算法的海量高维数据的近邻快速查找技术将海量信息资源的编目信息,比如将多媒体(视频)资源的编目信息分类到不同的哈希桶中;进而,针对查询信息利用局部敏感哈希算法确定出查询信息所映射的哈希桶;根据查询信息,在确定出的哈希桶中进行检索,而对于其它哈希桶中的编目信息则可忽略,从而可以更高效、快速地从海量信息资源的编目信息中检索到与查询信息相匹配的编目信息,实现高效地对海量信息资源的检索和价值利用。下面结合附图详细介绍本专利技术的技术方案。基于上述的思路,首先对海量信息资源的编目信息进行分类,也就是先建立编目信息的索引,以便后续的查询检索操作。本专利技术实施例提供的一种编目信息的分类方法,具体流程如图1所示,包括如下步骤:步骤S101:针对海量编目信息中的每个编目信息,提取该编目信息中的特征词语,将提取的特征词语组成该编目信息的特征词语集合。更优地,可以先对海量编目信息进行预处理;比如,针对多媒体资源编目字典,将字典中的编目信息先进行层级分类,分为节目层、片段层、场景层、镜头层的编目信息。之后,针对海量编目信息(比如多媒体资源编目字典)中的每个编目信息,提取该编目信息中的特征词语,将提取的特征词语组成该编目信息的特征词语集合;进一步,还可以针对每个编目信息,将该编目信息的特征词语集合中的各特征词语分别转换为对应的特征值,进而组成该编目信息的特征值集合。将特征词语转换为特征值的具体方法可以采用现有技术,此处不赘述。步骤S102:针对海量编目信息中的每个编目信息,对该编目信息的特征词语集合应用一组局部敏感的哈希函数簇H将本文档来自技高网
...
一种编目信息的分类、检索方法和装置

【技术保护点】
一种编目信息的检索方法,其特征在于,包括:提取查询信息中的特征词语,将提取的特征词语组成所述查询信息的特征词语集合;针对所述查询信息的特征词语集合应用预先构建的一组局部敏感的哈希函数簇H将所述查询信息映射到相应的哈希桶;在所述查询信息映射的哈希桶中的编目信息里,根据所述查询信息进行检索,得到检索结果;其中,所述哈希桶中的编目信息是预先利用所述哈希函数簇H从海量编目信息中映射到所述哈希桶中的。

【技术特征摘要】
1.一种编目信息的检索方法,其特征在于,包括:提取查询信息中的特征词语,将提取的特征词语组成所述查询信息的特征词语集合;针对所述查询信息的特征词语集合应用预先构建的一组局部敏感的哈希函数簇H将所述查询信息映射到相应的哈希桶;在所述查询信息映射的哈希桶中的编目信息里,根据所述查询信息进行检索,得到检索结果;其中,所述哈希桶中的编目信息是预先利用所述哈希函数簇H从海量编目信息中映射到所述哈希桶中的。2.根据权利要求1所述的方法,其特征在于,所述哈希桶中的编目信息具体是根据如下方法预先从海量编目信息中映射到所述哈希桶中的:针对海量编目信息中的每个编目信息,提取该编目信息中的特征词语,将提取的特征词语组成该编目信息的特征词语集合;针对海量编目信息中的每个编目信息,对该编目信息的特征词语集合应用所述哈希函数簇H将该编目信息映射到相应的哈希桶中。3.根据权利要求1或2所述的方法,其特征在于,所述局部敏感的哈希函数簇H是根据如下方法预先构建的:基于确定的参数k和L,以及一组基础的局部敏感的哈希函数簇H0,构建所述哈希函数簇H;其中,参数k为哈希键长度,参数L为组成哈希函数簇H的哈希函数的个数。4.根据权利要求1或2所述的方法,其特征在于,所述针对所述查询信息的特征词语集合应用预先构建的一组局部敏感的哈希函数簇H将所述查询信息映射到相应的哈希桶,具体包括:将所述特征词语集合中的各特征词语分别转换为对应的特征值;将转换得到的特征值组合为所述查询信息的特征值集合;将所述查询信息的特征值集合应用所述哈希函数簇H映射到相应的哈希桶。5.一种编目信息的分类方法,其特征在于,包括:针对海量编目信息中的每个编目信息,提取该编目信息中的特征词语,将提取的特征词语组成该编目信息的特征词语集合;针对海量编目信息中的每个编目信息,对该编目信息的特征词语集合应用所述哈希函数簇H将该编目信息映射到相应的哈希桶中。6.根据权利要求5...

【专利技术属性】
技术研发人员:柳军飞范红杰麻志毅孙博
申请(专利权)人:北京大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1