文本检索方法、用于文本检索的倒排表生成方法以及系统技术方案

技术编号:20448773 阅读:10 留言:0更新日期:2019-02-27 02:54
本申请提供一种检索方法,包括:接收查询请求;对所述查询请求提供的查询文本以及查询参数进行检索导向预处理,获得预处理结果;根据所述检索导向预处理结果进行倒排表查询以及归并运算,获得预定数量的召回文档;所述倒排表的每个记录对其关联的文档采用分数化文档身份标识作为文档标识,每个记录根据该记录关联的文档的分数化文档身份标识作为在相应的关键词条目中的排序依据;对所获得的所述召回文档进行优先级分值计算;以所述优先级分值为排序依据输出召回文档。本申请同时提供一种检索装置,一种检索系统,以及用于检索的倒排表生成方法。本申请提供的用于文本检索的方法,采用了特殊的倒排表,能够优先检索出重要程度高的文献。

Text Retrieval Method, Inverted List Generation Method and System for Text Retrieval

The application provides a retrieval method, which includes: receiving query requests; preprocessing query text and query parameters provided by the query requests to obtain preprocessing results; querying inverted tables and merging operations based on the retrieval-oriented preprocessing results to obtain a predetermined number of recall documents; and each record of the inverted tables to its associated documents. Fractional document identity is used as document identity, and each record is ranked according to the fragmented document identity of the document associated with the record in the corresponding keyword entries; the priority score of the recalled document is calculated; and the recalled document is ranked according to the output of the recalled document according to the priority score. The application also provides a retrieval device, a retrieval system and an inverted table generation method for retrieval. The method for text retrieval provided in this application adopts a special inverted list, which can give priority to the retrieval of highly important documents.

【技术实现步骤摘要】
文本检索方法、用于文本检索的倒排表生成方法以及系统
本申请涉及检索技术,具体涉及一种文本检索方法,本申请同时提供一种文本检索装置。本申请同时提供一种用于文本检索的倒排表生成方法,使用该方法生成的倒排表被用于前述文本检索方法中;本申请同时提供一种用于文本检索的倒排表生成装置。本申请同时提供一种文本检索系统。本申请同时提供一种电子设备,用于运行所述文本检索方法;本申同时提供另外一种电子设备,用于运行所述用于文本检索的倒排表生成方法。
技术介绍
搜索引擎(SearchEngine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。使用搜索引擎进行文本检索,已经成为人们随时可能使用的功能。随着使用搜索引擎的次数日益频繁,每次获得所需搜索结果产生的时间损耗累计,构成了很大的社会时间成本。因此,减少使用搜索引擎进行文本检索的耗时能够有效提升整个社会的效率。使用搜索引擎进行文本检索过程中,时间消耗主要反映在两个方面,即搜索引擎获得搜索页面的时间消耗,以及发出检索请求的搜索引擎使用者获得所需信息的时间消耗。所述搜索引擎获得搜索页面的时间消耗,即所述搜索引擎根据检索请求包含的文本信息以及相关参数,检索获得相关检索结果(即召回文档),并将其以页面形式展现出来所耗费的时间。在这个过程中,搜索引擎首先需要在数据库中检索,获得召回文档;还需要进一步进行文档排序,以确定召回文档的优先级顺序;文档排序的步骤在召回文档多于一个显示页面时特别重要。在现有技术中,文档排序所消耗的时间和实时计算资源占整个搜索过程的主要部分。所述发出检索请求的搜索引擎使用者获得所需信息的时间消耗,是指搜索引擎使用者从搜索引擎最终提供的检索结果页面中,获得自己实际需要的检索结果的时间消耗。这个过程中的耗时与召回文档的排序相关。如果排序合理,就会减少搜索引擎使用者最终获取所需文档的时间;如果排序不合理,则会造成搜索引擎使用者过多的时间耗费。例如,在召回文档需要通过多个展示页面展示的情况下,搜索引擎将搜索引擎使用者所需要的文档展示在第一个页面和第二个页面,则搜索引擎使用者的最终搜索耗时会有显著差别;在召回文档数量很大而需要分为多个页面展示,如果搜索引擎使用者所需要的检索结果的页面恰好位于更后面的位置时,则使用者耗时更长,搜索体验显著下降,甚至会由于搜索引擎使用者的耐心不够,最终放弃获得检索结果。现有技术中,为了更有效提供展示页面,以便使引擎使用者能够在展示页面上更快的获得所需要的检索结果,均会设置较高的召回文档数量上限,并在将召回文档展示前都会对召回文档进行优先级排序,以便不遗漏重要的文档,并将更重要的召回文档优先提供给搜索引擎的使用者。但是,上述解决方式存在严重缺陷。最主要的缺陷是,当搜索内容比较热门,召回文档的数量很大时,进行排序运算所消耗的运算成本和时间成本极高;并且,召回文档量增加会造成排序运算的运算量的显著增加,这就使得在召回文档过多的情况下,展示页面生成速度明显降低,影响使用者的使用体验。由于存在上述问题,获得一种能够以更快速度对召回文档排序,并且排序结果符合使用者要求的文本检索方案,成为提高搜索引擎工作效率的关键。
技术实现思路
本申请提供一种检索方法,该检索方法使用了特别生成的倒排表,能够更为有效的筛选出符合检索要求的召回文档;本申请同时提供一种检索装置。本申请提供的检索方法,包括:接收查询请求;对所述查询请求提供的查询文本以及查询参数进行检索导向预处理,获得预处理结果;根据所述检索导向预处理结果提供的待检索分词对象以及各个待检索分词对象相互之间的归并关系,对各个待检索分词对象进行倒排表查询以及归并运算,获得预定数量的召回文档;所述倒排表具有如下特征:其每个记录对其关联的文档采用分数化文档身份标识作为文档标识,每个记录根据该记录关联的文档的分数化文档身份标识作为在相应的关键词条目中的排序依据;对所获得的所述召回文档进行优先级分值计算,获得各个召回文档的优先级分值;以所述优先级分值为排序依据,输出所述召回文档。优选的,所述倒排表查询以及归并运算中,以所述倒排表关键词条目下的排序为依据,在满足要求的文档中优先选取文档分值高的文档作为召回文档。优选的,所述对所述文本查询请求提供的查询文本进行检索导向预处理的步骤,包括:对查询文本进行分词,获得分词对象,并从分词对象中确定待检索分词对象,以及,根据查询文本以及查询参数,获得所述待检索分词对象的归并关系;所述待检索分词对象是所述分词对象的子集。优选的,所述对所述文本查询请求提供的查询文本进行检索导向预处理的步骤还包括:在获得分词对象后,对各个分词对象进行权重分析,获得每个分词对象的权重;后续步骤中,根据每个分词对象的权重对该分词对象进行相应处理。优选的,所述对各个待检索分词对象进行倒排表查询以及归并运算的步骤中,所述归并运算,包括如下运算中的至少一种:交集运算、并集运算以及差运算。优选的,所述倒排表的各个关键词条目下的记录根据每个记录关联的文档的分数化文档身份标识作为排序依据,具体是采用逆序排列。优选的,所述对各个待检索分词对象进行倒排表查询以及归并运算的步骤中,所述归并运算包括交集运算;所述交集运算中确定候选召回文档的方法是:在需要进行交集运算的各个待检索分词对象各自的倒排表条目中,按照从前向后的顺序,检索符合下述条件的记录:该记录关联的分数化文档身份标识在各个需要进行交集运算的待检索分词对象的倒排表条目中都有相关联的记录存在。优选的,所述交集运算中确定候选召回文档的方法具体采用如下步骤实现:在需要进行交集运算的待检索分词对象集合中确定一个待检索分词对象作为当前待检索分词对象,该当前待检索分词对象为对所述待检索分词对象集合的各个元素遍历的起点,对待检索分词对象集合中的各个待检索分词对象按照固定的顺序排列,该固定的顺序作为对待检索分词对象集合的各个待检索分词对象进行循环遍历的顺序;在所述当前待检索分词对象的倒排表条目中,获取位于最前序列位置的记录中的分数化文档身份标识,并将该记录中的分数化文档身份标识作为当前文档身份标识,同时设置分词对象计数器的值为1;在需要进行交集运算的待检索分词对象集合中,将当前待检索分词对象的下一个分词对象更新为新的当前待检索分词对象;查询所述当前待检索分词对象在倒排表中的关键词条目,检索出所包含的分数化文档身份标识小于等于所述当前文档身份标识的首个记录;将该记录中的所述分数化文档身份标识作为待判断文档身份标识;判断所述待判断文档身份标识是否等于所述当前文档身份标识;若是,则进入下一步骤;若否,则设置分词对象计数器的值为1,将所述待判断文档身份标识作为当前文档身份标识,并返回所述在需要进行交集运算的待检索分词对象集合中,将当前待检索分词对象的下一个分词对象更新为新的当前待检索分词对象的步骤;将分词对象计数器的值加1;判断分词对象计数器的值是否等于所述待检索分词对象集合所包含元素的总数,若是,则进入下一步骤;若否,则返回所述在需要进行交集运算的待检索分词对象集合中,将当前待检索分词对象的下一个分词对象更新为新的当前待检索分词对象的步骤;将当前文档身份标识所对应的文档确定为候选的召回文本文档来自技高网
...

【技术保护点】
1.一种检索方法,其特征在于,包括:接收查询请求;对所述查询请求提供的查询文本以及查询参数进行检索导向预处理,获得预处理结果;根据所述检索导向预处理结果提供的待检索分词对象以及各个待检索分词对象相互之间的归并关系,对各个待检索分词对象进行倒排表查询以及归并运算,获得预定数量的召回文档;所述倒排表具有如下特征:其每个记录对其关联的文档采用分数化文档身份标识作为文档标识,每个记录根据该记录关联的文档的分数化文档身份标识作为在相应的关键词条目中的排序依据;对所获得的所述召回文档进行优先级分值计算,获得各个召回文档的优先级分值;以所述优先级分值为排序依据,输出所述召回文档。

【技术特征摘要】
1.一种检索方法,其特征在于,包括:接收查询请求;对所述查询请求提供的查询文本以及查询参数进行检索导向预处理,获得预处理结果;根据所述检索导向预处理结果提供的待检索分词对象以及各个待检索分词对象相互之间的归并关系,对各个待检索分词对象进行倒排表查询以及归并运算,获得预定数量的召回文档;所述倒排表具有如下特征:其每个记录对其关联的文档采用分数化文档身份标识作为文档标识,每个记录根据该记录关联的文档的分数化文档身份标识作为在相应的关键词条目中的排序依据;对所获得的所述召回文档进行优先级分值计算,获得各个召回文档的优先级分值;以所述优先级分值为排序依据,输出所述召回文档。2.根据权利要求1所述的检索方法,其特征在于,所述倒排表查询以及归并运算中,以所述倒排表关键词条目下的排序为依据,在满足要求的文档中优先选取文档分值高的文档作为召回文档。3.根据权利要求1所述的检索方法,其特征在于,所述对所述文本查询请求提供的查询文本进行检索导向预处理的步骤,包括:对查询文本进行分词,获得分词对象,并从分词对象中确定待检索分词对象,以及,根据查询文本以及查询参数,获得所述待检索分词对象的归并关系;所述待检索分词对象是所述分词对象的子集。4.根据权利要求3所述的检索方法,其特征在于,所述对所述文本查询请求提供的查询文本进行检索导向预处理的步骤还包括:在获得分词对象后,对各个分词对象进行权重分析,获得每个分词对象的权重;后续步骤中,根据每个分词对象的权重对该分词对象进行相应处理。5.根据权利要求1所述的检索方法,其特征在于,所述对各个待检索分词对象进行倒排表查询以及归并运算的步骤中,所述归并运算,包括如下运算中的至少一种:交集运算、并集运算以及差运算。6.根据权利要求1所述的检索方法,其特征在于,所述倒排表的各个关键词条目下的记录根据每个记录关联的文档的分数化文档身份标识作为排序依据,具体是采用逆序排列。7.根据权利要求6所述的检索方法,其特征在于,所述对各个待检索分词对象进行倒排表查询以及归并运算的步骤中,所述归并运算包括交集运算;所述交集运算中确定候选召回文档的方法是:在需要进行交集运算的各个待检索分词对象各自的倒排表条目中,按照从前向后的顺序,检索符合下述条件的记录:该记录关联的分数化文档身份标识在各个需要进行交集运算的待检索分词对象的倒排表条目中都有相关联的记录存在。8.根据权利要求7所述的检索方法,其特征在于,所述交集运算中确定候选召回文档的方法具体采用如下步骤实现:在需要进行交集运算的待检索分词对象集合中确定一个待检索分词对象作为当前待检索分词对象,该当前待检索分词对象为对所述待检索分词对象集合的各个元素遍历的起点,对待检索分词对象集合中的各个待检索分词对象按照固定的顺序排列,该固定的顺序作为对待检索分词对象集合的各个待检索分词对象进行循环遍历的顺序;在所述当前待检索分词对象的倒排表条目中,获取位于最前序列位置的记录中的分数化文档身份标识,并将该记录中的分数化文档身份标识作为当前文档身份标识,同时设置分词对象计数器的值为1;在需要进行交集运算的待检索分词对象集合中,将当前待检索分词对象的下一个分词对象更新为新的当前待检索分词对象;查询所述当前待检索分词对象在倒排表中的关键词条目,检索出所包含的分数化文档身份标识小于等于所述当前文档身份标识的首个记录;将该记录中的所述分数化文档身份标识作为待判断文档身份标识;判断所述待判断文档身份标识是否等于所述当前文档身份标识;若是,则进入下一步骤;若否,则设置分词对象计数器的值为1,将所述待判断文档身份标识作为当前文档身份标识,并返回所述在需要进行交集运算的待检索分词对象集合中,将当前待检索分词对象的下一个分词对象更新为新的当前待检索分词对象的步骤;将分词对象计数器的值加1;判断分词对象计数器的值是否等于所述待检索分词对象集合所包含元素的总数,若是,则进入下一步骤;若否,则返回所述在需要进行交集运算的待检索分词对象集合中,将当前待检索分词对象的下一个分词对象更新为新的当前待检索分词对象的步骤;将当前文档身份标识所对应的文档确定为候选的召回文档;将当前待检索分词对象的倒排表中,位于包含所述当前文档身份标识的记录之后的记录,作为所述最前序列位置的记录;返回所述在所述当前待检索分词对象的倒排表中,获取位于最前序列位置的记录中的分数化文档身份标识,并将该记录中的分数化文档身份标识作为当前文档身份标识,同时设置分词对象计数器的值为1的步骤。9.根据权利要求1所述的检索方法,其特征在于,所述对所述查询请求提供的查询文本进行检索导向预处理的步骤中,所获得的检索导向预处理结果包括匹配度计算参数;所述对所获得的所述召回文档进行优先级分值运算,包括如下步骤:根据所述匹配度计算参数,以及设定的匹配度算法,计算各个召回文档的匹配度分值;根据各个召回文档的所述匹配度分值,以及各个召回文档的文档分值,以设定的权重加权计算,获得各个召回文档的优先级分值。10.根据权利要求1所述的检索方法,其特征在于,所述文本查询请求所要查询的文本为歌词。11.根据权利要求10所述的检索方法,其特征在于,所述分数化文档标识所依赖的分数,其依据包括相关歌曲的下述属性中的至少一个:试听量、下载量、收藏量、评论量、相关艺人的粉丝数量。12.一种检索装置,其特征在于,包括:查询请求接收单元,用于接收查询请求;检索导向预处理单元,用于根据所述查询请求提供的查询文本以及查询参数进行检索导向预处理,获得预处理结果;查询及归并单元,用于根据所述检索导向预处理结果提供的待检索分词对象以及各个待检索分词对象相互之间的归并关系,对各个待检索分词对象进行倒排表查询以及归并运算,获得预定数量的召回文档;所述倒排表具有如下特征:其每个记录对其关联的文档采用分数化文档身份标识作为文档标识,每个记录根据该记录关联的文档的分数化文档身份标识作为在相应的关键词条目中的排序依据;优先级分值计算单元,用于对所获得的所述召回文档进行优先级分值计算,获得各个召回文档的优先级分...

【专利技术属性】
技术研发人员:王朝阳
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1