【技术实现步骤摘要】
一种文档检索方法及装置
[0001]本申请涉及信息检索领域,特别是指一种文档检索方法及装置。
技术介绍
[0002]信息检索在网页搜索中有深度的应用,在诸如音乐、视频、新闻等垂直领域中也广泛的应用。
[0003]信息检索的主要任务是根据用户查询语句在海量数据中查找到少量与查询相关的文档,检索引擎根据这些相关文档在各个相关维度上的度量,对文档进行打分,产生一个相关性递减的文档序列,返回给用户。
[0004]一般在海量索引检索场景下,由于需要考虑用户体验,需要检索引擎尽快处理查询并返回结果,但是排序效果更好的精细排序通常需要使用排序模型,开销大,无法在大量满足过滤条件的相关文档集合上直接使用。为了实现在短时间内返回高质量的排序结果,商用检索引擎一般采用两阶段检索流程,分为粗排和精排两个阶段。在粗排阶段,通过开销较低的方式,从全量数据中使用过滤器过滤出满足过滤条件的相关文档集合,然后使用打分器计算每个相关文档的相关性得分,获取得分最高的TOPn(TOPn表示排名前n个的文档),作为粗排结果。在精排阶段,在粗排阶段返 ...
【技术保护点】
【技术特征摘要】
1.一种文档检索方法,其特征在于,包括粗排阶段,所述粗排阶段包括:获取检索语句;基于所述检索语句生成文档过滤器和打分器;访问索引资源库,获取所述文档过滤器和所述打分器所需的索引资源,所述索引资源形成粗排索引资源池,所述索引资源包括各文档的索引信息;基于所述粗排索引资源池中的索引资源,过滤出符合所述文档过滤器要求的文档;根据所述过滤出的文档进行相关性得分计算,所述相关性得分基于所述文档的粗排特征向量计算,所述粗排特征向量基于所述打分器计算;根据所述相关性得分选取文档,所选取的文档作为粗排阶段的检索结果。2.根据权利要求1所述的方法,其特征在于,所述打分器包括原子相关性算子,所述文档过滤器包括原子过滤器,所述获取所述文档过滤器和所述打分器所需的索引资源包括:获取所述原子相关性算子所需的索引资源和所述原子过滤器所需的索引资源。3.根据权利要求2所述的方法,其特征在于,所述过滤出符合所述文档过滤器要求的文档,包括:基于所述粗排索引资源池中的索引资源,初次过滤出符合各所述原子过滤器要求的文档;针对所述初次过滤出的文档,过滤出符合所述文档过滤器要求的文档,所述文档过滤器描述了多个所述原子过滤器的组合逻辑。4.根据权利要求2所述的方法,其特征在于,所述粗排特征向量基于所述打分器计算,包括:所述粗排特征向量基于各所述原子性相关算子的计算结果计算;其中所述粗排特征向量的计算过程中,共享使用所述原子相关性算子的计算结果。5.根据权利要求2
‑
4任一项所述的方法,其特征在于,所述原子相关性算子包括所述粗排阶段中计算所述粗排特征向量所使用的原子相关性算子。6.根据权利要求4或5所述的方法,其特征在于,还包括精排阶段,所述精排阶段包括:针对所述粗排阶段的检索结果中的文档,获得各所述文档的精排特征向量,所述精排特征向量基于原子性相关算子的计算结果和/或中间结果计算;由排序模型基于所述精排特征向量对粗排阶段的检索结果进行选取和/或排序,所述选取和/或排序的结果作为精排阶段的检索结果。7.根据权利要求6所述的方法,其特征在于,所述精排特征向量基于原子性相关算子的计算结果计算,包括;所述精排特征向量包括第一特征向量,计算所述第一特征向量所基于的原子性相关算子属于粗排特征向量计算时使用的原子性相关算子;所述第一特征向量的计算过程中,共享使用所述粗排特征向量计算时使用的所述原子相关性算子的计算结果和/或中间结果。8.根据权利要求7所述的方法,其特征在于,所述第一特征向量的计算过程在所述粗排阶段执行。9.根据权利要求6
‑
8任一项所述的方法,其特征在于,所述精排特征向量基于原子性相
关算子的计算结果和/或中间结果计算,包括:所述精排特征向量包括第二特征向量,计算所述第二特征向量所基于的原子性相关算子包括粗排特征向量计算时未使用过的原子性相关算子;所述精排排特征向量计算过程中,共享使用所述未使用过的原子相关性算子的计算结果和/或中间结果。10.根据权利要求9所述的方法,其特征在于,计算所述未使用过的原子相关性算子的计算结果和/或中间计算结果,包括:访问所述索引资源库,获取所述未使用过的原子相关性算子的索引资源,所述索引资源形成精排索引资源池;基于所述精排索引资源池的索引资源计算所述未使用过的原子相关性算子的计算结果和/或中间结果。11.一种文档检索装置,其特征在于,应用于粗排阶段,包括:获取模块、共享查询构建模块、过滤模块、打分模块和粗排排序模块;所述获取模块用于获取检索语句;所述共享查询构建模块用于基于所述检索语句生成文档过滤器和打分器;所述获取模块还用于访问索引资源库,获取所述文档过滤器和所述打分器所需的索引资源,所述索引资源形成粗排索引资源池,所述索引资源包括各文档的索引信息;所述过滤模块用于基于所述粗排索引资源池中的索引资源...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。