一种文档获取方法及装置制造方法及图纸

技术编号:17779827 阅读:32 留言:0更新日期:2018-04-22 08:23
本发明专利技术公开了一种文档获取方法及装置,包括:确定从倒排索引中选定的每个倒排拉链对应的文档数量;对于选定的每个倒排拉链,从所述倒排拉链中获取所述倒排拉链对应的文档数量的文档。从本发明专利技术实施例可见,从选定的每个倒排拉链中分别获取对应文档数量的文档,而非从一部分选定的倒排拉链中获取文档,放弃另一部分选定的倒排拉链,这样就避免了放弃选定的倒排拉链中的优质的倒排拉链,提高了从倒排拉链中获取文档的质量。

【技术实现步骤摘要】
一种文档获取方法及装置
本专利技术涉及互联网技术,尤指一种文档获取方法及装置。
技术介绍
如今是一个信息大爆炸的时代,据统计全球的数据量正以平均年增长率为50%的速度增长,其中当前数据总量的80%都是最近两年产生的。目前每天全球互联网流量累计达1EB(即10亿GB或1000PB),其中,人们一天上传的照片数量相当于柯达专利技术胶卷后拍摄的图片总和。这些数据已经渗透到社会经济、大众日常生活的各个角落。如何在数据海洋中获取用户需要的信息,要依赖的工具就是搜索引擎。搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎聚合了众多网站信息,起到了信息导航的作用。通用搜索引擎实现了大量的信息整合与导航,极快的查询,迅速成为互联网中最有价值的领域。垂直搜索是针对通用搜索信息量大、查询不准确、深度不够等缺点提出来的新的服务模式,是搜索引擎的细分和延伸,垂直搜索能够针对某一特定领域、某一特定人群或某一特定需求提供的搜索服务。搜索引擎的核心模块通常包括爬虫、索引、检索和排序这四个步骤。其中,在检索时,具体包括:在倒排索引的所有倒排拉链中选定倒排拉链,串行遍历所有选定的倒排拉链,对所有选定的倒排拉链进行去重处理,在选定的倒排拉链中的一个倒排拉链开始截取预先设置的数量的文档,该预先设置的数量是需要截取的文档的总数量。在检索完对截取的文档进行排序,并将排序后的文档展示到网页上。但是,由于受到截取文档的总数量的限制,并不会截取所有选定的倒排拉链中的文档,导致了在一部分选定的倒排拉链中获取文档,相应地就出现了未从另一部分选定的倒排拉链中获取文档,即未被截取文档的倒排拉链被放弃,如果截取文档的倒排拉链的质量不好,而被放弃的倒排拉链的质量比较好,这就会导致最终展示给用户的文档的质量并不高。
技术实现思路
本专利技术实施例提供了一种检索方法及装置,能够提高从倒排拉链中获取文档的质量。为了达到本专利技术目的,本专利技术实施例提供了一种文档获取方法,包括:确定从倒排索引中选定的每个倒排拉链对应的文档数量;对于选定的每个倒排拉链,从所述倒排拉链中获取所述倒排拉链对应的文档数量的文档。可选地,所述获取所述倒排拉链对应的预设文档数量的文档之前,文档获取方法还包括:调用两个或两个以上线程,以通过调用的两个或两个以上线程分别对所述选定的两个或两个以上倒排拉链执行所述获取的步骤。可选地,所述获取所述倒排拉链对应的文档数量的文档之后,文档获取方法还包括:若所述倒排拉链中文档的总数量大于所述倒排拉链对应的文档数量,则将所述倒排拉链标识为第一类倒排拉链;若所述倒排拉链中文档的总数量小于所述倒排拉链对应的文档数量,则将所述倒排拉链标识为第二类倒排拉链;对于每个第二类倒排拉链,计算所述第二类倒排拉链中文档的总数量和所述第二类倒排拉链对应的文档数量之间的差额,根据计算出的差额,从第一类倒排拉链的未被获取到的文档中获取文档。可选地,所述获取所述倒排拉链对应的文档数量的文档,包括:按照所述倒排拉链中文档的特征,对所述倒排拉链中的文档进行排序;从所述倒排拉链的排序后的文档中截取所述倒排拉链对应的文档数量的文档。可选地,所述确定从倒排索引中选定的每个倒排拉链对应的文档数量,包括:计算预先设置的需要获取的文档总数量除以所述选定的倒排拉链总数量;若计算的结果为整数,则将计算的结果作为所述选定的每个倒排拉链对应的文档数量;若计算的结果为小数,则根据预先设置的策略设置所述选定的每个倒排拉链对应的文档数量。本专利技术实施例提供了另一种文档获取装置,包括:确定模块,用于确定从倒排索引中选定的每个倒排拉链对应的文档数量;第一获取模块,用于对于选定的每个倒排拉链,从所述倒排拉链中获取所述倒排拉链对应的文档数量的文档。可选地,文档获取装置还包括:调用模块,用于调用两个或两个以上线程;所述第一获取模块用于,通过调用的两个或两个以上线程对所述选定的两个或两个以上倒排拉链执行所述获取的步骤。可选地,文档获取装置还包括:标识模块,用于若所述倒排拉链中文档的总数量大于所述倒排拉链对应的文档数量,则将所述倒排拉链标识为第一类倒排拉链;若所述倒排拉链中文档的总数量小于所述倒排拉链对应的文档数量,则将所述倒排拉链标识为第二类倒排拉链;第二获取模块,用于对于每个第二类倒排拉链,计算所述第二类倒排拉链中文档的总数量和所述第二类倒排拉链对应的文档数量之间的差额,根据计算出的差额,从第一类倒排拉链的未被获取到的文档中获取文档。可选地,所述第一获取模块包括:排序单元,用于按照所述倒排拉链中文档的特征,对所述倒排拉链中的文档进行排序;截取单元,用于从所述倒排拉链的排序后的文档中截取所述倒排拉链对应的文档数量的文档。可选地,所述确定模块包括:计算单元,用于计算预先设置的需要获取的文档总数量除以所述选定的倒排拉链总数量;确定单元,用于若计算的结果为整数,则将计算的结果作为所述选定的每个倒排拉链对应的文档数量;设置单元,用于若计算的结果为小数,则根据预先设置的策略设置所述选定的每个倒排拉链对应的文档数量。本专利技术实施例至少包括:确定从倒排索引中选定的每个倒排拉链对应的文档数量;对于选定的每个倒排拉链,从所述倒排拉链中获取所述倒排拉链对应的文档数量的文档。从本专利技术实施例可见,从选定的每个倒排拉链中分别获取对应文档数量的文档,而非从一部分选定的倒排拉链中获取文档,放弃另一部分选定的倒排拉链,这样就避免了放弃选定的倒排拉链中的优质的倒排拉链,提高了从倒排拉链中获取文档的质量。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本专利技术技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本专利技术的技术方案,并不构成对本专利技术技术方案的限制。图1为本专利技术实施例提供的一种文档获取方法的流程示意图;图2为本专利技术实施例提供的一种文档获取装置的结构示意图;图3为本专利技术实施例提供的另一种文档获取装置的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。本专利技术实施例提供一种文档获取方法,如图1所示,该文档获取方法包括:步骤101、确定从倒排索引中选定的每个倒排拉链对应的文档数量。需要说明的是,在从倒排索引中选定倒排拉链之后,可以通过预先设置的数据处理算法的方式来确定选定的每个倒排拉链对应的文档数量,还可以由用户来设置每个倒排拉链对应的文档数量。其中,倒排索引(InvertedIndex)也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。倒排索引是文档检索系统中最常用的数据结构。通过倒排本文档来自技高网
...
一种文档获取方法及装置

【技术保护点】
一种文档获取方法,其特征在于,包括:确定从倒排索引中选定的每个倒排拉链对应的文档数量;对于选定的每个倒排拉链,从所述倒排拉链中获取所述倒排拉链对应的文档数量的文档。

【技术特征摘要】
1.一种文档获取方法,其特征在于,包括:确定从倒排索引中选定的每个倒排拉链对应的文档数量;对于选定的每个倒排拉链,从所述倒排拉链中获取所述倒排拉链对应的文档数量的文档。2.根据权利要求1所述的文档获取方法,其特征在于,所述获取所述倒排拉链对应的预设文档数量的文档之前,还包括:调用两个或两个以上线程,以通过调用的两个或两个以上线程分别对所述选定的两个或两个以上倒排拉链执行所述获取的步骤。3.根据权利要求1所述的文档获取方法,其特征在于,所述获取所述倒排拉链对应的文档数量的文档之后,还包括:若所述倒排拉链中文档的总数量大于所述倒排拉链对应的文档数量,则将所述倒排拉链标识为第一类倒排拉链;若所述倒排拉链中文档的总数量小于所述倒排拉链对应的文档数量,则将所述倒排拉链标识为第二类倒排拉链;对于每个第二类倒排拉链,计算所述第二类倒排拉链中文档的总数量和所述第二类倒排拉链对应的文档数量之间的差额,根据计算出的差额,从第一类倒排拉链的未被获取到的文档中获取文档。4.根据权利要求1至3中任一项所述的文档获取方法,其特征在于,所述获取所述倒排拉链对应的文档数量的文档,包括:按照所述倒排拉链中文档的特征,对所述倒排拉链中的文档进行排序;从所述倒排拉链的排序后的文档中截取所述倒排拉链对应的文档数量的文档。5.根据权利要求1至3中任一项所述的文档获取方法,其特征在于,所述确定从倒排索引中选定的每个倒排拉链对应的文档数量,包括:计算预先设置的需要获取的文档总数量除以所述选定的倒排拉链总数量;若计算的结果为整数,则将计算的结果作为所述选定的每个倒排拉链对应的文档数量;若计算的结果为小数,则根据预先设置的策略设置所述选定的每个倒排拉链对应的文档数量。...

【专利技术属性】
技术研发人员:王伟亮
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1