【技术实现步骤摘要】
一种文档获取方法及装置
本专利技术涉及互联网技术,尤指一种文档获取方法及装置。
技术介绍
如今是一个信息大爆炸的时代,据统计全球的数据量正以平均年增长率为50%的速度增长,其中当前数据总量的80%都是最近两年产生的。目前每天全球互联网流量累计达1EB(即10亿GB或1000PB),其中,人们一天上传的照片数量相当于柯达专利技术胶卷后拍摄的图片总和。这些数据已经渗透到社会经济、大众日常生活的各个角落。如何在数据海洋中获取用户需要的信息,要依赖的工具就是搜索引擎。搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎聚合了众多网站信息,起到了信息导航的作用。通用搜索引擎实现了大量的信息整合与导航,极快的查询,迅速成为互联网中最有价值的领域。垂直搜索是针对通用搜索信息量大、查询不准确、深度不够等缺点提出来的新的服务模式,是搜索引擎的细分和延伸,垂直搜索能够针对某一特定领域、某一特定人群或某一特定需求提供的搜索服务。搜索引擎的核心模块通常包括爬虫、索引、检索和排序这四 ...
【技术保护点】
一种文档获取方法,其特征在于,包括:确定从倒排索引中选定的每个倒排拉链对应的文档数量;对于选定的每个倒排拉链,从所述倒排拉链中获取所述倒排拉链对应的文档数量的文档。
【技术特征摘要】
1.一种文档获取方法,其特征在于,包括:确定从倒排索引中选定的每个倒排拉链对应的文档数量;对于选定的每个倒排拉链,从所述倒排拉链中获取所述倒排拉链对应的文档数量的文档。2.根据权利要求1所述的文档获取方法,其特征在于,所述获取所述倒排拉链对应的预设文档数量的文档之前,还包括:调用两个或两个以上线程,以通过调用的两个或两个以上线程分别对所述选定的两个或两个以上倒排拉链执行所述获取的步骤。3.根据权利要求1所述的文档获取方法,其特征在于,所述获取所述倒排拉链对应的文档数量的文档之后,还包括:若所述倒排拉链中文档的总数量大于所述倒排拉链对应的文档数量,则将所述倒排拉链标识为第一类倒排拉链;若所述倒排拉链中文档的总数量小于所述倒排拉链对应的文档数量,则将所述倒排拉链标识为第二类倒排拉链;对于每个第二类倒排拉链,计算所述第二类倒排拉链中文档的总数量和所述第二类倒排拉链对应的文档数量之间的差额,根据计算出的差额,从第一类倒排拉链的未被获取到的文档中获取文档。4.根据权利要求1至3中任一项所述的文档获取方法,其特征在于,所述获取所述倒排拉链对应的文档数量的文档,包括:按照所述倒排拉链中文档的特征,对所述倒排拉链中的文档进行排序;从所述倒排拉链的排序后的文档中截取所述倒排拉链对应的文档数量的文档。5.根据权利要求1至3中任一项所述的文档获取方法,其特征在于,所述确定从倒排索引中选定的每个倒排拉链对应的文档数量,包括:计算预先设置的需要获取的文档总数量除以所述选定的倒排拉链总数量;若计算的结果为整数,则将计算的结果作为所述选定的每个倒排拉链对应的文档数量;若计算的结果为小数,则根据预先设置的策略设置所述选定的每个倒排拉链对应的文档数量。...
【专利技术属性】
技术研发人员:王伟亮,
申请(专利权)人:郑州云海信息技术有限公司,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。