分布式索引文件的检索方法、检索系统及检索服务器技术方案

技术编号：2836743 阅读：377 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种分布式索引文件的检索方法，包括：对获取的检索串进行解析后生成由关键词组成的检索表达式；将所述关键词的检索请求及该关键词的倒排表项的预读请求发送至集群中的各个检索服务器；集群中的检索服务器按照所述关键词命中文档的频率高低读取所述关键词的倒排表项；集群中的检索服务器对所述关键词的倒排表项进行逻辑操作后输出检索结果。本发明专利技术还公开了一种分布式索引文件的检索方法和一种分布式索引文件的检索服务器。应用本发明专利技术有效提高了检索集群内部检索服务器之间的耦合度，增加了服务器之间的资源动态调配能力，通过把集群内的多台检索服务器的资源进行统一规划，最大限度保证了集群整体的并发能力，提高了检索速度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络通信
，具体的特别涉及一种分布式索引文件的检索方法、检索系统及检索服务器。
技术介绍
通常在进行检索时需要输入检索串，检索串包含一个或多个关键词，每个关键词由一个或多个语素组成。语素是能够表达独立语意的最小语言单位，通常为分词系统中切分出的中文词；关键词通过分词系统可以被切分为数量不等的语素，如果切分为两个语素，则该关键词为二元复合语素，如果切分为三个语素，则该关键词为三元复合语素；检索串中的每个关键词之间用空格隔开，通常在互联网搜索中，关键词之间的空格表示对各个关键词之间进行“与”的检索操作。对输入的检索串需要在较短的时间内找出包含该检索串的所有文档的集合，并将该文档集合通过文档标识列表进行显示。在各种互联网搜索引擎技术中，后台检索集群技术是最为核心的技术之一，这种技术直接关系多台检索服务器间如何协作，以便为更大规模的数据集合提供检索服务。由于单个检索服务器管理文档集合的数量是有限的，如果保存的文档数量过大，就会导致在进行正常检索操作过程中，系统难以在用户可以接受的时间内返回需要的结果，通常用户可以接受的时间不超过1秒，因此需要采用由多台检索服务器组成的检索集群来支持更大数据集合范围内的检索服务。检索过程中最主要的就是对倒排索引的访问，倒排索引是一种用来加速对检索串进行检索的数据结构，它可以以磁盘文件的形式存在，也可以加载到内存中，它至少由词典文件和倒排表文件两部分组成。倒排表文件中保存了多个倒排表项，每个倒排表项用于保存检索串中每个关键词对文档的对应关系。在对倒排表文件的倒排表项进行读取时，每一次输入输出寻址和数据读取所需要...

【技术保护点】
一种分布式索引文件的检索方法，其特征在于，包括：对获取的检索串进行解析后生成由关键词组成的检索表达式；将所述关键词的检索请求及该关键词的倒排表项的预读请求发送至集群中的各个检索服务器；集群中的检索服务器按照所述关键词命中文档的频率高低读取所述关键词的倒排表项；集群中的检索服务器对所述关键词的倒排表项进行逻辑操作后输出检索结果。

【技术特征摘要】
1.一种分布式索引文件的检索方法，其特征在于，包括对获取的检索串进行解析后生成由关键词组成的检索表达式；将所述关键词的检索请求及该关键词的倒排表项的预读请求发送至集群中的各个检索服务器；集群中的检索服务器按照所述关键词命中文档的频率高低读取所述关键词的倒排表项；集群中的检索服务器对所述关键词的倒排表项进行逻辑操作后输出检索结果。2.根据权利要求1所述的方法，其特征在于，所述关键词按照命中文档的频率高低分为由超高频关键词和中高频关键词组成的高频关键词以及低频关键词。3.根据权利要求2所述的方法，其特征在于，所述倒排表项包括包含所述关键词的文档标识、所述关键词在所述文档中的权值、及所述关键词在所述文档中的位置偏移。4.根据权利要求3所述的方法，其特征在于，所述方法进一步包括所述检索服务器将所述关键词倒排表项中的八字节的文档标识压缩为四字节的文档篇号。5.根据权利要求4所述的方法，其特征在于，所述关键词为超高频关键词和/或中高频关键词，所述集群中的检索服务器读取所述关键词的倒排表项具体为将所述关键词的倒排表项进行分割，集群中的每个检索服务器读取所述分割后的关键词的一部分倒排表项。6.根据权利要求5所述的方法，其特征在于，所述集群中包含N台检索服务器，N为整数；所述分割具体为对所述高频关键词的倒排表项中的文档篇号进行取模，将相同模值的倒排表项作为一组，所述取模参数为N。7.根据权利要求4所述的方法，其特征在于，所述关键词为低频关键词，所述集群中的检索服务器读取所述关键词的倒排表项具体为集群中的某一检索服务...

【专利技术属性】
技术研发人员：孙良，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：94[中国|深圳]

全部详细技术资料下载我是这个专利的主人