一种大规模数据搜索系统技术方案

技术编号:6604114 阅读:256 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种大规模数据搜索系统,主要包括倒排文件模块、数据接口模块、查询模块、切词模块及记分函数模块以及进程守护模块,倒排文件模块用于搜索系统能够快速找到查询词对应的文档列表;数据接口模块封装了每个要公开的数据的访问方法;查询模块用于利用输入端查询条件进行搜索,将各个关键词对应文档列表求交集;切词模块用于切词并得到各个关键词并形成一棵查询树;记分函数模块负责进行站点聚类,得到聚类好的查询结果;守护进程模块用于接受查询请求并根据查询请求中指定的最大返回结果数。利用该系统,能够减少访问磁盘的开销;并通过一些有效的预处理,减少浮点运算的次数,进一步提高检索效率。

【技术实现步骤摘要】

本专利技术涉及搜索引擎技术,尤其涉及一种大规模数据搜索系统
技术介绍
众所周知,搜索引擎是用于从互联网上搜寻信息的重要工具。随着互联网规模的不断扩大和网上信息量的不断增长,搜索引擎的作用也就越来越重要。当前,互联网上的搜索引擎虽然大小不同,功能也各异,但它们都包含以下一些基本的功能模块网页收集模块、页面预处理模块、索引模块、页面检索模块等。其中,可利用上述搜索引擎的索引模块生成倒排文件,被检索模块所使用。这里,所述倒排文件是从关键词到其出现位置(occurrence)的一种索引。对于搜索引擎来说,关键词的出现位置信息必须包括出现关键词的文档列表,以及关键词在各文档内的位置列表。一般而言,倒排文件由索引文件和记录文件组成,索引文件每个记录包含一个关键词和一个指针,该指针指向记录文件中存放关键词信息的位置。其大致结构如图 1所示,利用倒排文件,检索系统可以快速的找到查询词对应的文档列表。对由多个关键词所组成的查询,还可以根据各个词在各个文档中出现的位置,来计算查询与文档的相关度。 倒排索引是迄今为止发现的用于搜索引擎最好的索引结构,既方便建立,又很好的支持各种查询操作。在实际应用中本文档来自技高网...

【技术保护点】
1.一种大规模数据搜索系统,其特征在于,其主要包括倒排文件模块、数据接口模块、查询模块、切词模块及记分函数模块以及进程守护模块,其中:所述倒排文件模块,用于搜索系统能够快速找到查询词对应的文档列表;所述数据接口模块,是一组接口类,封装了每个要公开的数据的访问方法;所述查询模块,用于利用输入端查询条件进行搜索,将各个关键词对应文档列表求交集;所述切词模块,用于切词并得到各个关键词并形成一棵查询树;所述记分函数模块,负责进行站点聚类,得到聚类好的查询结果,排列并返回给守护进程模块;以及,所述守护进程模块,用于接受查询请求,并根据查询请求中指定的最大返回结果数,将部分结果返回。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘奎飞张杰
申请(专利权)人:悠易互通北京广告有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1