【技术实现步骤摘要】
本专利技术涉及搜索引擎技术,尤其涉及一种大规模数据搜索系统。
技术介绍
众所周知,搜索引擎是用于从互联网上搜寻信息的重要工具。随着互联网规模的不断扩大和网上信息量的不断增长,搜索引擎的作用也就越来越重要。当前,互联网上的搜索引擎虽然大小不同,功能也各异,但它们都包含以下一些基本的功能模块网页收集模块、页面预处理模块、索引模块、页面检索模块等。其中,可利用上述搜索引擎的索引模块生成倒排文件,被检索模块所使用。这里,所述倒排文件是从关键词到其出现位置(occurrence)的一种索引。对于搜索引擎来说,关键词的出现位置信息必须包括出现关键词的文档列表,以及关键词在各文档内的位置列表。一般而言,倒排文件由索引文件和记录文件组成,索引文件每个记录包含一个关键词和一个指针,该指针指向记录文件中存放关键词信息的位置。其大致结构如图 1所示,利用倒排文件,检索系统可以快速的找到查询词对应的文档列表。对由多个关键词所组成的查询,还可以根据各个词在各个文档中出现的位置,来计算查询与文档的相关度。 倒排索引是迄今为止发现的用于搜索引擎最好的索引结构,既方便建立,又很好的支持各种查 ...
【技术保护点】
1.一种大规模数据搜索系统,其特征在于,其主要包括倒排文件模块、数据接口模块、查询模块、切词模块及记分函数模块以及进程守护模块,其中:所述倒排文件模块,用于搜索系统能够快速找到查询词对应的文档列表;所述数据接口模块,是一组接口类,封装了每个要公开的数据的访问方法;所述查询模块,用于利用输入端查询条件进行搜索,将各个关键词对应文档列表求交集;所述切词模块,用于切词并得到各个关键词并形成一棵查询树;所述记分函数模块,负责进行站点聚类,得到聚类好的查询结果,排列并返回给守护进程模块;以及,所述守护进程模块,用于接受查询请求,并根据查询请求中指定的最大返回结果数,将部分结果返回。
【技术特征摘要】
【专利技术属性】
技术研发人员:刘奎飞,张杰,
申请(专利权)人:悠易互通北京广告有限公司,
类型:发明
国别省市:11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。