基于搜索引擎的文档索引方法、数据查询方法及服务器技术

技术编号:3914105 阅读:381 留言:0更新日期:2012-04-11 18:40
本申请实施例公开了基于搜索引擎的文档索引方法、数据查询方法及服务器,所述文档索引方法包括:获取待索引的文档,并对所述文档进行分词操作得到一元分词;判断每个一元分词是否为过滤字,若所述一元分词是过滤字,将所述一元分词和与所述一元分词顺序相邻的至少一个一元分词组成多元分词,对所述多元分词建立索引;若所述一元分词不是过滤字,则直接对所述一元分词建立索引。本申请实施例中在进行索引或查询时,将作为高频字的一元分词与其相邻的至少一个一元分词组成多元分词,以保证不会因为对高频字进行索引而导致查询时浪费搜索引擎的资源,并且也不会因为跳过对高频字的索引而导致查询结果不准确。

【技术实现步骤摘要】

本申请涉及搜索引擎
,尤其涉及一种基于搜索引擎的文档索引方法、数 据查询方法及服务器。
技术介绍
搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序搜集互 联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,为用户提供检 索服务的系统。搜索引擎的工作原理如下首先,进行网页抓取,每个独立的搜索引擎都有自己的 网页抓取程序,俗称网络蜘蛛(Spider),Spider顺着网页中的超链接,连续地抓取网页,被 抓取的网页被称之为网页快照,由于互联网中超链接的应用很普遍,理论上,从一定范围的 网页出发,就能搜集到绝大多数的网页;其次,进行网页处理,搜索引擎抓到网页后,提取关 键词,建立索引文件;才能提供检索服务;最后,提供检索服务,用户输入关键词进行检索, 搜索引擎从索引数据库中找到匹配该关键词的网页,为了用户便于判断,除了网页标题和 URL外,还会提供一段来自网页的摘要以及其他信息。对于中文搜索引擎来说,在进行索引和查询时,都需要进行中文分词的操作,其中 常用的中文分词方法为一元分词法,即将句子中的每个汉字作为一个单位,假设待索引的 句子为“中国股市”,则经过一元分词后的结果为四个单字,分别为“中”、“国”、“股”、“市”。 以“市”字为例,在索引了 600万个文档的单台搜索引擎服务器内,“市”字出现的概率高达 93%,因此在根据一元分词划分结果查询“中国股市”时,对于“市”字的查询将极大消耗搜 索引擎服务器的资源,因此在搜索引擎内,预先保存了高频字列表,对于高频字采用过滤的 方式不进行查询,因此搜索“中国股市”就简化为搜索“中国股”,以跳过对高频字“市”的查 询。在对现有技术的研究和实践过程中,专利技术人发现现有技术中存在以下问题在采 用一元分词法进行索引和查询时,虽然通过预先设置的高频字列表跳过了对高频字的查 询,但是却会导致查询结果不准确。仍然以查询“中国股市”为例,虽然跳过了 “市”字的查 询,但是返回的查询结果中将包括大量的“中国股民”、“中国股票”等包含“中国股”的查询 结果,因此导致查询结果与需要查询的内容不相符。
技术实现思路
本申请实施例的目的是提供一种基于搜索引擎的文档索引方法、数据查询方法及 服务器,以解决现有通过高频词过滤方式进行索引和查询,导致查询结果不准确的问题。为解决上述技术问题,本申请实施例提供了一种基于搜索引擎的文档索引方法, 是这样实现的一种基于搜索引擎的文档索引方法,包括获取待索引的文档,并对所述文档进行分词操作得到一元分词;判断每个一元分词是否为过滤字,若所述一元分词是过滤字,将所述一元分词和 与所述一元分词顺序相邻的至少一个一元分词组成多元分词,对所述多元分词建立索引;若所述一元分词不是过滤字,则直接对所述一元分词建立索引。为解决上述技术问题,本申请实施例提供了一种基于搜索引擎的数据查询方法, 是这样实现的一种基于搜索引擎的数据查询方法,所述数据查询方法应用所述文档索引方法所 建立的索引,包括获取待查询的数据,并对所述数据进行分词操作得到一元分词;判断每个一元分词是否为过滤字,若所述一元分词是过滤字,将所述一元分词和 与所述一元分词顺序相邻的至少一个一元分词组成多元分词,根据所述多元分词查找所述 索引,若所述一元分词不是过滤字,则根据所述一元分词查找所述索引;将查找所述索引后得到的查询结果进行合并。为解决上述技术问题,本申请实施例还提供了一种基于搜索引擎的文档索引服务 器,是这样实现的一种基于搜索引擎的文档索引服务器,包括获取单元,用于获取待索引的文档;分词单元,用于对所述获取单元获取的文档进行分词操作得到一元分词;判断单元,用于判断每个一元分词是否为过滤字;索引单元,用于当所述判断单元判断所述一元分词是过滤字时,将所述一元分词 和与所述一元分词顺序相邻的至少一个一元分词组成多元分词,对所述多元分词建立索 引,当所述判断单元判断所述一元分词不是过滤字时,则直接对所述一元分词建立索引。为解决上述技术问题,本申请实施例还提供了一种基于搜索引擎的数据查询服务 器,是这样实现的一种基于搜索引擎的数据查询服务器,所述数据查询服务器应用所述文档索引服 务器所建立的索引,包括获取单元,用于获取待查询的数据;分词单元,用于对所述获取单元获取的数据进行分词操作得到一元分词;判断单元,用于判断每个一元分词是否为过滤字;查找单元,用于当所述判断单元判断所述一元分词是过滤字时,将所述一元分词 和与所述一元分词顺序相邻的至少一个一元分词组成多元分词,根据所述多元分词查找所 述索引,当所述判断单元判断所述一元分词不是过滤字时,则根据所述一元分词查找所述 索引;合并单元,用于将所述查找单元查找所述索引后得到的查询结果进行合并。可见,本申请实施例中在进行索引或查询时,将作为高频字的一元分词与其相邻 的至少一个一元分词组成多元分词,以保证不会因为对高频字进行索引而导致查询时浪费 搜索引擎的资源,并且也不会因为跳过对高频字的索引而导致查询结果不准确;以查询“中 国股市”为例,本申请实施例将以分词“中”、“国”、“股”、“股市”进行查询,由于分词“股市” 的命中率远低于高频字“市”的命中率,并且也不会由于跳过对“市”的查询而查询到除“股 市”以外的分词,因此在降低搜索引擎资源消耗的同时可以返回正确的查询结果,由此提高了搜索引擎的性能。 附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提 下,还可以根据这些附图获得其他的附图。图1为本申请基于搜索引擎的文档索引方法的第一实施例流程图;图2为本申请基于搜索引擎的文档索引方法的第二实施例流程图;图3为本申请基于搜索引擎的数据查询方法的第一实施例流程图;图4为本申请基于搜索引擎的数据查询方法的第二实施例流程图;图5为本申请基于搜索引擎的文档索引服务器的第一实施例框图;图6为本申请基于搜索引擎的文档索引服务器的第二实施例框图;图7为本申请基于搜索引擎的数据查询服务器的第一实施例框图;图8为本申请基于搜索引擎的数据查询服务器的第二实施例框图。具体实施例方式本申请实施例提供一种基于搜索引擎的文档索引方法、数据查询方法及服务器。为了使本
的人员更好地理解本申请实施例中的技术方案,并使本申请实 施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例中技术方 案作进一步详细的说明。搜索引擎按照功能划分,通常由搜索模块、索引模块、查询模块和用户接口模块四 个部分组成。其中,搜索模块的功能是通过Spider在互联网中漫游,发现和搜集网页信息; 索引模块的功能是从搜索模块搜索到的网页中抽取出索引项,用于表示文档以及生成文档 库的索引表;查询模块的功能是根据用户的查询在索引库中检索文档,并对将要输出的结 果进行排序,按照用户的查询需求合理反馈信息;用户接口模块的作用是接收用户的查询 请求,并向用户返回查询结果。本申请实施例主要描述搜索引擎中的索引功能和查询功能 的实现过程。为了使本
的人员更好地理解本申请中的技术方案本文档来自技高网
...

【技术保护点】
一种基于搜索引擎的文档索引方法,其特征在于,包括:获取待索引的文档,并对所述文档进行分词操作得到一元分词;判断每个一元分词是否为过滤字,若所述一元分词是过滤字,将所述一元分词和与所述一元分词顺序相邻的至少一个一元分词组成多元分词,对所述多元分词建立索引;若所述一元分词不是过滤字,则直接对所述一元分词建立索引。

【技术特征摘要】

【专利技术属性】
技术研发人员:魏磊沈加翔
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1