基于搜索引擎的文档索引方法、数据查询方法及服务器技术

技术编号：3914105 阅读：381 留言：0更新日期：2012-04-11 18:40

本申请实施例公开了基于搜索引擎的文档索引方法、数据查询方法及服务器，所述文档索引方法包括：获取待索引的文档，并对所述文档进行分词操作得到一元分词；判断每个一元分词是否为过滤字，若所述一元分词是过滤字，将所述一元分词和与所述一元分词顺序相邻的至少一个一元分词组成多元分词，对所述多元分词建立索引；若所述一元分词不是过滤字，则直接对所述一元分词建立索引。本申请实施例中在进行索引或查询时，将作为高频字的一元分词与其相邻的至少一个一元分词组成多元分词，以保证不会因为对高频字进行索引而导致查询时浪费搜索引擎的资源，并且也不会因为跳过对高频字的索引而导致查询结果不准确。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及搜索引擎
，尤其涉及一种基于搜索引擎的文档索引方法、数据查询方法及服务器。
技术介绍
搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息，在对信息进行组织和处理后，并将处理后的信息显示给用户，为用户提供检索服务的系统。搜索引擎的工作原理如下首先，进行网页抓取，每个独立的搜索引擎都有自己的网页抓取程序，俗称网络蜘蛛(Spider)，Spider顺着网页中的超链接，连续地抓取网页，被抓取的网页被称之为网页快照，由于互联网中超链接的应用很普遍，理论上，从一定范围的网页出发，就能搜集到绝大多数的网页；其次，进行网页处理，搜索引擎抓到网页后，提取关键词，建立索引文件；才能提供检索服务；最后，提供检索服务，用户输入关键词进行检索，搜索引擎从索引数据库中找到匹配该关键词的网页，为了用户便于判断，除了网页标题和 URL外，还会提供一段来自网页的摘要以及其他信息。对于中文搜索引擎来说，在进行索引和查询时，都需要进行中文分词的操作，其中常用的中文分词方法为一元分词法，即将句子中的每个汉字作为一个单位，假设待索引的句子为“中国股市”，则经过一元分词后的结果为四个单字，分别为“中”、“国”、“股”、“市”。以“市”字为例，在索引了 600万个文档的单台搜索引擎服务器内，“市”字出现的概率高达 93%，因此在根据一元分词划分结果查询“中国股市”时，对于“市”字的查询将极大消耗搜索引擎服务器的资源，因此在搜索引擎内，预先保存了高频字列表，对于高频字采用过滤的方式不进行查询，因此搜索“中国股市”就...

【技术保护点】
一种基于搜索引擎的文档索引方法，其特征在于，包括：获取待索引的文档，并对所述文档进行分词操作得到一元分词；判断每个一元分词是否为过滤字，若所述一元分词是过滤字，将所述一元分词和与所述一元分词顺序相邻的至少一个一元分词组成多元分词，对所述多元分词建立索引；若所述一元分词不是过滤字，则直接对所述一元分词建立索引。

【技术特征摘要】

【专利技术属性】
技术研发人员：魏磊，沈加翔，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：KY

全部详细技术资料下载我是这个专利的主人