利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法技术

技术编号:2829295 阅读:559 留言:0更新日期:2012-04-11 18:40
本发明专利技术利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法,在获得用户提交的用户查询以后,首先对查询进行预处理,然后分别独立送给查询分析模块和搜索引擎接口与网页数据处理模块,分别由查询分析模块完成查询的词组生成工作;由搜索引擎接口与网页数据处理模块完成从传统搜索引擎中获取网页数据,进行网页文本数据处理,进而生成倒排表的工作;然后通过检索排序模块将查询分析模块生成的词组在搜索引擎接口与网页数据处理模块获得的倒排表里进行检索匹配,并在搜索引擎给出的原排序基础上,根据词组匹配程度,对原排序进行调整,最后将最终结果返回到用户端,同时可以给出网页的自动摘要;本发明专利技术具有更高的排序科学性。

【技术实现步骤摘要】

本专利技术是一种利用词组索引技术而实现的一种通用搜索引擎的后端处理技 术,通过对原搜索结果进行合理的筛选和排序,从而帮助用户获得更需要的结果。
技术介绍
搜索引擎是搜索网页及网站的工具,在我们的网络生活中已成为不可缺 少的一部分,是我们在网上査找资料,获得信息,学习知识的重要途径。目前的 通用搜索引擎的基本原理是通过网站或网页的收集程序(即基于关键词索引的通 用搜索引擎,该通用搜索引擎的数据库是依靠一个叫网络机器人(Spider) 或叫网络蜘蛛(crawlers)的软件,通过网络上的各种链接自动获取大量网 页信息内容,并按已定的规则分析整理形成的。当用户提交査询后,将查询解析 为一些独立的关键词,然后去数据库内检索,并按一定的排序算法排序,最后返 回给用户,如百度和Google。),从互联网上自动搜集网页地址及其文本,然后 将搜集到的网页文本交给索引和检索系统,由计算机扫描文本中每一个词,建立 以词为单位的倒排文件(或称为倒排表),检索程序根据用户给出的检索词在文本中出现的频率和概率,对包含这些检索词的文本进行排序,最后输出网页及网 站的排序结果。基于关键词索引的通用搜索引擎的问题集中在以下几点 1.1、长短语检索精确度不高以关键词索引为基础的通用搜索引擎,在进行关键词搜索上有很大的优势, 结果也比较准确。但是事实上,用户在搜索的时候,习惯上并不是使用一个关键词,往往是较长的短语(2-3或4-5的词组)来检索,而且通常凭一个关键词或 关键词的简单逻辑组合,也很难表达用户搜索的意图。而且它们的查询结果往往 不够准确无用的(对于检索词不相关或相关性低的)搜索结果过多。根据2004 Pew互联网与美国生活调查研究报道(Pew Internet and American Life Project 2004),引擎用户平均需搜索近5次,才能查到结果。因而,能帮助用户快速准 确査到结果的新的搜索引擎技术为市场需要。 具体情况分析如下-一、 不能排除冗余的关键词制造的噪声。如:甘肃省兰州大学教务处=兰 州大学教务处,但用前者査询时就会出现很多包含冗余的关键词甘肃省而 不含有兰州大学教务处的网页。(详见附图l);另外,对于原本表示同一个 概念的短语,稍加变化,则结果大相径庭。如物理学基本常数与物理学 上的基本常数。(详见附图2、 3)二、 各关键词的相关性在查询结果中不能很好地体现。如搜索中国西部的 大学,则会出现西北大学中国西部经济等词。1.2 、搜索结果排序不合理。传统搜索引擎的排序方式主要有两种 一、以用户点击率为标准,点击次数 越高,排序越靠前;二、超链分析技术。现在的搜索引擎已普遍使用超链分析技 术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、 Anchor Text、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有 某个词比如兰州大学,但如果有别的网页B用链接兰州大学指向这个网 页A,那么用户搜索兰州大学时也能找到网页A。而且,如果有越多网页(C、 D、 E、 F……)用名为兰州大学的链接指向这个网页A,或者给出这个链接 的源网页(B、 C、 D、 E、 F……)越优秀,那么网页A在用户搜索兰州大学 时也会被认为更相关,排序也会越靠前。这种方法的缺点是,用单一检索词在文 本中出现的概率和频率来计算,并不完全代表检索词与文本内容的相关性的值。 在输入长短语或句子查询的情况下,不能很好的体现检索句与文本内容相关性的 高低。1.3、无法处理问句。搜索引擎的发展前景,要求搜索引擎对用户检索提问具有一定的理解能力, 但目前通用的搜索引擎不具备处理问句的能力。百度的一个做法就是百度知 道,再如新浪爱问等,但这些也是有一定的问题的。百度知道、新浪爱问 (http:〃iask. sina.com.cn/),是一种提问、回答,赏金猎人机制,或称为人 肉搜索引擎。鼓励助人为乐,带动勤学好问,固然不错;但也存在不少问题*重复太多,相同内容的答案被重复转贴多次。*误区不少,限于回答者的水平参差不齐,导致有很多错误的答案。*充斥无用信息,类似论坛,有很多无意义的争论、抢座。*可能被人利用发布广告。综上所述,现存的搜索引擎对于完整的査询的匹配是模糊的,这样有利于得 到更多结果,但是却导致很多无用的结果充斥进来,甚至干扰到较好的结果的出 现位置,而且这些搜索引擎对问句没有做特殊处理,效果相对不好。
技术实现思路
本专利技术的目的是在于利用词组索引技术对基于关键词索引的搜索引擎进行 改进,可以避免上述缺陷,使搜索引擎更具人性化,从而获得更具合理性的结果 (即合乎用户搜索意图的结果更靠前);具有更高的排序科学性;在给出用户搜 索结果的同时,可以给出自动摘要。本专利技术是这样实现的,在获得用户提交的用户查询以后,首先对查询进行预 处理,主要完成联想和问句处理工作 一、对查询进行联想,获得更精准或更丰 富的査询表述;二、如果用户的原始査询是问句,则利用问句模式匹配程序,将 问句转换为陈述句;然后将预处理后的查询,分别独立送给查询分析模块和搜索 引擎接口与网页数据处理模块,分别由査询分析模块完成查询的词组生成工作; 由搜索引擎接口与网页数据处理模块完成从传统搜索引擎中获取网页数据,进行 网页文本数据处理,进而生成倒排表的工作;然后通过检索排序模块将査询分析 模块生成的词组在搜索引擎接口与网页数据处理模块获得的倒排表里进行检索 匹配,并在搜索引擎给出的原排序基础上,根据词组匹配程度,对原排序进行调 整,最后将最终结果返回到用户端,同时可以给出网页的自动摘要。所述的查询分析模块由以下几部分构成分词、标注词性部分由分词程序将査询分解成一个个词语, 一般对于英文 来说,分词这一步可以简单的按空格划分,在分词的过程中同时把每个词的词性 标识出来;词语组合部分用词组生成程序,把分词得到的词语以每个实词为中心,在 其前和后附加上若干别的词,组合成包含词语数量不等、搭配不同的一系列词组, 在组合的过程中,根据分词程序标注的词性,去除一些无意义的组合,例如一些 虚词组合等,得到用于检索的词组集;词组排序部分将获得的词组集,按词组长短排序,长的在前,短的在后, 用户的原始査询排在第一位,存放到内存中,获得词组集。所述的搜索引擎接口与网页数据处理模块由以下几部分构成-从搜索引擎接口获取数据部分将预处理过的査询送入传统搜索引擎接口,从而获得元数据,所述的元数据结构为网页文本数据、相应链接、原始排序; 词频分析部分对获得的每张网页的文本数据,通过分词程序将文本分解成一个个独立的词语,用词频统计程序统计词频,将词频超过阈值的词标注为关键词;关键词组合部分利用词组生成程序,以每个关键词为中心,在其前和后分 别附加若干别的词,组合成包含词语数量不等、搭配不同的一系列词组,在组合 的过程中,根据分词程序标注的词性,去除一些无意义的组合,例如一些虚词组 合等,得到用于建立倒排表的词组集;所有的词组生成工作都限于在当前句内, 不出现将不同句子包含的关键词组合到一起的情况;建立倒排表部分将获得的词组按长短排序,长的在前、短的在后,连同这些词组来源的信息,按词组^网页idl,网页id2,…这样的对应表的形式插入或更新到内存或磁盘上的倒排表索引文件中。本文档来自技高网
...

【技术保护点】
一种利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法,其特征在于:在获得用户提交的用户查询以后,首先对查询进行预处理,主要完成联想和问句处理工作:一、对查询进行联想,获得更精准的查询表述;二、如果用户的原始查询是问句,则利用问句模式匹配程序,将问句转换为陈述句;然后将预处理后的查询,分别独立送给查询分析模块和搜索引擎接口与网页数据处理模块,分别由查询分析模块完成查询的词组生成工作;由搜索引擎接口与网页数据处理模块完成从传统搜索引擎中获取网页数据,进行网页文本数据处理,进而生成倒排表的工作;然后通过检索排序模块将查询分析模块生成的词组在搜索引擎接口与网页数据处理模块获得的倒排表里进行检索匹配,并在搜索引擎给出的原排序基础上,根据词组匹配程度,对原排序进行调整,最后将最终结果返回到用户端,同时可以给出网页的自动摘要。

【技术特征摘要】
1、一种利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法,其特征在于在获得用户提交的用户查询以后,首先对查询进行预处理,主要完成联想和问句处理工作一、对查询进行联想,获得更精准的查询表述;二、如果用户的原始查询是问句,则利用问句模式匹配程序,将问句转换为陈述句;然后将预处理后的查询,分别独立送给查询分析模块和搜索引擎接口与网页数据处理模块,分别由查询分析模块完成查询的词组生成工作;由搜索引擎接口与网页数据处理模块完成从传统搜索引擎中获取网页数据,进行网页文本数据处理,进而生成倒排表的工作;然后通过检索排序模块将查询分析模块生成的词组在搜索引擎接口与网页数据处理模块获得的倒排表里进行检索匹配,并在搜索引擎给出的原排序基础上,根据词组匹配程度,对原排序进行调整,最后将最终结果返回到用户端,同时可以给出网页的自动摘要。2、 根据权利要求1所述的利用词组索引技术对基于关键词索引的搜索引擎 进行改进的方法,其特征在于所述的査询分析模块由以下几部分构成分词、标注词性部分由分词程序将查询分解成一个个词语, 一般对于英文 来说,分词这一步可以简单的按空格划分,在分词的过程中同时把每个词的词性 标识出来;词语组合部分用词组生成程序,把分词得到的词语以每个实词为中心,在 其前和后附加上若干别的词,组合成包含词语数量不等、搭配不同的一系列词组, 在组合的过程中,根据分词程序标注的词性,去除一些无意义的组合,例如一些 虚词组合等,得到用于检索的词组集;词组排序部分将获得的词组集,按词组长短排序,长的在前,短的在后, 用户的原始查询排在第一位,存放...

【专利技术属性】
技术研发人员:邓剑波戴云川詹天荣张潘高潮周波张森胡显如
申请(专利权)人:新百丽鞋业深圳有限公司邓亚丽
类型:发明
国别省市:94[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1