一种利用搜索引擎进行查询扩展的方法及系统技术方案

技术编号:8271531 阅读:269 留言:0更新日期:2013-01-31 03:48
本发明专利技术涉及互联网搜索领域,提供了一种利用搜索引擎进行查询扩展的方法,具体包括,获得搜索引擎集群中的每个搜索引擎的检索结果,通过对检索结果进行评价获得每个搜索引擎的权重;确定用户查询的核心词和修饰词,并以此为基础确定扩展词,从而形成扩展查询进行搜索。本发明专利技术还提供了一种利用搜索引擎进行查询扩展的系统。采用上述技术方案,依据搜索引擎集群的检索结果对用户的核心需求进行扩展,一方面使得用户的需求更加明确,避免了基于局部数据查询扩展的负反馈效果或主题漂移的风险,另一方面可以给用户提供多角度、多侧面的查询结果,极大范围地满足用户需求,甚至可以引导用户需求,使得搜索引擎的用户体验得到大幅的提升。

【技术实现步骤摘要】
本专利技术涉及互联网搜索
,特别地涉及一种利用搜索引擎进行查询扩展的方法及系统
技术介绍
随着计算机技术及互联网技术的飞速发展,互联网上的数据和信息急剧增长。面对海量的数字化信息,人们通常需要通过搜索引擎来获取他们想要的信息。而对于搜索引擎而言,如何能够更好的理解用户的需求,如何能够从海量的数据中提取用户感兴趣的信息返回给用户,已经成为首要的课题。对于通用搜索引擎而言,通常只有一个输入框接受用户的查询。这就使得理解用户的查询核心需求以及具体需求细节变得有挑战性。如果用户的查询语句太短,则很难弄清用户需求的全部细节,检索结果往往与用户的需求部分相关;如果用户的查询语句过长,则很难把握用户的核心需求,很可能查询结果偏离用户的核心需求,或者只满足部分需求,顾此失彼。 为了更好的理解用户的查询意图,进而提高搜索引擎检索的准确率和召回率,查询扩展技术应运而生。目前的查询扩展技术主要包括基于全局分析的查询扩展、基于局部分析的查询扩展、基于查询日志的查询扩展和基于语义资源的查询扩展。基于全局分析的查询扩展通过挖掘大数据集上词语之间的相关度进行查询扩展。对通用搜索引擎而言,其数据集全体及其庞大,基于全局的数据分析对时间、设备的需求是极其巨大的;同时由于可能的歧义影响,全局分析扩展出的查询语义需求可能更加模糊,使得检索结果变差。因此,这种方法在实际的搜索引擎中鲜有采用。基于局部分析的查询扩展包括相关反馈和伪相关反馈。相关反馈方法是搜索引擎算法中的经典方法。该方法先用用户的初始查询,得到搜索结果,通过用户点击,得到相关文档集合,和不相关文档集合,对与查询相关性高的词进行加权,相关性差的进行降权,一些词甚至可以删除。最早Rocchio提出相关反馈模型是搜索引擎的经典模型,可以参考Christopher D. Manning, Prabhakar Raghavan, HinrichSchiitze: An Introduction to Information Retrieval. Cambridge University Press,2009。其缺点是一方面,它需要用户点击,需要大量的查询日志的积累,另一方面,它的参数选取需大量实验来确定最优,而全局最优参数通常在局部查询中效果并不理想。因此,直接使用相关反馈进行查询扩展的实例并不多。伪相关反馈方法近年来被广为使用。该方法假定初始查询结果中高排名的文档是与用户感兴趣的主题相关的,于是从高排名的文档中提取词来扩展查询语句。例如CN200910132193. 5提供了查询扩展方法及查询扩展设备,针对给定的查询语句进行搜索,得到查询结果;在所得到的查询结果集合中,在排名在前一定数目的查询结果子集中进行聚类,生成簇;对簇进行排序;从排名在前一定数目的簇中提取词,把所提取的词添加到查询语句,生成新的查询语句。不过伪相关反馈方法对初始结果很敏感,若初始结果比较相关,则呈现正反馈;若初始结果比较不相关,则呈现负反馈。基于查询日志的查询扩展方法是另一种比较常用的方法,该方法通过对日志进行分析给出扩展的查询建议。例如CN200710097501. 6提供了查询扩展方法和装置以及相关检索词库,将用户的查询行为记录按照该用户的身份标识和访问时间划分为至少一个查询事件和查询单元;周期性地计算所述各个查询单元或者查询事件中的检索词之间的相关度,根据计算出的检索词之间的相关度对相关检索词库进行更新;在相关检索词库中检索与用户查询时所输入的检索词的相关度接近的相关检索词,形成查询扩展结果。与相关反馈方法类似,基于查询日志分析的方法同样需要大量的查询日志的积累。基于语义概念的查询扩展方法利用领域本体,语义网,语义词典等语义资源,对查询进行扩展。例如CN200810116729.X提供了一种基于领域知识的语义查询扩展方法,根据对领域知识和用户查询语句特征的分析,构建领域知识库;然后利用领域知识库内容,对用户输入的查询语句进行语义处理,获得一个语义项列表;利用语义项列表,结合领域知识库内容,通过语义计算得到可扩展项;将所获得的可扩展项提交搜索系统进行查询。基于语义概念的方法的缺点在于一方面语义资源的建立需要大量人力物力,另一方面,基于语义 的扩展只针对用户查询进行分析,没有考虑搜索引擎的数据分布,可能造成扩展的查询与数据不匹配,从而不能返回较好的结果。
技术实现思路
本专利技术解决的技术问题在于提供了一种利用搜索引擎进行查询扩展的方法,以解决目前查询扩展依赖性强以及需要庞大资源的问题,本专利技术还提供了一种利用搜索引擎进行查询扩展的系统。为解决上述问题,本专利技术实施例提供了一种利用搜索引擎进行查询扩展的方法,具体包括,用户查询被分发到搜索引擎集群中的每个搜索引擎,并获取每个搜索引擎返回的前N条检索结果,所述检索结果被收集到一个文档池中,N为自然数;根据文档池中的文档对每个搜索引擎进行评价,从而获得每个搜索引擎的权重;根据文档池中文档的信息和搜索引擎的权重确定用户查询中的核心词;根据用户查询的核心词分类信息及句法分析确定用户查询中的修饰词;根据用户查询中的核心词、修饰词,文档池中的文档信息和各个搜索引擎的权重确定用户查询的扩展词,生成扩展查询;利用主搜索引擎搜索扩展查询,得到查询结果并返回给用户。本专利技术实施例还提供了一种利用搜索引擎进行查询扩展的系统,具体包括,搜索引擎查询模块,用于将用户查询被分发到搜索引擎集群中的每个搜索引擎,并获取每个搜索引擎返回的前N条检索结果,这些检索结果被收集到一个文档池中;搜索引擎评价模块,用于根据文档池中的文档对每个搜索弓I擎进行评价,从而获得每个搜索弓I擎的权重;核心词确定模块,用于根据文档池中文档的信息和搜索引擎的权重确定用户查询中的核心词;修饰词确定模块,用于根据用户查询的核心词分类信息及句法分析确定用户查询中的修饰词;扩展词生成模块,用于根据用户查询中的核心词、修饰词,文档池中的文档信息和各个搜索引擎的权重确定用户查询的扩展词,生成扩展查询;查询结果获取模块,用于利用主搜索引擎搜索扩展查询,得到查询结果并返回给用户。采用上述技术方案,依据搜索引擎集群的检索结果对用户的核心需求进行扩展,一方面使得用户的需求更加明确,避免了基于局部数据查询扩展的负反馈效果或主题漂移的风险,另一方面可以给用户提供多角度、多侧面的查询结果,极大范围地满足用户需求,甚至可以引导用户需求,使得搜索引擎的用户体验得到大幅的提升。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中图I是本专利技术第一实施例流程图;图2是本专利技术第二实施例结构图。具体实施方式·为了使本专利技术所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图I所示,是本专利技术第一实施例流程图,提供了一种利用搜索引擎进行查询扩展的方法,具体包括,步骤S101,用户查询被分发到搜索引擎集群中的每个搜索引擎,并获取每个搜索引擎返回的前N条检索结果,这些检索结果被收集到一个文档池pool中;具体地,所述搜索引擎集群中的每个搜索引擎本文档来自技高网
...

【技术保护点】
一种利用搜索引擎集群进行查询扩展的方法,其特征在于,包括,用户查询被分发到搜索引擎集群中的每个搜索引擎,并获取每个搜索引擎返回的前N条检索结果,所述检索结果被收集到一个文档池中,N为自然数;根据文档池中的文档对每个搜索引擎进行评价,从而获得每个搜索引擎的权重;根据文档池中文档的信息和搜索引擎的权重确定用户查询中的核心词;根据用户查询的核心词分类信息及句法分析确定用户查询中的修饰词;根据用户查询中的核心词、修饰词,文档池中的文档信息和各个搜索引擎的权重确定用户查询的扩展词,生成扩展查询;利用主搜索引擎搜索扩展查询,得到查询结果并返回给用户。

【技术特征摘要】
1.一种利用搜索引擎集群进行查询扩展的方法,其特征在于,包括, 用户查询被分发到搜索引擎集群中的每个搜索引擎,并获取每个搜索引擎返回的前N条检索结果,所述检索结果被收集到一个文档池中,N为自然数; 根据文档池中的文档对每个搜索引擎进行评价,从而获得每个搜索引擎的权重; 根据文档池中文档的信息和搜索引擎的权重确定用户查询中的核心词; 根据用户查询的核心词分类信息及句法分析确定用户查询中的修饰词; 根据用户查询中的核心词、修饰词,文档池中的文档信息和各个搜索引擎的权重确定用户查询的扩展词,生成扩展查询; 利用主搜索引擎搜索扩展查询,得到查询结果并返回给用户。2.根据权利要求I所述的方法,其特征在于,所述根据文档池中文档的信息和搜索引擎的权重确定用户查询中的核心词具体包括, 过滤用户查询中的停用词; 提取用户查询中的实体词; 根据文档池中文档的信息和各个搜索引擎的权重给用户查询中除停用词外的每个词语打分,词语打分最高的至少一个词语被标识为核心词。3.根据权利要求2所述的方法,其特征在于,所述提取用户查询中的实体词具体包括, 从分类实体词库中提取实体词; 识别查询中的命名实体; 进行实体名的消歧工作,对于有冲突的实体名进行处理,确定最后的实体名输出列表。4.根据权利要求2所述的方法,其特征在于,所述根据文档池中文档的信息和各个搜索引擎的权重给用户查询中除停用词外的每个词语打分具体包括, 所述词语的最终打分score = f (Score1, score2), Score1是词语自身属性的打分,Score2是根据文档池中文档的信息和各个搜索引擎的权重信息得到的词语在相关文档中的打分,f表不两种打分的稱合方式。5.根据权利要求I所述的方法,其特征在于,所述根据用户查询的核心词分类信息及句法分析确定用户查询中的修饰词具体包括, 对核心词进行分类; 在核心词有确定分类时,根据核心词类别确定修饰词的特征模板,并利用该模板在用户查询中查找匹配的修饰词; 当核心词无确定分类时,进行句法分析,比如依存句法分析,寻找核心词的修饰成分。6.根据权利要求I所述的方法,其特征在于,所述根据用户查询中的核心词、修饰词,文档池中的文档信息和各个搜索引擎的权重确定用户查询的扩展词具体包括, 获得潜在扩展词的综合得分score = Score1 * Score2,其中Score1是根据文档池中文档的信息和各个搜索引擎的权重信息得到的该扩展词与核心词和修饰词的关联得分,Score2是扩展词自身的显著性得分; 在得到潜在扩展词的打分后,排名前X个扩展词将被选中和原始查询的核心词及修饰词一起组成扩展后的查询,其中X的设定将取决于主搜索引擎的承载能力和原始查询的需求类别,所述X为自然数。7.一种利用搜索引擎进行查询扩展的系统,其特征在于,包括,搜索引擎查询模块,用于...

【专利技术属性】
技术研发人员:石志伟雷大伟车天文周步恋杨振东王更生王喜民何宏靖徐忆苏
申请(专利权)人:深圳市宜搜科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1