【技术实现步骤摘要】
本专利技术涉及互联网搜索
,特别地涉及一种利用搜索引擎进行查询扩展的方法及系统。
技术介绍
随着计算机技术及互联网技术的飞速发展,互联网上的数据和信息急剧增长。面对海量的数字化信息,人们通常需要通过搜索引擎来获取他们想要的信息。而对于搜索引擎而言,如何能够更好的理解用户的需求,如何能够从海量的数据中提取用户感兴趣的信息返回给用户,已经成为首要的课题。对于通用搜索引擎而言,通常只有一个输入框接受用户的查询。这就使得理解用户的查询核心需求以及具体需求细节变得有挑战性。如果用户的查询语句太短,则很难弄清用户需求的全部细节,检索结果往往与用户的需求部分相关;如果用户的查询语句过长,则很难把握用户的核心需求,很可能查询结果偏离用户的核心需求,或者只满足部分需求,顾此失彼。 为了更好的理解用户的查询意图,进而提高搜索引擎检索的准确率和召回率,查询扩展技术应运而生。目前的查询扩展技术主要包括基于全局分析的查询扩展、基于局部分析的查询扩展、基于查询日志的查询扩展和基于语义资源的查询扩展。基于全局分析的查询扩展通过挖掘大数据集上词语之间的相关度进行查询扩展。对通用搜索引擎而言,其数据集全体及其庞大,基于全局的数据分析对时间、设备的需求是极其巨大的;同时由于可能的歧义影响,全局分析扩展出的查询语义需求可能更加模糊,使得检索结果变差。因此,这种方法在实际的搜索引擎中鲜有采用。基于局部分析的查询扩展包括相关反馈和伪相关反馈。相关反馈方法是搜索引擎算法中的经典方法。该方法先用用户的初始查询,得到搜索结果,通过用户点击,得到相关文档集合,和不相关文档集合,对与查询相关性高的词进行加权 ...
【技术保护点】
一种利用搜索引擎集群进行查询扩展的方法,其特征在于,包括,用户查询被分发到搜索引擎集群中的每个搜索引擎,并获取每个搜索引擎返回的前N条检索结果,所述检索结果被收集到一个文档池中,N为自然数;根据文档池中的文档对每个搜索引擎进行评价,从而获得每个搜索引擎的权重;根据文档池中文档的信息和搜索引擎的权重确定用户查询中的核心词;根据用户查询的核心词分类信息及句法分析确定用户查询中的修饰词;根据用户查询中的核心词、修饰词,文档池中的文档信息和各个搜索引擎的权重确定用户查询的扩展词,生成扩展查询;利用主搜索引擎搜索扩展查询,得到查询结果并返回给用户。
【技术特征摘要】
1.一种利用搜索引擎集群进行查询扩展的方法,其特征在于,包括, 用户查询被分发到搜索引擎集群中的每个搜索引擎,并获取每个搜索引擎返回的前N条检索结果,所述检索结果被收集到一个文档池中,N为自然数; 根据文档池中的文档对每个搜索引擎进行评价,从而获得每个搜索引擎的权重; 根据文档池中文档的信息和搜索引擎的权重确定用户查询中的核心词; 根据用户查询的核心词分类信息及句法分析确定用户查询中的修饰词; 根据用户查询中的核心词、修饰词,文档池中的文档信息和各个搜索引擎的权重确定用户查询的扩展词,生成扩展查询; 利用主搜索引擎搜索扩展查询,得到查询结果并返回给用户。2.根据权利要求I所述的方法,其特征在于,所述根据文档池中文档的信息和搜索引擎的权重确定用户查询中的核心词具体包括, 过滤用户查询中的停用词; 提取用户查询中的实体词; 根据文档池中文档的信息和各个搜索引擎的权重给用户查询中除停用词外的每个词语打分,词语打分最高的至少一个词语被标识为核心词。3.根据权利要求2所述的方法,其特征在于,所述提取用户查询中的实体词具体包括, 从分类实体词库中提取实体词; 识别查询中的命名实体; 进行实体名的消歧工作,对于有冲突的实体名进行处理,确定最后的实体名输出列表。4.根据权利要求2所述的方法,其特征在于,所述根据文档池中文档的信息和各个搜索引擎的权重给用户查询中除停用词外的每个词语打分具体包括, 所述词语的最终打分score = f (Score1, score2), Score1是词语自身属性的打分,Score2是根据文档池中文档的信息和各个搜索引擎的权重信息得到的词语在相关文档中的打分,f表不两种打分的稱合方式。5.根据权利要求I所述的方法,其特征在于,所述根据用户查询的核心词分类信息及句法分析确定用户查询中的修饰词具体包括, 对核心词进行分类; 在核心词有确定分类时,根据核心词类别确定修饰词的特征模板,并利用该模板在用户查询中查找匹配的修饰词; 当核心词无确定分类时,进行句法分析,比如依存句法分析,寻找核心词的修饰成分。6.根据权利要求I所述的方法,其特征在于,所述根据用户查询中的核心词、修饰词,文档池中的文档信息和各个搜索引擎的权重确定用户查询的扩展词具体包括, 获得潜在扩展词的综合得分score = Score1 * Score2,其中Score1是根据文档池中文档的信息和各个搜索引擎的权重信息得到的该扩展词与核心词和修饰词的关联得分,Score2是扩展词自身的显著性得分; 在得到潜在扩展词的打分后,排名前X个扩展词将被选中和原始查询的核心词及修饰词一起组成扩展后的查询,其中X的设定将取决于主搜索引擎的承载能力和原始查询的需求类别,所述X为自然数。7.一种利用搜索引擎进行查询扩展的系统,其特征在于,包括,搜索引擎查询模块,用于...
【专利技术属性】
技术研发人员:石志伟,雷大伟,车天文,周步恋,杨振东,王更生,王喜民,何宏靖,徐忆苏,
申请(专利权)人:深圳市宜搜科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。