一种搜索引擎查询扩展的方法及系统技术方案

技术编号:13776418 阅读:98 留言:0更新日期:2016-09-30 23:41
本申请公开了搜索引擎查询扩展的方法,包括:根据用户输入的查询项,通过全文索引返回初始查询结果;利用所述初始查询结果生成候选扩展词;通过扩展词监督模型对所述候选扩展词进行相关度计算,获得各个所述候选扩展词对应的相关度值;按照所述相关度值及预定筛选规则,获取查询扩展词,并将所述查询扩展词和所述查询项作为最终查询项;根据所述最终查询项,通过全文索引输出检索结果;该方法能够提高查询扩展词的相关度,进而提高搜索引擎查询的准确性,准确的从海量信息中找到用户关心的内容;本申请还公开了搜索引擎查询扩展的系统。

【技术实现步骤摘要】

本专利技术涉及互联网
,特别涉及一种搜索引擎查询扩展的方法及系统
技术介绍
搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。搜索引擎在检索时会返回大量的查询结果,而用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少,而是看结果是否与自己的需求相关。信息的爆炸式增长以及用户检索词过短使得检索系统很难找到和用户查询相关的信息。因此,如何准确的从海量信息中找到更相关的内容,是本领域技术人员需要解决的技术问题。
技术实现思路
本专利技术的目的是提供一种搜索引擎查询扩展的方法,该方法能够提高查询扩展词的相关度,进而提高搜索引擎查询的准确性;本专利技术的另一目的是提供一种搜索引擎查询扩展的系统。为解决上述技术问题,本专利技术提供一种搜索引擎查询扩展的方法,包括:根据用户输入的查询项,通过全文索引返回初始查询结果;利用所述初始查询结果生成候选扩展词;通过扩展词监督模型对所述候选扩展词进行相关度计算,获得各个所述候选扩展词对应的相关度值;按照所述相关度值及预定筛选规则,获取查询扩展词,并将所述查询扩展词和所述查询项作为最终查询项;根据所述最终查询项,通过全文索引输出检索结果。其中,所述扩展词监督模型的构建方法,包括:选取N个查询项,并利用预定算法,生成每个查询项对应的扩展词训练数据;利用预定提取算法,提取每个查询项对应的所述扩展词训练数据的特征值;将每个查询项对应的所述扩展词训练数据的特征值进行归一化处理后作为输入,利用支持向量机模型进行训练,得到扩展词监督模型。其中,所述利用预定提取算法,提取每个查询项对应的所述扩展词训练数据的特征值,包括:利用一元语言模型概率算法,BM25算法,全局语料权重算法,相似度算法及相关模型算法,对应分别提取每个查询项对应的所述扩展词训练数据的一元语言模型概率值,BM25的权重值,全局语料的权重值,相似度值及出现概率值。其中,所述扩展词监督模型的构建方法,包括:对各类型分组分别选取N个查询项,并利用预定算法,对应生成各类型分组下每个查询项对应的扩展词训练数据;利用预定提取算法,提取各类型分组下每个查询项对应的所述扩展词训练数据的特征值;将各类型分组下每个查询项对应的所述扩展词训练数据的特征值进行归一化处理后作为输入,利用支持向量机模型进行训练,对应获取各类型分组下基础扩展词监督模型;利用bagging算法将各类型分组下对应同一个查询项的基础扩展词监督模型进行归一化,形成扩展词监督模型。其中,所述按照所述相关度值及预定筛选规则,获取查询扩展词,包括:判断所述相关度值是否大于设定筛选阈值;若是,则将大于所述设定筛选阈值对应的候选扩展词作为查询扩展词。本专利技术还提供一种搜索引擎查询扩展的系统,包括:索引模块,用于根据用户输入的查询项,通过全文索引返回初始查询结果;候选扩展词生成模块,用于利用所述初始查询结果生成候选扩展词;相关度值计算模块,用于通过扩展词监督模型对所述候选扩展词进行相关度计算,获得各个所述候选扩展词对应的相关度值;查询项获取模块,用于按照所述相关度值及预定筛选规则,获取查询扩展词,并将所述查询扩展词和所述查询项作为最终查询项;检索模块,用于根据所述最终查询项,通过全文索引输出检索结果。其中,还包括:扩展词监督模型构建模块,其中,所述扩展词监督模型构建模块包括:第一选取单元,用于选取N个查询项,并利用预定算法,生成每个查询项对应的扩展词训练数据;第一特征值计算单元,用于利用预定提取算法,提取每个查询项对应的所述扩展词训练数据的特征值;第一扩展词监督模型构建单元,用于将每个查询项对应的所述扩展词训练数据的特征值进行归一化处理后作为输入,利用支持向量机模型进行训练,得到扩展词监督模型。其中,所述特征值计算单元具体为利用一元语言模型概率算法,BM25算法,全局语料权重算法,相似度算法及相关模型算法,对应分别提取每个查询项对应的所述扩展词训练数据的一元语言模型概率值,BM25的权重值,全局语料的权重值,相似度值及出现概率值的单元。其中,还包括:扩展词监督模型构建模块,其中,所述扩展词监督模型构建模块包括:第二选取单元,用于对各类型分组分别选取N个查询项,并利用预定算法,对应生成各类型分组下每个查询项对应的扩展词训练数据;第二特征值计算单元,用于利用预定提取算法,提取各类型分组下每个查询项对应的所述扩展词训练数据的特征值;第二预定扩展词监督模型构建单元,用于将各类型分组下每个查询项对应的所述扩展词训练数据的特征值进行归一化处理后作为输入,利用支持向量机模型进行训练,对应获取各类型分组下基础扩展词监督模型;第二扩展词监督模型构建单元,用于利用bagging算法将各类型分组下对应同一个查询项的基础扩展词监督模型进行归一化,形成扩展词监督模型。其中,所述查询项获取模块包括:判断单元,用于判断所述相关度值是否大于设定筛选阈值;查询扩展词单元,用于若是则将大于所述设定筛选阈值对应的候选扩展词作为查询扩展词;查询项获取单元,用于将所述查询扩展词和所述查询项作为最终查询项。本专利技术所提供的搜索引擎查询扩展的方法,包括:根据用户输入的查询项,通过全文索引返回初始查询结果;利用所述初始查询结果生成候选扩展词;通过扩展词监督模型对所述候选扩展词进行相关度计算,获得各个所述候选扩展词对应的相关度值;按照所述相关度值及预定筛选规则,获取查询扩展词,并将所述查询扩展词和所述查询项作为最终查询项;根据所述最终查询项,通过全文索引输出检索结果;该方法对候选扩展词进行筛选,得到更加相关的扩展词,因此能够提高查询扩展词的相关度,进而提高搜索引擎查询的准确性,准确的从海量信息中找到用户关心的内容,且该方法不需要对不相关的扩展词进行检索,减少系统检索量,提高系统性能;本专利技术还提供了搜索引擎查询扩展的系统。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例所提供的搜索引擎查询扩展的方法的流程图;图2为本专利技术实施例所提供的搜索引擎查询扩展的方法的流程示意图;图3为本专利技术实施例所提供的搜索引擎查询扩展的系统的结构框图;图4为本专利技术实施例所提供的另一搜索引擎查询扩展的系统的结构框图。具体实施方式本专利技术的核心是提供一种搜索引擎查询扩展的方法,该方法能够提高查询扩展词的相关度,进而提高搜索引擎查询的准确性;本专利技术的另一核心是提供一种搜索引擎查询扩展的系统。为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,图1为本文档来自技高网...

【技术保护点】
一种搜索引擎查询扩展的方法,其特征在于,包括:根据用户输入的查询项,通过全文索引返回初始查询结果;利用所述初始查询结果生成候选扩展词;通过扩展词监督模型对所述候选扩展词进行相关度计算,获得各个所述候选扩展词对应的相关度值;按照所述相关度值及预定筛选规则,获取查询扩展词,并将所述查询扩展词和所述查询项作为最终查询项;根据所述最终查询项,通过全文索引输出检索结果。

【技术特征摘要】
1.一种搜索引擎查询扩展的方法,其特征在于,包括:根据用户输入的查询项,通过全文索引返回初始查询结果;利用所述初始查询结果生成候选扩展词;通过扩展词监督模型对所述候选扩展词进行相关度计算,获得各个所述候选扩展词对应的相关度值;按照所述相关度值及预定筛选规则,获取查询扩展词,并将所述查询扩展词和所述查询项作为最终查询项;根据所述最终查询项,通过全文索引输出检索结果。2.如权利要求1所述的搜索引擎查询扩展的方法,其特征在于,所述扩展词监督模型的构建方法,包括:选取N个查询项,并利用预定算法,生成每个查询项对应的扩展词训练数据;利用预定提取算法,提取每个查询项对应的所述扩展词训练数据的特征值;将每个查询项对应的所述扩展词训练数据的特征值进行归一化处理后作为输入,利用支持向量机模型进行训练,得到扩展词监督模型。3.如权利要求2所述的搜索引擎查询扩展的方法,其特征在于,所述利用预定提取算法,提取每个查询项对应的所述扩展词训练数据的特征值,包括:利用一元语言模型概率算法,BM25算法,全局语料权重算法,相似度算法及相关模型算法,对应分别提取每个查询项对应的所述扩展词训练数据的一元语言模型概率值,BM25的权重值,全局语料的权重值,相似度值及出现概率值。4.如权利要求1所述的搜索引擎查询扩展的方法,其特征在于,所述扩展词监督模型的构建方法,包括:对各类型分组分别选取N个查询项,并利用预定算法,对应生成各类型分组下每个查询项对应的扩展词训练数据;利用预定提取算法,提取各类型分组下每个查询项对应的所述扩展词训练数据的特征值;将各类型分组下每个查询项对应的所述扩展词训练数据的特征值进行归一化处理后作为输入,利用支持向量机模型进行训练,对应获取各类型分组下基础扩展词监督模型;利用bagging算法将各类型分组下对应同一个查询项的基础扩展词监督模型进行归一化,形成扩展词监督模型。5.如权利要求1至4任一项所述的搜索引擎查询扩展的方法,其特征在于,所述按照所述相关度值及预定筛选规则,获取查询扩展词,包括:判断所述相关度值是否大于设定筛选阈值;若是,则将大于所述设定筛选阈值对应的候选扩展词作为查询扩展词。6.一种搜索引擎查询扩展的系统,其特征在于,包括:索引模块,用于根据用户输入的查询项,通过全文索引返回初始查询结果;候选扩展词生成模块,用于利用所述初始查询结果生成候选扩展词;相关度...

【专利技术属性】
技术研发人员:陈海林
申请(专利权)人:上海珍岛信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1