搜索中的相关性处理方法和系统技术方案

技术编号:11450744 阅读:90 留言:0更新日期:2015-05-13 23:23
本发明专利技术提供一种搜索中的相关性处理方法系统,所述方法包括:获取查询串,并根据所述查询串进行搜索得到若干条搜索结果;按照预先定义的多个特征对所述得到的若干条搜索结果逐一进行特征抽取,以得到所述搜索结果中每一特征所对应的特征标记值;在每一搜索结果中根据特征所对应的特征标记值进行回归问题处理得到所述搜索结果相对于所述查询串的相关度得分;根据所述相关度得分确定与所述查询串最相关的搜索结果,并显示所述搜索结果。采用本发明专利技术能提高搜索结果的相关性处理的准确性。

【技术实现步骤摘要】
搜索中的相关性处理方法和系统
本专利技术涉及计算机应用技术,特别是涉及一种搜索中的相关性处理方法和系统。
技术介绍
随着搜索技术的发展,用户越来越多地使用各种搜索引擎完成各种查询串的搜索,以得到相应的搜索结果。在搜索引擎中,根据查询串所得到并显示于搜索页面的搜索结果通常是海量的,因此,需要对搜索结果进行相关性处理,为用户提供与查询串较为相关的搜索结果。然而,传统的对搜索进行的相关性处理大都是基于搜索结果中单一的属性实现的,例如,搜索结果相对于查询串的文本覆盖率等。这将使得真实的应用中存在着搜索结果的相关性处理不准确的局限性。
技术实现思路
基于此,有必要针提供一种能提高搜索结果的相关性处理的准确性的搜索中的相关性处理方法。此外,还有必要提供一种能提高搜索结果的相关性处理的准确性的搜索中的相关性处理系统。一种搜索中的相关性处理方法,包括如下步骤:获取查询串,并根据所述查询串进行搜索得到若干条搜索结果;按照预先定义的多个特征对所述得到的若干条搜索结果逐一进行特征抽取,以得到所述搜索结果中每一特征所对应的特征标记值;在每一搜索结果中根据特征所对应的特征标记值进行回归问题处理得到所述搜索结果相对于所述查询串的相关度得分;根据所述相关度得分确定与所述查询串最相关的搜索结果,并显示所述搜索结果。一种搜索中的相关性处理系统,包括:查询串搜索模块,用于获取查询串,并根据所述查询串进行搜索得到若干条搜索结果;特征抽取模块,用于按照预先定义的多个特征对所述得到的若干条搜索结果逐一进行特征抽取,以得到所述搜索结果中每一特征所对应的特征标记值;处理模块,用于在每一搜索结果中根据特征所对应的特征标记值进行回归问题处理得到所述搜索结果相对于所述查询串的相关度得分;相关性确定模块,用于根据所述相关度得分确定与所述查询串最相关的搜索结果,并显示所述搜索结果。上述搜索中的相关性处理方法和系统,将获取查询串进行相应的搜索以得到若干条搜索结果,对所得到的若干条搜索结果将按照预先定义的多个特征逐一进行特征抽取,以得到每一搜索结果中每一特征所对应的特征标记值,在每一搜索结果中根据特征所对应的特征标记值进行回归问题处理得到搜索结果相对于查询串的相关度得分,根据相关度得分确定与查询串最相关的搜索结果,并对与查询串最相关的搜索结果进行显示,由于与查询串最相关的搜索结果是依赖于预先定义的多个特征,并作为回归问题处理得到的,因此,将大为提高了搜索结果的相关性处理的准确性。附图说明图1为一个实施例中搜索中的相关性处理方法的流程图;图2为图1中在每一搜索结果中根据特征所对应的特征标记值进行回归问题处理得到搜索结果相对于查询串的相关度得分的方法流程图;图3为一个实施例中预先根据给定的精确搜索查询串集合以及对应的最相关结果数据中的多个特征构建回归模型的方法流程图;图4为一个实施例中获取搜索结果的相关性标记值和搜索结果对应的特征向量,根据相关性标记值和特征向量优化回归模型的方法流程图;图5为一个实施例中搜索中的相关性处理系统的结构示意图;图6为图5中处理模块的结构示意图;图7为另一个实施例中搜索中的相关性处理系统的结构示意图;图8为图7中模型构建模块的结构示意图;图9为一个实施例中优化模块的结构示意图;图10为本专利技术实施例提供的一种服务器结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,在一个实施例中,一种搜索中的相关性处理方法,包括如下步骤:步骤110,获取查询串,并根据查询串进行搜索得到若干条搜索结果。本实施例中,获取用户由搜索页面输入的查询串,以根据查询串通过搜索引擎进行搜索得到若干条与该查询串相关的搜索结果。例如,用户所进行的搜索可以是地图搜索,因此,根据查询串对地图进行搜索所得到的搜索结果将是兴趣点(PointofInterest,简称POI)数据,每一兴趣点数据将包含了名称、类别、经度、纬度和重要度(POIRank)等多种信息。步骤130,按照预先定义的多个特征对得到的若干条搜索结果逐一进行特征抽取,以得到搜索结果中每一特征所对应的特征标记值。本实施例中,预先定义了多个特征,以通过预先定义的多个特征表达每一搜索结果中包含的多种属性。对每一条搜索结果都将按照预先定义的多个特征进行特征抽取,以将搜索结果按照预先定义的多个特征表达成特征标记值,即每一搜索结果中对应了多个特征,每一特征均有与之相对应的特征标记值。其中,不同的搜索过程其所预先定义的多个特征也将各不相同,特征所对应的特征标记值将用于衡量搜索结果与查询串之间的相关程度。例如,地图搜索中所预先定义的多个特征可包括当前结果的位置、当前结果的文本总得分、当前结果的重要度、当前结果的可信度、当前结果的权威度、当前结果的标题文本得分、当前结果的聚合别名文本得分、当前结果的标题覆盖率、当前结果的聚合别名覆盖率、与首条结果的文本总得分的差值、与首条结果的标题文本得分的差值、与首条结果的重要度的差值、与上一条结果的文本总得分的差值、与上一条结果的标题文本得分的差值、与上一条结果的重要度的差值、与下一条结果的文本总得分的差值、与下一条结果的标题文本得分的差值、与下一条结果的重要度的差值、当前结果的文本总得分与TopN结果平均文本总得分的差值、当前结果的标题文本得分与TopN结果平均标题文本得分的差值以及当前结果的重要度与TopN结果平均重要度的差值,其中,TopN结果平均标题文本得分指的是文本总得分最高的N个搜索结果中对应的文本总得分平均值,TopN结果平均标题文本得分指的是标题文本得分最高的N个搜索结果中对应的标题文本得分平均值,TopN结果平均重要度指的是重要度最高的N个搜索结果对应的重要度平均值,N可根据需要灵活进行取值。具体的,地图搜索中预先定义的多个特征及每一特征所对应的特征表达(即特征标记值的获取)如下表所示:其中,如上所述的结果即为进行地图搜索得到的兴趣点数据。地图中的一种兴趣点数据可能会在多个数据源中出现,并在不同数据源中的名称、地址、电话等可能会有微小差别,因此,将来自于不同数据源的兴趣点数据做聚合处理,以将不同数据来源的兴趣点数据聚合成一条兴趣点数据,选取一数据源所对应的标题作为该条兴趣点数据的标题,其它数据来源的标题则作为该条兴趣点数据的聚合别名。此外,查询串经过切词处理后将形成多个字段,以文本字段的形式存在的搜索结果也将被切成多个字段,搜索结果中的多个字段在查询串的多个字段中出现的比例即为文本覆盖率,相应的定义了标题文本覆盖率、聚合别名文本覆盖率等。步骤150,在每一搜索结果中根据特征所对应的特征标记值进行回归问题处理得到搜索结果相对于查询串的相关度得分。本实施例中,采用逻辑回归(LogisiticRegression)的方法对每一搜索结果中多个特征所对应的多个特征标记值进行运算,以得到该搜索结果相对于查询串的相关度得分。其中,所得到的相关度得分越高,则说明所对应的搜索结果与查询串越为相关。步骤170,根据相关度得分确定与查询串最相关的搜索结果,并显示搜索结果。本实施例中,搜索得到的若干条搜索结果均得到了其所对应的相关度得分之后,即本文档来自技高网...
搜索中的相关性处理方法和系统

【技术保护点】
一种搜索中的相关性处理方法,包括如下步骤:获取查询串,并根据所述查询串进行搜索得到若干条搜索结果;按照预先定义的多个特征对所述得到的若干条搜索结果逐一进行特征抽取,以得到所述搜索结果中每一特征所对应的特征标记值;在每一搜索结果中根据特征所对应的特征标记值进行回归问题处理得到所述搜索结果相对于所述查询串的相关度得分;根据所述相关度得分确定与所述查询串最相关的搜索结果,并显示所述搜索结果。

【技术特征摘要】
1.一种搜索中的相关性处理方法,包括如下步骤:获取查询串,并根据所述查询串进行搜索得到若干条搜索结果;按照预先定义的多个特征对所述得到的若干条搜索结果逐一进行特征抽取,以得到所述搜索结果中每一特征所对应的特征标记值;在每一搜索结果中,由多个特征所对应的每一特征标记值形成特征向量;以所述特征向量为输入,根据预先构建的回归模型得到所述搜索结果相对于所述查询串的相关度得分;根据所述相关度得分确定与所述查询串最相关的搜索结果,并显示所述搜索结果。2.根据权利要求1所述的方法,其特征在于,所述以所述特征向量为输入,通过预先构建的回归模型得到所述搜索结果相对于所述查询串的相关度得分的步骤之前,所述方法还包括:预先根据给定的精确搜索查询串集合以及对应的最相关结果数据中的多个特征构建回归模型。3.根据权利要求2所述的方法,其特征在于,所述预先根据给定的精确搜索查询串集合以及对应的最相关结果数据中的多个特征构建回归模型的步骤包括:获取给定的精确搜索查询串集合以及所述精确搜索查询串集合中查询串对应的最相关结果数据;对所述最相关结果数据进行特征抽取,以得到所述最相关结果数据对应的特征向量;根据所述最相关结果数据对应的特征向量进行回归学习以构建回归模型。4.根据权利要求2所述的方法,其特征在于,所述预先根据给定的精确搜索查询串集合以及对应的最相关结果数据中的多个特征构建回归模型的步骤之后,所述方法还包括:获取搜索结果的相关性标记值和所述搜索结果对应的特征向量,根据所述相关性标记值和特征向量优化所述回归模型。5.根据权利要求4所述的方法,其特征在于,所述获取搜索结果的相关性标记值和所述搜索结果对应的特征向量,根据所述相关性标记值和特征向量优化所述回归模型的步骤包括:获取搜索结果的特征标记值和所述搜索结果对应的特征向量;由所述搜索结果对应的特征向量和回归模型得到所述...

【专利技术属性】
技术研发人员:贺海军李雅凡
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1