一种搜索排序方法及系统技术方案

技术编号:14456477 阅读:54 留言:0更新日期:2017-01-19 09:40
本申请提供了一种搜索排序方法及系统,该方法包括:获取查询词,利用静态排序索引获取与该查询词匹配的文档,将获取的文档作为海选召回文档;采用机器学习方法拟合预先统计的所述海选召回文档的精排分得到粗排特征权重,利用该粗排特征权重计算所述海选召回文档的粗排分;根据粗排分选择排序靠前的M个文档,将选择的文档作为粗排序文档;计算所述粗排序文档在所述查询词下对应的用户行为发生概率,采用机器学习方法以所述用户行为发生概率为特征计算所述粗排序文档的精排分;根据精排分对所述粗排序文档进行排序。本申请能够提高搜索质量,改善用户的搜索体验。

【技术实现步骤摘要】

本申请的实施方式涉及搜索引擎
,尤其涉及一种搜索排序方法及系统
技术介绍
搜索引擎在互联网技术中发挥着主要作用,其用于根据用户的查询词,从海量信息中搜索返回满足用户需求的文档(Document,简称Doc)。搜索引擎通常会间隔一定时间基于静态排序分降序创建全量索引(静态排序索引),当用户搜索查询词时,搜索引擎会通过海选召回、粗排序、精排序三个环节来搜索Doc。通常而言,搜索引擎针对每个Doc计算一个静态排序分,其主要是根据Doc的文本描述质量和历史表现计算静态排序分,再根据静态排序分按逆序关系创建索引,Doc索引量级约十几亿;海选召回以查询词为关键字key,检索出文本包含该查询词的Doc,海选召回的Doc约十万量级;粗排序用于完成海选召回Doc与用户查询词的相关性计算,并优先返回相关性高的Doc,粗排序返回的Doc约万量级;精排序综合考虑用户反馈、查询词与Doc的相关性、Doc质量、搜索平台自身策略等因素为用户返回Doc。传统搜索引擎中,静态排序索引、海选召回、粗排序、精排序四个环节是相对独立的,每个环节都有各自独立的目标,目标不统一使得其在当前环节返回的Doc对全局而言并不是最优的。纵观整个搜索环节,海选召回和粗排序主要用于从海量索引中筛选出优质万量级的Doc,精排序用于对筛选出的Doc按照用户的反馈度进行排序,统计表明,基于海选召回和粗排序筛选出的Doc与基于精排序从索引中选出的Doc重合度约为50%,即海选召回和粗排序损失了近一半的优质Doc,严重影响用户体验。
技术实现思路
为了解决上述问题,本申请提供了一种搜索排序方法及系统,能够提高优质Doc的召回率,以提升用户体验。一方面,本申请提供了一种搜索排序方法,该方法包括:获取查询词,利用静态排序索引获取与该查询词匹配的文档,将获取的文档作为海选召回文档;所述静态排序索引是利用精排特征权重计算静态排序分,根据该静态排序分建立的索引;采用机器学习方法拟合预先统计的所述海选召回文档的精排分得到粗排特征权重,利用该粗排特征权重计算所述海选召回文档的粗排分;根据粗排分选择排序靠前的M个文档,将选择的文档作为粗排序文档;M为预设个数;计算所述粗排序文档在所述查询词下对应的用户行为发生概率,采用机器学习方法以所述用户行为发生概率为特征计算所述粗排序文档的精排分;根据精排分对所述粗排序文档进行排序。可选的,计算所述粗排序文档在所述查询词下对应的用户行为发生概率,采用机器学习方法以所述用户行为发生概率为特征计算所述粗排序文档的精排分,包括:利用点方式机器学习方法训练得到特征权重,利用该特征权重估算所述粗排序文档在所述查询词下对应的用户行为发生概率,所述用户行为发生概率包括:点击率、收藏率、询盘率以及购买率中的一种或其组合;将所述用户行为发生概率作为特征,利用对方式机器学习方法训练得到精排特征权重,利用该精排特征权重和所述粗排序文档的特征向量计算得到所述粗排序文档的精排分。可选的,利用点方式机器学习方法训练得到特征权重,利用该特征权重估算所述粗排序文档在所述查询词下对应的用户行为发生概率,包括:利用线性回归模型采用最大似然算法求解得到特征权重;利用该特征权重和从所述粗排序文档提取的特征向量计算得到对应的用户行为发生概率。可选的,将所述用户行为发生概率作为特征,利用对方式机器学习方法训练得到精排特征权重,利用该精排特征权重和所述粗排序文档的特征向量计算得到所述粗排序文档的精排分,包括:利用支持向量机模型,将用户行为发生概率作为特征训练得到精排特征权重;利用该精排特征权重和从所述粗排序文档提取的特征向量计算得到所述粗排序文档的精排分。可选的,采用机器学习方法拟合预先统计的所述海选召回文档的精排分得到粗排特征权重,利用该粗排特征权重计算所述海选召回文档的粗排分,包括:利用点方式机器学习方法,将预先统计的所述海选召回文档的精排分作为训练目标训练得粗排特征权重;利用该粗排特征权重和粗排特征向量计算所述海选召回文档的粗排分。可选的,所述获取查询词,利用静态排序索引获取与该查询词匹配的文档,将获取的文档作为海选召回文档,包括:获取查询词,计算该查询词对各个行业的隶属度,根据该隶属度和预设的海选召回文档总量计算各个行业的文档召回量;按照各个行业的文档召回量,利用静态排序索引获取与查询词匹配的各个行业的文档,将获取的文档作为海选召回文档。可选的,所述静态排序索引通过以下方式建立:利用文档的文本特征权重向量和文本质量特征计算文本质量分,利用文档的用户行为发生概率计算平均值,利用该平均值和预先统计的精排特征权重计算综合反馈分,根据所述文本质量分和综合反馈分计算文档的静态排序分,按照静态排序分由大到小的顺序建立静态排序索引。又一方面,本申请提供了一种搜索排序系统,该系统包括:海选召回单元,用于获取查询词,利用静态排序索引获取与该查询词匹配的文档,将获取的文档作为海选召回文档;所述静态排序索引是利用精排特征权重计算静态排序分,根据该静态排序分建立的索引;粗排分计算单元,用于采用机器学习方法拟合预先统计的所述海选召回文档的精排分得到粗排特征权重,利用该粗排特征权重计算所述海选召回文档的粗排分;粗排选择单元,用于根据粗排分选择排序靠前的M个文档,将选择的文档作为粗排序文档;M为预设个数;精排分计算单元,用于计算所述粗排序文档在所述查询词下对应的用户行为发生概率,采用机器学习方法以所述用户行为发生概率为特征计算所述粗排序文档的精排分;精排序单元,用于根据精排分对所述粗排序文档进行排序。可选的,精排分计算单元,包括:第一模型训练单元,用于利用点方式机器学习方法训练得到特征权重,利用该特征权重估算所述粗排序文档在所述查询词下对应的用户行为发生概率,所述用户行为发生概率包括:点击率、收藏率、询盘率以及购买率中的一种或其组合;第二模型训练单元,用于将所述用户行为发生概率作为特征,利用对方式机器学习方法训练得到精排特征权重,利用该精排特征权重和所述粗排序文档的特征向量计算得到所述粗排序文档的精排分。可选的,第一模型训练单元,包括:权重求解子单元,用于利用线性回归模型采用最大似然算法求解得到特征权重;概率计算子单元,用于利用该特征权重和从所述粗排序文档提取的特征向量计算得到对应的用户行为发生概率。可选的,第二模型训练单元,包括:训练子单元,用于利用支持向量机模型,将用户行为发生概率作为特征训练得到精排特征权重;精排分计算子单元,用于利用该精排特征权重和从所述粗排序文档提取的特征向量计算得到所述粗排序文档的精排分。可选的,粗排分计算单元,包括:粗排特征权重训练子单元,用于利用点方式机器学习方法,将预先统计的所述海选召回文档的精排分作为训练目标训练得粗排特征权重;粗排分计算子单元,用于利用该粗排特征权重和粗排特征向量计算所述海选召回文档的粗排分。可选的,所述海选召回单元,包括:行业召回量计算子单元,用于获取查询词,计算该查询词对各个行业的隶属度,根据该隶属度和预设的海选召回文档总量计算各个行业的文档召回量;海选召回子单元,用于按照各个行业的文档召回量,利用静态排序索引获取与查询词匹配的各个行业的文档,将获取的文档作为海选召回文档。可选的,所述系统还包括:静态排本文档来自技高网...

【技术保护点】
一种搜索排序方法,其特征在于,该方法包括:获取查询词,利用静态排序索引获取与该查询词匹配的文档,将获取的文档作为海选召回文档;所述静态排序索引是利用精排特征权重计算静态排序分,根据该静态排序分建立的索引;采用机器学习方法拟合预先统计的所述海选召回文档的精排分得到粗排特征权重,利用该粗排特征权重计算所述海选召回文档的粗排分;根据粗排分选择排序靠前的M个文档,将选择的文档作为粗排序文档;M为预设个数;计算所述粗排序文档在所述查询词下对应的用户行为发生概率,采用机器学习方法以所述用户行为发生概率为特征计算所述粗排序文档的精排分;根据精排分对所述粗排序文档进行排序。

【技术特征摘要】
1.一种搜索排序方法,其特征在于,该方法包括:获取查询词,利用静态排序索引获取与该查询词匹配的文档,将获取的文档作为海选召回文档;所述静态排序索引是利用精排特征权重计算静态排序分,根据该静态排序分建立的索引;采用机器学习方法拟合预先统计的所述海选召回文档的精排分得到粗排特征权重,利用该粗排特征权重计算所述海选召回文档的粗排分;根据粗排分选择排序靠前的M个文档,将选择的文档作为粗排序文档;M为预设个数;计算所述粗排序文档在所述查询词下对应的用户行为发生概率,采用机器学习方法以所述用户行为发生概率为特征计算所述粗排序文档的精排分;根据精排分对所述粗排序文档进行排序。2.根据权利要求1所述的方法,其特征在于,计算所述粗排序文档在所述查询词下对应的用户行为发生概率,采用机器学习方法以所述用户行为发生概率为特征计算所述粗排序文档的精排分,包括:利用点方式机器学习方法训练得到特征权重,利用该特征权重估算所述粗排序文档在所述查询词下对应的用户行为发生概率,所述用户行为发生概率包括:点击率、收藏率、询盘率以及购买率中的一种或其组合;将所述用户行为发生概率作为特征,利用对方式机器学习方法训练得到精排特征权重,利用该精排特征权重和所述粗排序文档的特征向量计算得到所述粗排序文档的精排分。3.根据权利要求2所述的方法,其特征在于,利用点方式机器学习方法训练得到特征权重,利用该特征权重估算所述粗排序文档在所述查询词下对应的用户行为发生概率,包括:利用线性回归模型采用最大似然算法求解得到特征权重;利用该特征权重和从所述粗排序文档提取的特征向量计算得到对应的用户行为发生概率。4.根据权利要求2所述的方法,其特征在于,将所述用户行为发生
\t概率作为特征,利用对方式机器学习方法训练得到精排特征权重,利用该精排特征权重和所述粗排序文档的特征向量计算得到所述粗排序文档的精排分,包括:利用支持向量机模型,将用户行为发生概率作为特征训练得到精排特征权重;利用该精排特征权重和从所述粗排序文档提取的特征向量计算得到所述粗排序文档的精排分。5.根据权利要求1所述的方法,其特征在于,采用机器学习方法拟合预先统计的所述海选召回文档的精排分得到粗排特征权重,利用该粗排特征权重计算所述海选召回文档的粗排分,包括:利用点方式机器学习方法,将预先统计的所述海选召回文档的精排分作为训练目标训练得粗排特征权重;利用该粗排特征权重和粗排特征向量计算所述海选召回文档的粗排分。6.根据权利要求1所述的方法,其特征在于,所述获取查询词,利用静态排序索引获取与该查询词匹配的文档,将获取的文档作为海选召回文档,包括:获取查询词,计算该查询词对各个行业的隶属度,根据该隶属度和预设的海选召回文档总量计算各个行业的文档召回量;按照各个行业的文档召回量,利用静态排序索引获取与查询词匹配的各个行业的文档,将获取的文档作为海选召回文档。7.根据权利要求1所述的方法,其特征在于,所述静态排序索引通过以下方式建立:利用文档的文本特征权重向量和文本质量特征计算文本质量分,利用文档的用户行为发生概率计算平均值,利用该平均值和预先统计的精排特征权重计算综合反馈分,根据所述文本...

【专利技术属性】
技术研发人员:霍承富汤佳宇卢小康李素凌凌淑蓓李悦群林锋
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1