一种搜索排序方法及系统技术方案

技术编号：14456477 阅读：54 留言：0更新日期：2017-01-19 09:40

本申请提供了一种搜索排序方法及系统，该方法包括：获取查询词，利用静态排序索引获取与该查询词匹配的文档，将获取的文档作为海选召回文档；采用机器学习方法拟合预先统计的所述海选召回文档的精排分得到粗排特征权重，利用该粗排特征权重计算所述海选召回文档的粗排分；根据粗排分选择排序靠前的M个文档，将选择的文档作为粗排序文档；计算所述粗排序文档在所述查询词下对应的用户行为发生概率，采用机器学习方法以所述用户行为发生概率为特征计算所述粗排序文档的精排分；根据精排分对所述粗排序文档进行排序。本申请能够提高搜索质量，改善用户的搜索体验。

全部详细技术资料下载

【技术实现步骤摘要】

本申请的实施方式涉及搜索引擎
，尤其涉及一种搜索排序方法及系统。
技术介绍
搜索引擎在互联网技术中发挥着主要作用，其用于根据用户的查询词，从海量信息中搜索返回满足用户需求的文档(Document，简称Doc)。搜索引擎通常会间隔一定时间基于静态排序分降序创建全量索引(静态排序索引)，当用户搜索查询词时，搜索引擎会通过海选召回、粗排序、精排序三个环节来搜索Doc。通常而言，搜索引擎针对每个Doc计算一个静态排序分，其主要是根据Doc的文本描述质量和历史表现计算静态排序分，再根据静态排序分按逆序关系创建索引，Doc索引量级约十几亿；海选召回以查询词为关键字key，检索出文本包含该查询词的Doc，海选召回的Doc约十万量级；粗排序用于完成海选召回Doc与用户查询词的相关性计算，并优先返回相关性高的Doc，粗排序返回的Doc约万量级；精排序综合考虑用户反馈、查询词与Doc的相关性、Doc质量、搜索平台自身策略等因素为用户返回Doc。传统搜索引擎中，静态排序索引、海选召回、粗排序、精排序四个环节是相对独立的，每个环节都有各自独立的目标，目标不统一使得其在当前环节返回的Doc对全局而言并不是最优的。纵观整个搜索环节，海选召回和粗排序主要用于从海量索引中筛选出优质万量级的Doc，精排序用于对筛选出的Doc按照用户的反馈度进行排序，统计表明，基于海选召回和粗排序筛选出的Doc与基于精排序从索引中选出的Doc重合度约为50％，即海选召回和粗排序损失了近一半的优质Doc，严重影响用户体验。
技术实现思路
为了解决上述问题，本申请提供了一种搜索排序方法及系统，能够提高优质D...

【技术保护点】
一种搜索排序方法，其特征在于，该方法包括：获取查询词，利用静态排序索引获取与该查询词匹配的文档，将获取的文档作为海选召回文档；所述静态排序索引是利用精排特征权重计算静态排序分，根据该静态排序分建立的索引；采用机器学习方法拟合预先统计的所述海选召回文档的精排分得到粗排特征权重，利用该粗排特征权重计算所述海选召回文档的粗排分；根据粗排分选择排序靠前的Ｍ个文档，将选择的文档作为粗排序文档；Ｍ为预设个数；计算所述粗排序文档在所述查询词下对应的用户行为发生概率，采用机器学习方法以所述用户行为发生概率为特征计算所述粗排序文档的精排分；根据精排分对所述粗排序文档进行排序。

【技术特征摘要】
1.一种搜索排序方法，其特征在于，该方法包括：获取查询词，利用静态排序索引获取与该查询词匹配的文档，将获取的文档作为海选召回文档；所述静态排序索引是利用精排特征权重计算静态排序分，根据该静态排序分建立的索引；采用机器学习方法拟合预先统计的所述海选召回文档的精排分得到粗排特征权重，利用该粗排特征权重计算所述海选召回文档的粗排分；根据粗排分选择排序靠前的Ｍ个文档，将选择的文档作为粗排序文档；Ｍ为预设个数；计算所述粗排序文档在所述查询词下对应的用户行为发生概率，采用机器学习方法以所述用户行为发生概率为特征计算所述粗排序文档的精排分；根据精排分对所述粗排序文档进行排序。2.根据权利要求1所述的方法，其特征在于，计算所述粗排序文档在所述查询词下对应的用户行为发生概率，采用机器学习方法以所述用户行为发生概率为特征计算所述粗排序文档的精排分，包括：利用点方式机器学习方法训练得到特征权重，利用该特征权重估算所述粗排序文档在所述查询词下对应的用户行为发生概率，所述用户行为发生概率包括：点击率、收藏率、询盘率以及购买率中的一种或其组合；将所述用户行为发生概率作为特征，利用对方式机器学习方法训练得到精排特征权重，利用该精排特征权重和所述粗排序文档的特征向量计算得到所述粗排序文档的精排分。3.根据权利要求2所述的方法，其特征在于，利用点方式机器学习方法训练得到特征权重，利用该特征权重估算所述粗排序文档在所述查询词下对应的用户行为发生概率，包括：利用线性回归模型采用最大似然算法求解得到特征权重；利用该特征权重和从所述粗排序文档提取的特征向量计算得到对应的用户行为发生概率。4.根据权利要求2所述的方法，其特征在于，将所述用户行为发生
\t概率作为特征，利用对方式机器学习方法训练得到精排特征权重，利用该精排特征权重和所述粗排序文档的特征向量计算得到所述粗排序文档的精排分，包括：利用支持向量机模型，将用户行为发生概率作为特征训练得到精排特征权重；利用该精排特征权重和从所述粗排序文档提取的特征向量计算得到所述粗排序文档的精排分。5.根据权利要求1所述的方法，其特征在于，采用机器学习方法拟合预先统计的所述海选召回文档的精排分得到粗排特征权重，利用该粗排特征权重计算所述海选召回文档的粗排分，包括：利用点方式机器学习方法，将预先统计的所述海选召回文档的精排分作为训练目标训练得粗排特征权重；利用该粗排特征权重和粗排特征向量计算所述海选召回文档的粗排分。6.根据权利要求1所述的方法，其特征在于，所述获取查询词，利用静态排序索引获取与该查询词匹配的文档，将获取的文档作为海选召回文档，包括：获取查询词，计算该查询词对各个行业的隶属度，根据该隶属度和预设的海选召回文档总量计算各个行业的文档召回量；按照各个行业的文档召回量，利用静态排序索引获取与查询词匹配的各个行业的文档，将获取的文档作为海选召回文档。7.根据权利要求1所述的方法，其特征在于，所述静态排序索引通过以下方式建立：利用文档的文本特征权重向量和文本质量特征计算文本质量分，利用文档的用户行为发生概率计算平均值，利用该平均值和预先统计的精排特征权重计算综合反馈分，根据所述文本...

【专利技术属性】
技术研发人员：霍承富，汤佳宇，卢小康，李素凌，凌淑蓓，李悦群，林锋，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人