The invention discloses a fast iterative search engine ranking method, including the steps of offline and online step, the off-line training includes a plurality of candidate on-line scheduling model, scheduling model for storage and distribution for each scale, timing will sort model and in proportion of the search server cache database for online reading steps; the line includes receiving user request according to the user information distribution scheduling model, to retrieve relevant documents from the index, read the search ranking model in the database server cache and sort then returned to the user, the user's search behavior statistics. The design of the invention can describe a sort model by string in the given sorting model description method. Then the model through the graphical interface and timing tasks sequentially stored in the relational database and key value database, which can guarantee the persistent data storage, and can make the online service fast access to data.
【技术实现步骤摘要】
快速迭代的搜索引擎排序方法及系统
本专利技术涉及搜索排序
,特别是涉及一种快速迭代的搜索引擎排序方法及系统。
技术介绍
随着大数据技术的快速发展,搜索引擎系统中对特征的使用越来越深入,文本相关性、网页PageRank值和URL链接长度都是很好的排序特征。选取的特征越多,越有可能客观的反应用户的行为偏好。Google的搜索引擎排序系统更是使用了多达200余种特征,并且这些特征并不是简单的线性相加,而是通过复杂的神经网络来表征,这样不仅能充分利用文档的每个特征,还能利用特征与特征之间的关系。然而此时指望人工拟合出各特征的权重甚至复杂的神经网络模型已经变得不现实,排序学习技术变应运而生。排序学习基于传统的机器学习技术,把文档是否相关和文档在各维度上的取值或神经网络的参数作为训练样本,与文档实际的相关性比较设定损失函数,再基于最优化技术如梯度下降等使损失函数最小。这样就能够在大量的数据中,根据每篇文档和查询的相关性以及每篇文档各个特征上的得分,计算出优化的搜索引擎排序公式。算法的训练分为在线训练和离线训练两种。在线训练的全部过程由计算机程序完成,训练开始时读取用户点击记录生成训练集,然后用预先写好的训练算法训练出排序模型,更新线上排序算法,最后根据计算好的评价指标人工评价算法性能。这种训练方法的实现自动化程度更高、不易出故障,人工干预较少。但是训练过程中较为重要的交叉验证过程不得不省略,因为计算机很难根据交叉验证结果给出合适的解决方案。离线学习由人工控制学习的时间、参数等,可以在模型上线以前判断模型是否合适,并能根据交叉验证结果动态调整训练参数,保证上线算法 ...
【技术保护点】
一种快速迭代的搜索引擎排序方法,其特征在于,包括离线步骤和在线步骤,所述的离线步骤包括,训练出多个候选上线排序模型,对各排序模型存储和比例分配,定时将排序模型及比例存入搜索服务器缓存数据库以备在线步骤读取;所述的在线步骤包括,接收用户请求并根据用户信息分配排序模型,从索引中检索出相关文件,读取搜索服务器缓存数据库中的排序模型并计算排序然后返回给用户,统计本次用户的搜索行为。
【技术特征摘要】
1.一种快速迭代的搜索引擎排序方法,其特征在于,包括离线步骤和在线步骤,所述的离线步骤包括,训练出多个候选上线排序模型,对各排序模型存储和比例分配,定时将排序模型及比例存入搜索服务器缓存数据库以备在线步骤读取;所述的在线步骤包括,接收用户请求并根据用户信息分配排序模型,从索引中检索出相关文件,读取搜索服务器缓存数据库中的排序模型并计算排序然后返回给用户,统计本次用户的搜索行为。2.如权利要求1所述的搜索引擎排序方法,其特征在于,定时将排序模型及比例存入搜索服务器的key-value数据库。3.如权利要求1所述的搜索引擎排序方法,其特征在于,所述的训练出多个候选上线排序模型包括以下子步骤,收集用户点击记录,根据用户点击记录还原用户搜索场景生成训练数据,采用预定的不同算法和训练参数训练出多个候选上线排序模型。4.如权利要求1所述的搜索引擎排序方法,其特征在于,所述的在线步骤根据用户的cookie为用户分配排序模型以保证同一个用户分配固定的排序模型。5.如权利要求1所述的搜索引擎排序方法,其特征在于,所述的搜索行为包括用户查询词、用户点击的文件和该文件在输出文件列表中的位置。6.一种快速迭代的搜索引擎排序系统,其特征在于,包括,包括离线...
【专利技术属性】
技术研发人员:张洪岩,黄永军,王金明,
申请(专利权)人:飞狐信息技术天津有限公司,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。