快速迭代的搜索引擎排序方法及系统技术方案

技术编号:15542683 阅读:72 留言:0更新日期:2017-06-05 11:31
本发明专利技术公开了一种快速迭代的搜索引擎排序方法,包括离线步骤和在线步骤,所述的离线步骤包括,训练出多个候选上线排序模型,对各排序模型存储和比例分配,定时将排序模型及比例存入搜索服务器缓存数据库以备在线步骤读取;所述的在线步骤包括,接收用户请求并根据用户信息分配排序模型,从索引中检索出相关文件,读取搜索服务器缓存数据库中的排序模型并计算排序然后返回给用户,统计本次用户的搜索行为。本发明专利技术设计通过既定的排序模型描述方式,能够用字符串来描述一个排序模型。然后将该模型通过图形界面和定时任务依次存入关系型数据库和key‑value数据库,这样既能保证数据存储的持久性、又能让线上服务快速获取数据。

Fast iterative search engine ranking method and system

The invention discloses a fast iterative search engine ranking method, including the steps of offline and online step, the off-line training includes a plurality of candidate on-line scheduling model, scheduling model for storage and distribution for each scale, timing will sort model and in proportion of the search server cache database for online reading steps; the line includes receiving user request according to the user information distribution scheduling model, to retrieve relevant documents from the index, read the search ranking model in the database server cache and sort then returned to the user, the user's search behavior statistics. The design of the invention can describe a sort model by string in the given sorting model description method. Then the model through the graphical interface and timing tasks sequentially stored in the relational database and key value database, which can guarantee the persistent data storage, and can make the online service fast access to data.

【技术实现步骤摘要】
快速迭代的搜索引擎排序方法及系统
本专利技术涉及搜索排序
,特别是涉及一种快速迭代的搜索引擎排序方法及系统。
技术介绍
随着大数据技术的快速发展,搜索引擎系统中对特征的使用越来越深入,文本相关性、网页PageRank值和URL链接长度都是很好的排序特征。选取的特征越多,越有可能客观的反应用户的行为偏好。Google的搜索引擎排序系统更是使用了多达200余种特征,并且这些特征并不是简单的线性相加,而是通过复杂的神经网络来表征,这样不仅能充分利用文档的每个特征,还能利用特征与特征之间的关系。然而此时指望人工拟合出各特征的权重甚至复杂的神经网络模型已经变得不现实,排序学习技术变应运而生。排序学习基于传统的机器学习技术,把文档是否相关和文档在各维度上的取值或神经网络的参数作为训练样本,与文档实际的相关性比较设定损失函数,再基于最优化技术如梯度下降等使损失函数最小。这样就能够在大量的数据中,根据每篇文档和查询的相关性以及每篇文档各个特征上的得分,计算出优化的搜索引擎排序公式。算法的训练分为在线训练和离线训练两种。在线训练的全部过程由计算机程序完成,训练开始时读取用户点击记录生成训练集,然后用预先写好的训练算法训练出排序模型,更新线上排序算法,最后根据计算好的评价指标人工评价算法性能。这种训练方法的实现自动化程度更高、不易出故障,人工干预较少。但是训练过程中较为重要的交叉验证过程不得不省略,因为计算机很难根据交叉验证结果给出合适的解决方案。离线学习由人工控制学习的时间、参数等,可以在模型上线以前判断模型是否合适,并能根据交叉验证结果动态调整训练参数,保证上线算法的质量。但是离线学习算法每次算法模型的更新都需要中断服务,流程较为繁琐,使项目的迭代周期大幅延长。
技术实现思路
本专利技术的目的是针对现有技术中存在的技术缺陷,而提供一种快速迭代的搜索引擎排序方法及系统。为实现本专利技术的目的所采用的技术方案是:一种快速迭代的搜索引擎排序方法,包括离线步骤和在线步骤,所述的离线步骤包括,训练出多个候选上线排序模型,对各排序模型存储和比例分配,定时将排序模型及比例存入搜索服务器缓存数据库以备在线步骤读取;所述的在线步骤包括,接收用户请求并根据用户信息分配排序模型,从索引中检索出相关文件,读取搜索服务器缓存数据库中的排序模型并计算排序然后返回给用户,统计本次用户的搜索行为。定时将排序模型及比例存入搜索服务器的key-value数据库。所述的训练出多个候选上线排序模型包括以下子步骤,收集用户点击记录,根据用户点击记录还原用户搜索场景生成训练数据,采用预定的不同算法和训练参数训练出多个候选上线排序模型。所述的在线步骤根据用户的cookie为用户分配排序模型以保证同一个用户分配固定的排序模型。所述的搜索行为包括用户查询词、用户点击的文件和该文件在输出文件列表中的位置。一种快速迭代的搜索引擎排序系统,包括,包括离线模块和在线模块,所述的离线模块包括,训练子模块,用以训练出多个候选上线排序模型,模型管理子模块,用以对各排序模型存储和比例分配,并定时将排序模型及比例存入搜索服务器缓存数据库以备在线模块读取;所述的在线步骤包括,A/B测试子模块,用以接收用户请求并根据用户信息分配排序模型,信息检索子模块,用以从索引中检索出相关文件,根据排序模型计算排序然后返回给用户,统计子模块,用以统计本次用户的搜索行为。定时将排序模型及比例存入搜索服务器的key-value数据库。所述的训练子模块,收集模块,用以收集用户点击记录,信息处理模块;用以根据用户点击记录还原用户搜索场景并生成训练数据,生成模块,用以采用预定的不同算法和训练参数训练出多个候选上线排序模型。所述的在线步骤根据用户的cookie为用户分配排序模型以保证同一个用户分配固定的排序模型。所述的搜索行为包括用户查询词、用户点击的文件和该文件在输出文件列表中的位置。与现有技术相比,本专利技术的有益效果是:本专利技术设计通过既定的排序模型描述方式,能够用字符串来描述一个排序模型。然后将该模型通过图形界面和定时任务依次存入关系型数据库和key-value数据库,这样既能保证数据存储的持久性、又能让线上服务快速获取数据。线上搜索服务定时读取key-value数据库,根据读取的字符串还原排序模型并更新既有排序模型,同时废弃掉过期的模型,这样就能不更新代码和中断服务控制线上的排序。当用户发起访问请求时,根据前面还原的排序模型和各模型的比例,就能为用户提供正确的排序结果。附图说明图1所示为本专利技术的快速迭代的搜索引擎排序系统的结构示意图;图2所示为流程控制图。具体实施方式以下结合附图和具体实施例对本专利技术作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图所示,本专利技术快速迭代的搜索引擎排序方法包括离线步骤和在线步骤,所述的离线步骤包括,步骤101,训练出多个候选上线排序模型,该步骤中,包括以下子步骤,收集用户点击记录;搜集的用户点击记录包括用户原搜索关键词、用户点击的文档,为相同的搜索关键词分组,根据用户点击量的多少为文档计算出该查询下的相关度。根据用户点击记录还原用户搜索场景,生成训练数据;其中要同时计算相关和不相关文档各个维度上的得分,完全真实的恢复用户搜索场景,以用训练数据训练;使用多种训练算法和训练参数,得到若干候选上线排序模型,然后用交叉验证的方式判断训练出的排序模型是否符合要求;如果不符合要求,调整之前的训练参数,可调整的参数包括向量维度、神经网络层数和选用算法等,符合要求的排序模型,需要在训练集和测试集上的指标都达到某个阈值,且训练集和测试集的指标之差小于某个阈值。步骤102,对各排序模型存储和比例分配,定时将排序模型及比例存入搜索服务器缓存数据库以备在线步骤读取;在该步骤中,首先通过后台界面将该模型的比例和字符描述写入关系型数据库;然后由定时任务等策略定时将关系型数据库的数据写入key-value数据库;利用key-value数据库存模型的比例和字符描述,目的是提高热点数据的访问速度。本专利技术中将key-value数据库用于排序模型的存储,作为离线部分和在线部分的接口,离线部分负责写入、在线部分负责读取,是不中断服务更新在线排序模型的关键步骤。所述的在线步骤包括,步骤201,接收用户请求并根据用户信息分配排序模型,其中,无论采用哪种排序算法和评价指标,都需要实际系统的测试。A/B测试系统通过单一变量原则,为一部分用户分配A算法,为另一部分用户分配B算法,在其它变量相同的条件下对比A、B两种算法的性能。A/B测试系统中最关键的部分为分流部分,如何为两种算法分配条件一样的用户是测试是否成功的关键。因为搜索引擎有翻页的需求,所以必须要求为每个用户分配相同的排序算法。本专利技术采用cookie的方式,为每个用户分配唯一的用户ID,根据此ID完成算法的分配。这样既保证分配的均匀、又保证分配的算法固定。步骤202,从索引中检索出相关文件,读取搜索服务器缓存数据库中的排序模型并计算排序然后返回给用户,相关文件为文档、视频网页等,在该步骤中,要先计算出文件各个维度上的得分,即将文件向量化,再用排序模型计算每个文件的最终得分以作为排序的基础。步骤203,统计本次用户的搜索行为。本文档来自技高网
...
快速迭代的搜索引擎排序方法及系统

【技术保护点】
一种快速迭代的搜索引擎排序方法,其特征在于,包括离线步骤和在线步骤,所述的离线步骤包括,训练出多个候选上线排序模型,对各排序模型存储和比例分配,定时将排序模型及比例存入搜索服务器缓存数据库以备在线步骤读取;所述的在线步骤包括,接收用户请求并根据用户信息分配排序模型,从索引中检索出相关文件,读取搜索服务器缓存数据库中的排序模型并计算排序然后返回给用户,统计本次用户的搜索行为。

【技术特征摘要】
1.一种快速迭代的搜索引擎排序方法,其特征在于,包括离线步骤和在线步骤,所述的离线步骤包括,训练出多个候选上线排序模型,对各排序模型存储和比例分配,定时将排序模型及比例存入搜索服务器缓存数据库以备在线步骤读取;所述的在线步骤包括,接收用户请求并根据用户信息分配排序模型,从索引中检索出相关文件,读取搜索服务器缓存数据库中的排序模型并计算排序然后返回给用户,统计本次用户的搜索行为。2.如权利要求1所述的搜索引擎排序方法,其特征在于,定时将排序模型及比例存入搜索服务器的key-value数据库。3.如权利要求1所述的搜索引擎排序方法,其特征在于,所述的训练出多个候选上线排序模型包括以下子步骤,收集用户点击记录,根据用户点击记录还原用户搜索场景生成训练数据,采用预定的不同算法和训练参数训练出多个候选上线排序模型。4.如权利要求1所述的搜索引擎排序方法,其特征在于,所述的在线步骤根据用户的cookie为用户分配排序模型以保证同一个用户分配固定的排序模型。5.如权利要求1所述的搜索引擎排序方法,其特征在于,所述的搜索行为包括用户查询词、用户点击的文件和该文件在输出文件列表中的位置。6.一种快速迭代的搜索引擎排序系统,其特征在于,包括,包括离线...

【专利技术属性】
技术研发人员:张洪岩黄永军王金明
申请(专利权)人:飞狐信息技术天津有限公司
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1