一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法技术

技术编号:21184735 阅读:39 留言:0更新日期:2019-05-22 15:20
本发明专利技术涉及一种基于马尔可夫决策过程和k‑最近邻强化学习的排序方法,属于信息检索领域。本发明专利技术基于马尔可夫决策过程模型框架,提出了一种应用k‑最近邻的文档排序方法,方法大大提高了的排序准确率;同时,智能化的为用户提供高相关性和多样性的文档搜索结果,节省用户的文档搜索时间,通过高效的文档排序更快更准确的使用户检索到符合其查询的文档。

A ranking method based on Markov decision process and k-nearest neighbor reinforcement learning

The present invention relates to a ranking method based on Markov decision process and k_nearest neighbor reinforcement learning, and belongs to the field of information retrieval. Based on the framework of Markov decision process model, the present invention proposes a document sorting method using k_nearest neighbor, which greatly improves the sorting accuracy. At the same time, it intelligently provides users with highly relevant and diverse document search results, saves users'document search time, and enables users to retrieve documents in line with their search more quickly and accurately through efficient document sorting. Documentation for enquiry.

【技术实现步骤摘要】
一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法
本专利技术涉及一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法,属于信息检索

技术介绍
随着互联网的快速发展,LearningtoRank技术也越来越受到关注,这是机器学习常见的任务之一。信息检索时,给定一个查询目标,我们需要算出最符合要求的结果并返回,这里面涉及一些特征计算、匹配等算法,对于海量的数据,如果仅靠人工来干预其中的一些参数来进行排序的话,是远远不能达到要求的,而LearningtoRank算法就是用来解决这种问题的。在信息检索领域,排序学习的核心问题之一是开发新颖算法,通过直接优化评估度量例如归一化折扣累积增益(NDCG)来构造排序模型。现有的方法通常集中于优化在固定位置计算特定评估度量,例如在固定位置K计算的NDCG。在信息检索中,评估度量包括广泛使用的NDCG和P@K,在固定位置计算的NDCG包含的文档信息量有限,并不能完全体现用户的查询目标。通常计算在所有排名位置的文档排序,这种方法比仅在单个位置计算文档排名提供更丰富的信息。因此,设计一种算法,它能够利用在所有的排序位置上计算的度量,来学习更好的排序模型变得很有意义。其次,仅仅依靠相关性来给文档打分具有一定的片面性,有时用户需要返回的文档不仅需要高相关性,对返回结果的多样性仍有一定的需求,传统的排序学习方法大多只考虑到了文档的相关性,忽视了文档多样性,没有解决查询结果文档的多样性问题。
技术实现思路
本专利技术要解决的技术问题是为了克服上述现有技术存在的缺陷而提供一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法。本专利技术的技术方案是:一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法,具体步骤为:(1)将原始数据文件平均分成5个组,每组对应一个子数据集,方便实现k折交叉验证实验,对这些数据集中的各个数据项进行预处理,生成候选数据集;(2)读取步骤(1)所述的候选数据集,设定算法的输入参数包括学习率η,折扣因子γ,奖励函数R,随机初始化学习参数w,中间参数Δw初始化为0;(3)读取步骤(2)所述的参数,完成取样序列E,返回一个序列E;(4)计算步骤(2)所述的取样序列E的长期累积折扣奖励;(5)计算在时间步t参数w的梯度,并计算更新中间参数Δw;(6)重复步骤(3)到(5),计算更新参数w,直至参数收敛,程序结束。所述步骤(3)具体包括以下步骤:11)初始化环境状态st和序列E;12)假设查询q所检索到的文档有M个,对于排序过程在时间步t=0至t=M-1,根据马尔可夫决策过程模型的策略,由当前环境的状态st选择一个动作at(文档);其中,A(st)是当前环境状态st下所有可选择的动作集合,t表示时间步,假设at∈A(st)是当前环境的状态st选择的一个动作,是该选择动作at对应的文档,m(at)是动作at对应的文档的索引。w是模型参数,其维度与文档特征一致。13)应用奖励函数R,计算在该环境状态st下选择动作at的奖励回报rt+1;其中,是所选择动作文档的相关性标签,t表示时间步。14)根据状态转移函数,改变环境状态st至st+1;15)应用欧式距离,计算所选动作at的k个最近邻动作(文档);16)将14)计算出的k个最近邻动作(文档),从候选文档集中删除;17)添加元组(st,at,rt+1)至序列E中,完成一个位置排序;18)完成M次采样序列,得到序列(s0,a0,r1,……,sM-1,aM-1,rM)。所述步骤(4)中计算步骤(2)所述的取样序列的累积长期折扣奖励,并用Gt表示:其中,γ是预先设定的折扣因子,γk-1表示随着时间步t的增加,折扣因子的作用逐渐减小的变化,rt+k表示从时间步t=0开始的奖励回报。所述步骤(5)具体包括以下步骤:21)计算在时间步t的参数w的梯度,并用表示其中,A(t)是当前环境状态st下所有可选择的动作集合,t表示时间步,是选择的动作at对应的文档,m(at)是动作at对应的文档的索引。w是模型参数,其维度与文档特征一致。22)计算更新在所有时间步t的累积梯度,并用表示:其中,γt是随时间步t的增加,折扣因子逐渐减小的表示。Gt是从时间步t=0直至t=M-1的取样序列的累积长期折扣奖励。是在时间步t的模型参数w的梯度。23)计算更新中间参数Δw,并用Δw表示:其中,γt是随时间步t的增加,折扣因子逐渐减小的表示。Gt是从时间步t=0直至t=M-1的取样序列的累积长期折扣奖励。是在时间步t的模型参数w的梯度。所述步骤(6)具体包括以下步骤:31)计算更新参数w,并用w表示:w=w+Δw;(8)其中,w是模型参数,其维度与文档特征一致。Δw是模型的中间参数。本专利技术的有益效果是:本专利技术基于马尔可夫决策过程模型框架,提出了一种应用k-最近邻的文档排序方法,方法大大提高了的排序准确率;同时,智能化的为用户提供高相关性和多样性的文档搜索结果,节省用户的文档搜索时间,通过高效的文档排序更快更准确的使用户检索到符合其查询的文档。附图说明图1是本专利技术马尔可夫决策过程中agent和环境的交互图;图2是本专利技术流程图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术进一步地详细描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。如图1所示,将文档排序过程建模为马尔可夫决策过程,图中的Agent相当于本专利技术的算法,Environment相当于查询用户。M个文档的排序问题形式化决策问题。每一个动作对应于选择一个文档。马尔可夫决策过程是一个agent与环境交互的过程,因此有一个离散的时间序列,t=0,1,2,…M,在每一个时刻t,agent都会接收一个用来表示现处环境的状态st∈S,其中S表示所有可能状态的集合,并且在现处状态st的基础上选择一个动作at∈A(st),其中A(st)表示在状态st时所有可能采取的动作的集合,在t时刻Agent采取一个动作后,环境的状态由st更新为st+1,在时间步t+1,Agent会收到一个奖励回报值rt+1∈R。在每个时间步t,动作的选择取决于策略函数Policy。如图2所示,针对基于马尔可夫决策过程和k-最近邻强化学习的排序方法,其特征在于,包括以下步骤:1、将原始数据文件平均分成5个组,每组对应一个子数据集,方便实现k折交叉验证实验,其中k设定为5,对这些数据集中的各个数据项进行预处理,生成候选数据集。2、读取步骤1所述的候选数据集,设定算法的输入参数包括学习率η=0.0001,折扣因子γ=1,奖励函数R,随机初始化学习参数w,中间参数Δw初始化为0。3、读取步骤2所述的参数,完成取样序列E,返回一个序列E,初始化环境状态st和序列E。假设查询q所检索到的文档有M个,对于排序过程在时间步t=0至t=M-1,根据马尔可夫决策过程模型的策略,由当前环境的状态st选择一个动作at(文档),其中,A(st)是当前环境状态st下所有可选择的动作集合,t表示时间步,假设at∈A(st)是当前环境的状态st选择的一个动作,是该选择动作at对应的文档,m(at)本文档来自技高网...

【技术保护点】
1.一种基于马尔可夫决策过程和k‑最近邻强化学习的排序方法,其特征在于:(1)将原始数据文件平均分成5个组,每组对应一个子数据集,对这些数据集中的各个数据项进行预处理,生成候选数据集;(2)读取步骤(1)所述的候选数据集,设定算法的输入参数包括学习率η,折扣因子γ,奖励函数R,随机初始化学习参数w,中间参数Δw初始化为0;(3)读取步骤(2)所述的参数,完成取样序列E,返回一个序列E;(4)计算步骤(2)所述的取样序列E的长期累积折扣奖励;(5)计算在时间步t参数w的梯度,并计算更新中间参数Δw;(6)重复步骤(3)到(5),计算更新参数w,直至参数收敛,程序结束。

【技术特征摘要】
1.一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法,其特征在于:(1)将原始数据文件平均分成5个组,每组对应一个子数据集,对这些数据集中的各个数据项进行预处理,生成候选数据集;(2)读取步骤(1)所述的候选数据集,设定算法的输入参数包括学习率η,折扣因子γ,奖励函数R,随机初始化学习参数w,中间参数Δw初始化为0;(3)读取步骤(2)所述的参数,完成取样序列E,返回一个序列E;(4)计算步骤(2)所述的取样序列E的长期累积折扣奖励;(5)计算在时间步t参数w的梯度,并计算更新中间参数Δw;(6)重复步骤(3)到(5),计算更新参数w,直至参数收敛,程序结束。2.根据权利要求1所述的基于马尔可夫决策过程和k-最近邻强化学习的排序方法,其特征在于所述步骤(3)具体包括以下步骤:11)初始化环境状态st和序列E;12)假设查询q所检索到的文档有M个,对于排序过程在时间步t=0至t=M-1,根据马尔可夫决策过程模型的策略,由当前环境的状态st选择一个动作at;其中,A(st)是当前环境状态st下所有可选择的动作集合,t表示时间步,假设at∈A(st)是当前环境的状态st选择的一个动作,是该选择动作at对应的文档,m(at)是动作at对应的文档的索引,w是模型参数,其维度与文档特征一致;13)应用奖励函数R,计算在该环境状态st下选择动作at的奖励回报rt+1;其中,是所选择动作文档的相关性标签,t表示时间步;14)根据状态转移函数,改变环境状态st至st+1;15)应用欧式距离,计算所选动作at的k个最近邻动作;16)将14)计算出的k个最近邻动作,从候选文档集中删除;17)添加元...

【专利技术属性】
技术研发人员:丁家满官蕊贾连印游进国姜瑛
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1