一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法技术

技术编号：21184735 阅读：39 留言：0更新日期：2019-05-22 15:20

本发明专利技术涉及一种基于马尔可夫决策过程和k‑最近邻强化学习的排序方法，属于信息检索领域。本发明专利技术基于马尔可夫决策过程模型框架，提出了一种应用k‑最近邻的文档排序方法，方法大大提高了的排序准确率；同时，智能化的为用户提供高相关性和多样性的文档搜索结果，节省用户的文档搜索时间，通过高效的文档排序更快更准确的使用户检索到符合其查询的文档。

A ranking method based on Markov decision process and k-nearest neighbor reinforcement learning

The present invention relates to a ranking method based on Markov decision process and k_nearest neighbor reinforcement learning, and belongs to the field of information retrieval. Based on the framework of Markov decision process model, the present invention proposes a document sorting method using k_nearest neighbor, which greatly improves the sorting accuracy. At the same time, it intelligently provides users with highly relevant and diverse document search results, saves users'document search time, and enables users to retrieve documents in line with their search more quickly and accurately through efficient document sorting. Documentation for enquiry.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法
本专利技术涉及一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法，属于信息检索

技术介绍
随着互联网的快速发展，LearningtoRank技术也越来越受到关注，这是机器学习常见的任务之一。信息检索时，给定一个查询目标，我们需要算出最符合要求的结果并返回，这里面涉及一些特征计算、匹配等算法，对于海量的数据，如果仅靠人工来干预其中的一些参数来进行排序的话，是远远不能达到要求的，而LearningtoRank算法就是用来解决这种问题的。在信息检索领域，排序学习的核心问题之一是开发新颖算法，通过直接优化评估度量例如归一化折扣累积增益(NDCG)来构造排序模型。现有的方法通常集中于优化在固定位置计算特定评估度量，例如在固定位置K计算的NDCG。在信息检索中，评估度量包括广泛使用的NDCG和P@K，在固定位置计算的NDCG包含的文档信息量有限，并不能完全体现用户的查询目标。通常计算在所有排名位置的文档排序，这种方法比仅在单个位置计算文档排名提供更丰富的信息。因此，设计一种算法，它能够利用在所有的排序位置上计算的度量，来学习更好的排序模型变得很有意义。其次，仅仅依靠相关性来给文档打分具有一定的片面性，有时用户需要返回的文档不仅需要高相关性，对返回结果的多样性仍有一定的需求，传统的排序学习方法大多只考虑到了文档的相关性，忽视了文档多样性，没有解决查询结果文档的多样性问题。
技术实现思路
本专利技术要解决的技术问题是为了克服上述现有技术存在的缺陷而提供一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法。...

【技术保护点】
1.一种基于马尔可夫决策过程和k‑最近邻强化学习的排序方法，其特征在于：(1)将原始数据文件平均分成5个组，每组对应一个子数据集，对这些数据集中的各个数据项进行预处理，生成候选数据集；(2)读取步骤(1)所述的候选数据集，设定算法的输入参数包括学习率η，折扣因子γ，奖励函数R，随机初始化学习参数w，中间参数Δw初始化为0；(3)读取步骤(2)所述的参数，完成取样序列E，返回一个序列E；(4)计算步骤(2)所述的取样序列E的长期累积折扣奖励；(5)计算在时间步t参数w的梯度，并计算更新中间参数Δw；(6)重复步骤(3)到(5)，计算更新参数w，直至参数收敛，程序结束。

【技术特征摘要】
1.一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法，其特征在于：(1)将原始数据文件平均分成5个组，每组对应一个子数据集，对这些数据集中的各个数据项进行预处理，生成候选数据集；(2)读取步骤(1)所述的候选数据集，设定算法的输入参数包括学习率η，折扣因子γ，奖励函数R，随机初始化学习参数w，中间参数Δw初始化为0；(3)读取步骤(2)所述的参数，完成取样序列E，返回一个序列E；(4)计算步骤(2)所述的取样序列E的长期累积折扣奖励；(5)计算在时间步t参数w的梯度，并计算更新中间参数Δw；(6)重复步骤(3)到(5)，计算更新参数w，直至参数收敛，程序结束。2.根据权利要求1所述的基于马尔可夫决策过程和k-最近邻强化学习的排序方法，其特征在于所述步骤(3)具体包括以下步骤：11)初始化环境状态st和序列E；12)假设查询q所检索到的文档有M个，对于排序过程在时间步t＝0至t＝M-1，根据马尔可夫决策过程模型的策略，由当前环境的状态st选择一个动作at；其中，A(st)是当前环境状态st下所有可选择的动作集合，t表示时间步，假设at∈A(st)是当前环境的状态st选择的一个动作，是该选择动作at对应的文档，m(at)是动作at对应的文档的索引，w是模型参数，其维度与文档特征一致；13)应用奖励函数R，计算在该环境状态st下选择动作at的奖励回报rt+1；其中，是所选择动作文档的相关性标签，t表示时间步；14)根据状态转移函数，改变环境状态st至st+1；15)应用欧式距离，计算所选动作at的k个最近邻动作；16)将14)计算出的k个最近邻动作，从候选文档集中删除；17)添加元...

【专利技术属性】
技术研发人员：丁家满，官蕊，贾连印，游进国，姜瑛，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人