一种基于偏好传递性的人在回路强化学习数据增强方法技术

技术编号:43285980 阅读:46 留言:0更新日期:2024-11-12 16:07
本发明专利技术公开了一种基于偏好传递性的人在回路强化学习数据增强方法,其特点是该方法具体包括:每轮人类标注时从强化学习智能体动作序列库中采样动作序列;根据人类对动作序列对的偏好标注构建人类偏好依赖图;将人类偏好依赖图中的动作序列的均等偏好关系转换为动作序列对的偏序偏好关系等步骤。本发明专利技术与现有技术相比可以将人类反馈当中的均等偏好数据转化为偏序偏好数据,较好的解决了先前方法无法根据均等偏好数据优化的问题,同时利用人类偏好依赖图挖掘跨轮次间人类反馈结果之间的联系,能够加快算法的收敛速度,方法具有高度的通用性和模块化特点。

【技术实现步骤摘要】

本专利技术涉及人在回路强化学习领域,具体涉及一种基于偏好传递性的人在回路强化学习数据增强方法


技术介绍

1、人在回路强化学习(human-in-the-loop reinforcement learning,hitlrl)任务是人工智能领域一项具有挑战性和实用性的任务。与传统的强化学习的任务设定设置相比,人在回路强化学习算法能够在不需要设计奖励函数的情况下教会强化学习智能体所需的行为。相反,智能体使用反馈,通常是(人类)教师对两种行为的偏好,来学习教师所指示的理想行为。因此,智能体不需要使用经过精心设计的环境奖励,而是能够学习到一个更灵活的,与教师反馈更好对齐的奖励函数。

2、然而,人在回路强化学习通常需要大量的教师反馈,这可能费时或有时不可行。为了提高反馈效率,先前的研究采用了不同的采样策略,旨在选择更有信息量的查询以在获得更少教师反馈的情况下提高所学奖励函数的质量。另一些工作关注于策略初始化。例如,有研究通过从专家示范中进行模仿学习来初始化代理的策略,也有研究利用无监督的代理预训练来学习更多样的行为,从而减少所需的人工反馈总量。然而先前的本文档来自技高网...

【技术保护点】

1.一种基于偏好传递性的人在回路强化学习数据增强方法,其特征在于,该方法包括以下具体步骤:

2.根据权利要求1所述的人在回路强化学习数据增强方法,其特征在于,所述步骤1)具体包括:

3.根据权利要求1所述的人在回路强化学习数据增强方法,其特征在于,所述步骤3)具体包括:

【技术特征摘要】

1.一种基于偏好传递性的人在回路强化学习数据增强方法,其特征在于,该方法包括以下具体步骤:

2.根据权利要求1所述的人在回路强化学习数据...

【专利技术属性】
技术研发人员:杨静刘子昂吴兴蛟许俊杰马天龙方发明
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1