【技术实现步骤摘要】
本专利技术涉及人在回路强化学习领域,具体涉及一种基于偏好传递性的人在回路强化学习数据增强方法。
技术介绍
1、人在回路强化学习(human-in-the-loop reinforcement learning,hitlrl)任务是人工智能领域一项具有挑战性和实用性的任务。与传统的强化学习的任务设定设置相比,人在回路强化学习算法能够在不需要设计奖励函数的情况下教会强化学习智能体所需的行为。相反,智能体使用反馈,通常是(人类)教师对两种行为的偏好,来学习教师所指示的理想行为。因此,智能体不需要使用经过精心设计的环境奖励,而是能够学习到一个更灵活的,与教师反馈更好对齐的奖励函数。
2、然而,人在回路强化学习通常需要大量的教师反馈,这可能费时或有时不可行。为了提高反馈效率,先前的研究采用了不同的采样策略,旨在选择更有信息量的查询以在获得更少教师反馈的情况下提高所学奖励函数的质量。另一些工作关注于策略初始化。例如,有研究通过从专家示范中进行模仿学习来初始化代理的策略,也有研究利用无监督的代理预训练来学习更多样的行为,从而减少所需的人工
...【技术保护点】
1.一种基于偏好传递性的人在回路强化学习数据增强方法,其特征在于,该方法包括以下具体步骤:
2.根据权利要求1所述的人在回路强化学习数据增强方法,其特征在于,所述步骤1)具体包括:
3.根据权利要求1所述的人在回路强化学习数据增强方法,其特征在于,所述步骤3)具体包括:
【技术特征摘要】
1.一种基于偏好传递性的人在回路强化学习数据增强方法,其特征在于,该方法包括以下具体步骤:
2.根据权利要求1所述的人在回路强化学习数据...
【专利技术属性】
技术研发人员:杨静,刘子昂,吴兴蛟,许俊杰,马天龙,方发明,
申请(专利权)人:华东师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。