当前位置: 首页 > 专利查询>江苏大学专利>正文

一种从不完美演示中学习的强化学习智能体训练方法技术

技术编号:41797124 阅读:18 留言:0更新日期:2024-06-24 20:21
本发明专利技术提出了一种从不完美演示中学习的强化学习智能体训练方法,该方法首先利用使用双推力策略生成初步演示填充演示池,并在正式训练前利用初步演示,使用演示回放方法对智能体进行预训练,预训练结束后,让智能体直接与环境交互,并生成交互轨迹填充演示池。交互一定轮次后,抽取一定数量演示并使用演示回放方法对智能体进行正式训练,在正式训练中,使用不完美演示判别技术对用于训练的演示进行判别,并根据判别结果对训练过程进行相应调整。最终获得的训练方法相较基准方法能够提升智能体性能。

【技术实现步骤摘要】

本专利技术属于计算机应用,具体涉及训练可用于人工智能规划或分析智能体的强化学习方法。


技术介绍

1、量化交易指的是依靠数学模型实施投资策略的交易方法。其具有自动化和连续性的特点,且能够避免主观判断带来的不理性决策,目前是证券投资领域主要使用的方法。在金融创新的大背景下,将机器学习、强化学习等技术与量化交易进行融合是目前的趋势。

2、此外,机器翻译、导航机器人训练、游戏ai训练指的是使用人工智能(ai)技术来进行场景的翻译和导航交互,以及增强游戏角色的智能水平和游戏体验。这通常包括通过人工智能学习、适应和做出复杂的决策,从而提高准确率和交互性。由于强化学习方法允许ai通过不断试错从实际经验中学习并且自适应地优化其策略,目前已经成为一种被广泛运用的ai训练方法。

3、传统机器学习方法在量化交易中的应用方向以价格预测为主,而强化学习方法则可以用来制定交易策略。交易策略是指在给定价格等情况下如何对交易标的物进行买卖操作,可以建模为一个顺序决策问题。而强化学习方法是机器学习方法中解决顺序决策问题的常用方法。具体到量化交易问题上,由于金融数据往本文档来自技高网...

【技术保护点】

1.一种从不完美演示中学习的强化学习智能体训练方法,其特征在于,包括下列步骤:

2.根据权利要求1所述的一种方法,其特征在于,所述的步骤1包含下列步骤:

3.根据权利要求1所述的一种方法,其特征在于,所述的步骤3包含下列步骤:

4.根据权利要求1所述的一种方法,其特征在于,所述的步骤4包含下列步骤:

5.根据权利要求1所述的一种方法,其特征在于,所述的步骤5包含下列步骤:

6.根据权利要求1所述的一种方法,其特征在于,所述的步骤6包含下列步骤:

7.根据权利要求1所述的一种方法,其特征在于,所述的步骤7包含下列步骤:...

【技术特征摘要】

1.一种从不完美演示中学习的强化学习智能体训练方法,其特征在于,包括下列步骤:

2.根据权利要求1所述的一种方法,其特征在于,所述的步骤1包含下列步骤:

3.根据权利要求1所述的一种方法,其特征在于,所述的步骤3包含下列步骤:

4.根据权利要求1所述的一种方法,...

【专利技术属性】
技术研发人员:陆晟韩飞李莉
申请(专利权)人:江苏大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1