一种基于值分布环境模型的策略评估系统及风险管控方法技术方案

技术编号:44173875 阅读:17 留言:0更新日期:2025-02-06 18:19
本发明专利技术公开了一种基于值分布环境模型的策略评估系统及风险管控方法,包括:筛选离线数据模块:筛选离线数据并根据四元组数据格式生成离线数据集;基于值分布的奖赏值分布模型构建模块:根据值分布学习和四元组离线数据集建立损失函数,根据损失函数构建基于值分布的奖赏值分布模型;状态转移模型构建模块:根据四元组离线数据集训练状态转移模型;状态序列生成模块:根据奖赏值分布模型和状态转移模型生成状态序列;策略评估模块:评估状态序列的收益,根据状态序列的收益得到策略评估结果。本发明专利技术解决了目前策略评估方法中策略评估效率低、结果稳定性和可靠性不足的问题。

【技术实现步骤摘要】

本专利技术属于人工智能,特别是涉及一种基于值分布环境模型的策略评估系统及风险管控方法


技术介绍

1、在任何需要策略决策的领域,风险都是无法避免的,但通过有效的风险管理,可以降低风险对的影响。近年来,随着大数据和人工智能技术的快速发展,智能风险管控技术发展迅速,出现了多种基于规则的方法、机器学习方法、深度学习方法等不同方法的风险管控技术。如何准确评估各类风险管控方法在实际场景下所能达到的实际效果,成为目前风险策略选择中需要解决的重要问题。

2、目前风险策略评估的方法主要包括基于真实环境的策略验证方法、基于虚拟环境的策略评估方法、基于历史数据的策略评估方法和基于重要性采样的策略评估方法。但是基于真实环境的策略验证方法需要在实际环境下进行,验证过程的耗时长,且存在潜在的破损或损失风险;基于虚拟环境的策略评估方法是基于虚拟环境,并不能真实地反映实际环境中的状态和情况,导致策略评估结果可靠性低;基于历史数据的策略评估方法主要依赖过去的环境数据,无法考虑自身状态变化或行为对环境产生的影响或干预,导致策略评估稳定性不足。基于重要性采样的策略评估方法由于数据本文档来自技高网...

【技术保护点】

1.一种基于值分布环境模型的策略评估系统,其特征在于,包括:

2.根据权利要求1所述的基于值分布环境模型的策略评估系统,其特征在于,所述根据历史策略的收益和/或历史策略的特异性筛选离线数据,包括:

3.根据权利要求1所述的基于值分布环境模型的策略评估系统,其特征在于,所述四元组数据格式为:<状态st、行为at、下一时刻状态st+1、风险Rt>。

4.根据权利要求3所述的基于值分布环境模型的策略评估系统,其特征在于,所述根据值分布学习和四元组离线数据集建立损失函数,包括:

5.根据权利要求4所述的基于值分布环境模型的策略评估系统,...

【技术特征摘要】

1.一种基于值分布环境模型的策略评估系统,其特征在于,包括:

2.根据权利要求1所述的基于值分布环境模型的策略评估系统,其特征在于,所述根据历史策略的收益和/或历史策略的特异性筛选离线数据,包括:

3.根据权利要求1所述的基于值分布环境模型的策略评估系统,其特征在于,所述四元组数据格式为:<状态st、行为at、下一时刻状态st+1、风险rt>。

4.根据权利要求3所述的基于值分布环境模型的策略评估系统,其特征在于,所述根据值分布学习和四元组离线数据集建立损失函数,包括:

5.根据权利要求4所述的基于值分布环境模型的策略评估系统,其特征在于,所述根据损失函数构建基于值分布的奖赏值分...

【专利技术属性】
技术研发人员:张伯雷徐行严军荣陈宏吴杰张丽君
申请(专利权)人:杭州衡泰技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1