一种实现智能实时决策系统实时确定最优决策动作的方法技术方案

技术编号：33400525 阅读：19 留言：0更新日期：2022-05-11 23:21

本发明专利技术公开了一种实现智能实时决策系统实时确定最优决策动作的方法，包括以：步骤1，离散化决策过程：确定最小决策时刻间隔；步骤2，定义系统状态：根据系统状态建立蒙特卡洛树搜索模型；步骤3，训练状态转移模型：将智能实时决策系统的状态转移过程建模为状态转移模型，基于历史数据训练所述状态转移模型，测试模型精度并选择最优模型参数；步骤4，挂载状态转移模型：用状态转移模型，状态转移模型预测蒙特卡洛树搜索模型的下一时刻系统状态作为漂移后的根节点，在下一个决策时刻到达前完成搜索，根据决策结果确定智能实时决策系统的当前最优的决策动作。该方法实现了在智能实时决策系统中利用蒙特卡洛树搜索实时确定最优决策动作。策动作。策动作。

全部详细技术资料下载

【技术实现步骤摘要】
一种实现智能实时决策系统实时确定最优决策动作的方法

[0001]本专利技术涉及智能决策领域，尤其涉及一种实现智能实时决策系统实时确定最优决策动作的方法。

技术介绍

[0002]随着数字化、智能化时代的到来，智能决策系统在各个领域有广泛的需求，如军事国防的兵棋推演系统需感知战场态势快速做出部署，完成战略目标；工业生产的电力系统需根据电网运行参数变化即时调度，保障用电负荷需求和电网持续安全运行；社会治理的智慧城市交通需分析路况车辆统计信息，调整信号灯时长提高道路通行效率。
[0003]复杂环境下的智能决策系统的开发面临着维数灾难的问题，即其状态动作空间随着观测维度和决策变量的增加呈指数增长，在此情况下，人工规则往往难以覆盖其庞大的问题规模，而基于神经网络的机器学习方法由于黑箱属性，缺少可靠性保障。
[0004]对此，强化学习中的蒙特卡洛树搜索提供了一种可能的解决方案，该方法基于根节点进行大规模预演，包含选择、扩展、模拟、回溯四个阶段，通过累积蒙特卡洛模拟得到的价值估计不断将模拟导向高收益轨迹，最终综合模拟结果给出决策选择。蒙特卡洛树搜索方法以预演模拟为基础，提供了一定的可靠性保障，但是也带来了沉重的计算负担，难以适应实时决策系统(即需要实时决策的智能实时决策系统)的快速反应需求。
[0005]已有技术方案通过训练快速推演策略和价值评估模型，减少蒙特卡洛树搜索深度来缩短计算时间，但是此方法高度依赖于快速推演策略和价值评估模型的质量，给智能决策系统引入了新的不确定性，且只能减少决策时延而不能彻底消除。...

【技术保护点】

【技术特征摘要】
1.一种实现智能实时决策系统实时确定最优决策动作的方法，其特征在于，包括以下步骤：步骤1，离散化决策过程：根据智能实时决策系统的时序变化特征，确定出最小决策时刻间隔，通过所述最小决策时刻间隔对决策过程进行离散化，使所述智能实时决策系统在固定间隔的离散时间节点上进行决策；步骤2，定义系统状态：根据所述智能实时决策系统的动力特性，结合专家知识和特征工程方法，抽取关键的动力特征作为系统状态，建立蒙特卡洛树搜索模型，并根据所述系统状态的结构初始化蒙特卡洛树搜索模型的子节点数据结构，将该蒙特卡洛树搜索模型的最大搜索时间设置为所述步骤1中的最小决策时刻间隔；步骤3，训练状态转移模型：将所述智能实时决策系统的状态转移过程建模为状态转移模型，所述状态转移模型的输入为所述智能实时决策系统的当前时刻的系统状态和决策动作，输出为所述智能实时决策系统的下一时刻系统状态；基于历史数据训练所述状态转移模型，测试训练后所述状态转移模型的精度并选择最高精度的状态转移模型对应的最优...

【专利技术属性】
技术研发人员：王杰，李厚强，刘骐源，潘涛星，周祺，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人