一种实现智能实时决策系统实时确定最优决策动作的方法技术方案

技术编号:33400525 阅读:19 留言:0更新日期:2022-05-11 23:21
本发明专利技术公开了一种实现智能实时决策系统实时确定最优决策动作的方法,包括以:步骤1,离散化决策过程:确定最小决策时刻间隔;步骤2,定义系统状态:根据系统状态建立蒙特卡洛树搜索模型;步骤3,训练状态转移模型:将智能实时决策系统的状态转移过程建模为状态转移模型,基于历史数据训练所述状态转移模型,测试模型精度并选择最优模型参数;步骤4,挂载状态转移模型:用状态转移模型,状态转移模型预测蒙特卡洛树搜索模型的下一时刻系统状态作为漂移后的根节点,在下一个决策时刻到达前完成搜索,根据决策结果确定智能实时决策系统的当前最优的决策动作。该方法实现了在智能实时决策系统中利用蒙特卡洛树搜索实时确定最优决策动作。策动作。策动作。

【技术实现步骤摘要】
一种实现智能实时决策系统实时确定最优决策动作的方法


[0001]本专利技术涉及智能决策领域,尤其涉及一种实现智能实时决策系统实时确定最优决策动作的方法。

技术介绍

[0002]随着数字化、智能化时代的到来,智能决策系统在各个领域有广泛的需求,如军事国防的兵棋推演系统需感知战场态势快速做出部署,完成战略目标;工业生产的电力系统需根据电网运行参数变化即时调度,保障用电负荷需求和电网持续安全运行;社会治理的智慧城市交通需分析路况车辆统计信息,调整信号灯时长提高道路通行效率。
[0003]复杂环境下的智能决策系统的开发面临着维数灾难的问题,即其状态动作空间随着观测维度和决策变量的增加呈指数增长,在此情况下,人工规则往往难以覆盖其庞大的问题规模,而基于神经网络的机器学习方法由于黑箱属性,缺少可靠性保障。
[0004]对此,强化学习中的蒙特卡洛树搜索提供了一种可能的解决方案,该方法基于根节点进行大规模预演,包含选择、扩展、模拟、回溯四个阶段,通过累积蒙特卡洛模拟得到的价值估计不断将模拟导向高收益轨迹,最终综合模拟结果给出决策选择。蒙特卡洛树搜索方法以预演模拟为基础,提供了一定的可靠性保障,但是也带来了沉重的计算负担,难以适应实时决策系统(即需要实时决策的智能实时决策系统)的快速反应需求。
[0005]已有技术方案通过训练快速推演策略和价值评估模型,减少蒙特卡洛树搜索深度来缩短计算时间,但是此方法高度依赖于快速推演策略和价值评估模型的质量,给智能决策系统引入了新的不确定性,且只能减少决策时延而不能彻底消除。因此,如何实现蒙特卡洛树搜索在智能决策系统中的实时性,仍是亟待解决的重要问题。
[0006]有鉴于此,特提出本专利技术。

技术实现思路

[0007]本专利技术的目的是提供了一种实现智能实时决策系统实时确定最优决策动作的方法,能使智能实时决策系统实时确定最优策略,进而解决现有技术中存在的上述技术问题。
[0008]本专利技术的目的是通过以下技术方案实现的:
[0009]本专利技术实施方式提供一种实现智能实时决策系统实时确定最优决策动作的方法,包括以下步骤:
[0010]步骤1,离散化决策过程:
[0011]根据智能实时决策系统的时序变化特征,确定出最小决策时刻间隔,通过所述最小决策时刻间隔对决策过程进行离散化,使所述智能实时决策系统在固定间隔的离散时间节点上进行决策;
[0012]步骤2,定义系统状态:
[0013]根据所述智能实时决策系统的动力特性,结合专家知识和特征工程方法,抽取关键的动力特征作为系统状态,建立蒙特卡洛树搜索模型,并根据所述系统状态的结构初始
或“Y”的情况也包括“X和Y”的三种情况。
[0026]术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
[0027]当浓度、温度、压力、尺寸或者其它参数以数值范围形式表示时,该数值范围应被理解为具体公开了该数值范围内任何上限值、下限值、优选值的配对所形成的所有范围,而不论该范围是否被明确记载;例如,如果记载了数值范围“2~8”时,那么该数值范围应被解释为包括“2~7”、“2~6”、“5~7”、“3~4和6~7”、“3~5和7”、“2和5~7”等范围。除另有说明外,本文中记载的数值范围既包括其端值也包括在该数值范围内的所有整数和分数。
[0028]下面对本专利技术所提供的实现智能实时决策系统实时确定最优决策动作的方法进行详细描述。本专利技术实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本专利技术实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。本专利技术实施例中所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
[0029]如图1所示,本专利技术实施例提供一种实现智能实时决策系统实时确定最优决策动作的方法,包括如下步骤:
[0030]步骤1,离散化决策过程:
[0031]根据智能实时决策系统的时序变化特征,确定出最小决策时刻间隔,通过所述最小决策时刻间隔对决策过程进行离散化,使所述智能实时决策系统在固定间隔的离散时间节点上进行决策;
[0032]步骤2,定义系统状态:
[0033]根据所述智能实时决策系统的动力特性,结合专家知识和特征工程方法,抽取关键的动力特征作为系统状态,建立蒙特卡洛树搜索模型,并根据所述系统状态的结构初始化蒙特卡洛树搜索模型的子节点数据结构,将该蒙特卡洛树搜索模型的最大搜索时间设置为所述步骤1中的最小决策时刻间隔;
[0034]步骤3,训练状态转移模型:
[0035]将所述智能实时决策系统的状态转移过程建模为状态转移模型,所述状态转移模型的输入为所述智能实时决策系统的当前时刻的系统状态和决策动作,输出为所述智能实时决策系统的下一时刻系统状态;基于历史数据训练所述状态转移模型,测试训练后所述状态转移模型的精度并选择最高精度的状态转移模型对应的最优模型参数;
[0036]步骤4,挂载状态转移模型:
[0037]用训练得出的最优模型参数对应的状态转移模型预测所述蒙特卡洛树搜索模型的子节点对应的系统状态,将所述状态转移模型预测的下一时刻系统状态作为漂移后的根节点,基于漂移后的根节点对所述蒙特卡洛树搜索模型进行蒙特卡洛树搜索,在蒙特卡洛树搜索的扩展步骤,用所述状态转移模型确定子节点初始化所需的系统状态,蒙特卡洛树搜索模型在下一个决策时刻到达前完成搜索并输出决策结果,根据决策结果找出的最大价值节点对应的边,以该边对应的动作作为所述智能实时决策系统的当前最优的决策动作。
[0038]具体地,在每次开始蒙特卡洛树搜索之前,使用所述状态转移模型,输入当前时刻系统状态和决策结果,预测下一时刻系统状态,并据此初始化根节点,因为这一根节点反映下一决策时刻的系统状态,而不是当前时刻的,将这一操作称为根节点漂移;基于漂移后的根节点进行蒙特卡洛树搜索,在下一决策时刻到达前终止搜索过程,根据蒙特卡洛树搜索推演评估情况,输出决策结果,作为所述智能实时决策系统所处时刻的最优决策动作。
[0039]上述步骤3中,一般使用神经网络建模所述智能实时决策系统的状态转移过程,可以通过GPU加速神经网络推理速度,快速预测下一时刻系统状态数值预测。
[0040]上述步骤4中,通过设置蒙特卡洛树搜索模型的最大搜索时间为最小决策时刻间隔,保证蒙特卡洛树搜索在下一个决策时刻到达前完成计算。
[0041]上述方法中,所述智能实时决策系统包括:智能电力调度系统、智慧交通控制系统、智能兵棋推演系统中的任一种。
[0042]综上可见,本专利技术实施例的方法,通过训练状态转移模型预测系统未来状态,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实现智能实时决策系统实时确定最优决策动作的方法,其特征在于,包括以下步骤:步骤1,离散化决策过程:根据智能实时决策系统的时序变化特征,确定出最小决策时刻间隔,通过所述最小决策时刻间隔对决策过程进行离散化,使所述智能实时决策系统在固定间隔的离散时间节点上进行决策;步骤2,定义系统状态:根据所述智能实时决策系统的动力特性,结合专家知识和特征工程方法,抽取关键的动力特征作为系统状态,建立蒙特卡洛树搜索模型,并根据所述系统状态的结构初始化蒙特卡洛树搜索模型的子节点数据结构,将该蒙特卡洛树搜索模型的最大搜索时间设置为所述步骤1中的最小决策时刻间隔;步骤3,训练状态转移模型:将所述智能实时决策系统的状态转移过程建模为状态转移模型,所述状态转移模型的输入为所述智能实时决策系统的当前时刻的系统状态和决策动作,输出为所述智能实时决策系统的下一时刻系统状态;基于历史数据训练所述状态转移模型,测试训练后所述状态转移模型的精度并选择最高精度的状态转移模型对应的最优...

【专利技术属性】
技术研发人员:王杰李厚强刘骐源潘涛星周祺
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1