System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及人工智能,尤其涉及一种面向智能体控制的可行约束策略优化方法及装置。
技术介绍
1、强化学习作为一种重要的机器学习范式,已经取得了令人瞩目的成就,尤其在智能体控制(例如机器人控制和自动驾驶汽车)领域应用广泛。
2、目前应用于智能体控制的传统强化学习方法,主要包括基于原始-对偶的方法、基于信赖域的方法以及基于罚函数的方法,然而应用这些方法不仅适用的范围较小,存在一定的局限性,而且在探索环境的过程中,智能体的行为可能会违反某些安全约束,从而导致对环境或智能体自身造成损害,无法满足安全、稳定以及高效的需求。
技术实现思路
1、有鉴于此,本专利技术提供一种面向智能体控制的可行约束策略优化方法及装置,用以解决现有技术中存在的上述问题。
2、本专利技术提供一种面向智能体控制的可行约束策略优化方法,包括如下步骤。
3、获取对智能体进行移动控制的约束条件信息;
4、将所述约束条件信息输入fcpo模型,得到所述fcpo模型输出的对智能体进行移动控制的控制信息;其中,所述fcpo模型用于根据所述约束条件信息确定最优约束策略,并基于所述最优约束策略输出对智能体进行移动控制的控制信息;所述fcpo模型是基于固定的随机种子训练得到的;
5、基于所述控制信息,对所述智能体进行移动控制。
6、根据本专利技术提供的一种面向智能体控制的可行约束策略优化方法,所述对智能体进行移动控制的约束条件信息包括:
7、速度约束:在控
8、圆形约束:在控制智能体在预设圆形区域中移动的情况下,控制智能体在移动过程中与圆形区域中心的距离大于或等于第二阈值;
9、目标约束:在控制智能体抵达一个或多个目标位置的情况下,控制智能体在移动到目标位置的过程中避开障碍物。
10、根据本专利技术提供的一种面向智能体控制的可行约束策略优化方法,所述根据所述约束条件信息确定最优约束策略,包括以下步骤:
11、根据对智能体进行移动控制的约束条件信息确定奖励函数和代价函数;
12、基于所述奖励函数和代价函数,通过约束策略迭代算法建立第一约束策略;
13、通过ppo算法,对所述第一约束策略进行优化,建立第二约束策略;其中,所述第二约束策略与所述第一约束策略之间的kl散度被定义为信任区间约束;
14、通过admm算法,对所述第二约束策略进行优化,确定在满足对智能体进行移动控制的约束条件的情况下,对智能体进行移动控制的最优约束策略。
15、根据本专利技术提供的一种面向智能体控制的可行约束策略优化方法,所述根据对智能体进行移动控制的约束条件信息确定奖励函数和代价函数,包括:
16、对智能体进行移动控制的约束条件信息为速度约束的情况下,所述奖励函数表示为:
17、
18、其中,表示在时间的总奖励,表示智能体在每个时间步处于正常状态时的奖励值,表示智能体向前移动时的奖励值,表示智能体执行的动作幅度过大时的惩罚值;
19、所述代价函数表示为:
20、
21、其中,表示在时间的总代价,表示指示函数,表示智能体当前的速度,表示智能体的速度阈值。
22、根据本专利技术提供的一种面向智能体控制的可行约束策略优化方法,所述根据对智能体进行移动控制的约束条件信息确定奖励函数和代价函数,包括:
23、对智能体进行移动控制的约束条件信息为圆形约束的情况下,所述奖励函数表示为:
24、
25、其中,表示在时间的总奖励,表示智能体到原点的欧几里得距离,表示圆形几何图形的半径,和表示智能体沿轴和轴的速度分量,和表示智能体在轴和轴上的坐标;
26、所述代价函数表示为:
27、
28、其中,表示在时间的总代价,表示指示函数,表示对取绝对值,是安全边界。
29、根据本专利技术提供的一种面向智能体控制的可行约束策略优化方法,所述根据对智能体进行移动控制的约束条件信息确定奖励函数和代价函数,包括:
30、对智能体进行移动控制的约束条件信息为目标约束的情况下,所述奖励函数表示为:
31、
32、其中,表示在时间的总奖励,表示上一个时间步智能体与目标点之间的距离,表示当前时间步智能体与目标点之间的距离,是折扣因子,表示完成目标时的奖励值,表示指示函数,表示判断的阈值;
33、所述代价函数表示为:
34、
35、其中,表示在时间的总代价,表示每单位时间的惩罚值,表示智能体的大小,表示智能体与障碍物之间的距离。
36、本专利技术还提供一种面向智能体控制的可行约束策略优化装置,包括如下模块:
37、获取模块,用于获取对智能体进行移动控制的约束条件信息;
38、处理模块,用于将所述约束条件信息输入fcpo模型,得到所述fcpo模型输出的对智能体进行移动控制的控制信息;其中,所述fcpo模型用于根据所述约束条件信息确定最优约束策略,并基于所述最优约束策略输出对智能体进行移动控制的控制信息;所述fcpo模型是基于固定的随机种子训练得到的;
39、控制模块,用于基于所述控制信息,对所述智能体进行移动控制。
40、本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述面向智能体控制的可行约束策略优化方法。
41、本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述面向智能体控制的可行约束策略优化方法。
42、本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述面向智能体控制的可行约束策略优化方法。
43、本专利技术提供的一种面向智能体控制的可行约束策略优化方法及装置,基于对智能体进行移动控制的约束条件信息,通过fcpo模型输出对智能体进行移动控制的最优约束策略,进而根据最优约束策略对智能体进行移动控制,不仅在满足约束条件的同时取得了更优异的策略收益,违约程度也更小,而且fcpo模型提高了输出最优约束策略的计算效率,适用范围也更广,基于所述最优约束策略对智能体进行移动控制,提高了对智能体移动控制的安全性、稳定性以及高效性。
本文档来自技高网...【技术保护点】
1.一种面向智能体控制的可行约束策略优化方法,其特征在于,包括:
2.根据权利要求1所述的面向智能体控制的可行约束策略优化方法,其特征在于,所述对智能体进行移动控制的约束条件信息包括:
3.根据权利要求1所述的面向智能体控制的可行约束策略优化方法,其特征在于,所述根据所述约束条件信息确定最优约束策略,包括以下步骤:
4.根据权利要求3所述的面向智能体控制的可行约束策略优化方法,其特征在于,所述根据对智能体进行移动控制的约束条件信息确定奖励函数和代价函数,包括:
5.根据权利要求3所述的面向智能体控制的可行约束策略优化方法,其特征在于,所述根据对智能体进行移动控制的约束条件信息确定奖励函数和代价函数,包括:
6.根据权利要求3所述的面向智能体控制的可行约束策略优化方法,其特征在于,所述根据对智能体进行移动控制的约束条件信息确定奖励函数和代价函数,包括:
7.一种面向智能体控制的可行约束策略优化装置,其特征在于,包括:
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述面向智能体控制的可行约束策略优化方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述面向智能体控制的可行约束策略优化方法。
...【技术特征摘要】
1.一种面向智能体控制的可行约束策略优化方法,其特征在于,包括:
2.根据权利要求1所述的面向智能体控制的可行约束策略优化方法,其特征在于,所述对智能体进行移动控制的约束条件信息包括:
3.根据权利要求1所述的面向智能体控制的可行约束策略优化方法,其特征在于,所述根据所述约束条件信息确定最优约束策略,包括以下步骤:
4.根据权利要求3所述的面向智能体控制的可行约束策略优化方法,其特征在于,所述根据对智能体进行移动控制的约束条件信息确定奖励函数和代价函数,包括:
5.根据权利要求3所述的面向智能体控制的可行约束策略优化方法,其特征在于,所述根据对智能体进行移动控制的约束条件信息确定奖励函数和代价函数,包括:
6.根据权利要求3所述的面向智能体控制的可行约束策略优...
【专利技术属性】
技术研发人员:杨宁,范文天,孙罗洋,张海峰,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。