一种针对未知开放环境的层级式风控演绎装置系统制造方法及图纸

技术编号:36979115 阅读:13 留言:0更新日期:2023-03-25 17:58
本发明专利技术涉及一种针对未知开放环境的层级式风控演绎装置系统,通过微调推理条件随机场转移状态,对开放式系统中的风险随机概率分布进行近似,最大限度地评估主导优势策略的自适应置信水平。本发明专利技术阐明了目标条件政策和预测处理之间的内在关系,迭代计算增量缓冲并以此修改其在开放环境中的应对响应,并使其能够在整个自主学习过程中处理随机性。在开放式环境下,这种分层结构更容易实现,因为该方案的效率更高,消耗的计算量更少。本发明专利技术实现了对环境潜在风险的有效抽象,证明了其在机器人任务中的具备风险预估与推理的实际潜力,进一步提高了探索效率并改善了分层架构的有效性与可解释性。解释性。解释性。

【技术实现步骤摘要】
一种针对未知开放环境的层级式风控演绎装置系统


[0001]本专利技术涉及一种针对未知开放环境的层级式风控演绎装置系统,属于人工智能机器人的


技术介绍

[0002]人工智能领域中,通常从环境认知、行为策略、交互与推理这三大方面来设计自主学习系统,通过持续学习增强其对未知的环境变化的适应能力。人类和许多智能生物解决复杂问题的能力,通常体现为一种从分层认知机制中进行学习的过程,意味着分层的适应性反应在生物学和认知上对自主学习和推理的发展至关重要。
[0003]在真实世界中,构建有效的自主学习不仅需要环境奖励的反馈,还要考虑环境的不确定性,建立对未知环境的有效识别与认知推理是进行自主学习的必要步骤。开放式系统的优势在于智能机器人通过判断当前场景是否存在类似风险特征,并从获得的经验序列中学习,然后再泛化到多模态场景,从而引导某些功能的特定式强化,如机器人探索任务,围棋博弈,形态进化等。分层的预测规划能够基于具有内在动机的连续空间演绎行为,处理稀疏性奖励和充分风险认知之间的平衡,这种新视角在处理大规模状态

动作的稀疏空间决策问题时,有助于找到能够提高总体收益的环境适应性行为,但目前只适用于与之前相同或相近的任务,或是在简单生成域中的任务。

技术实现思路

[0004]本专利技术是为了解决上述问题而进行的,目的在于提供一种针对未知开放环境的层级式风控演绎装置系统,更准确、更快速、更广泛地推断不同环境风险下的层级行为演绎特征。为此,本专利技术提供以下技术方案:
[0005]本专利技术提供了一种针对未知开放环境的层级式风控演绎装置系统,采用鼓励式探索与经验策略相结合的思想,对开放式系统中的随机条件概率分布进行近似,迭代计算中间增量缓冲中的主导优势策略的置信度水平以此构造未知风险环境下的层级自适应行为,具有这样的特征,包括以下步骤:
[0006]步骤S1,观测层:导入环境信息的实时采样观测序列;
[0007]步骤S2,分析层:构建动作观测的历史经验序列;
[0008]步骤S3,判断层:风险事件触发检测与失效判断;
[0009]步骤S4,置信层:生成推理模型并更新置信区间;
[0010]步骤S5,迭代强化层:在复杂多模态系统中进行实物与仿真交叉验证,不断回溯并评估置信区间,将实时采样观测序列反馈至步骤S1内进行重复迭代。
[0011]在本专利技术提供的针对未知开放环境的层级式风控演绎装置系统中,还可以具有这样的特征:其中,步骤S1中的观测序列为去中心化的部分可观察马尔科夫决策链G,其中包括状态s∈S,动作为a∈A,观测采样序列为t时刻依据O(s,a):S
×
A

Z中状态i

j转换的序列,奖励函数R
t
∈R(s,a)与转移条件
[0012]在本专利技术提供的针对未知开放环境的层级式风控演绎装置系统中,还可以具有这样的特征:其中,步骤S2具体包括如下子步骤:
[0013]步骤S2

1,在显著的非平稳情况下,由于环境偏差和指数状态空间计算,累积奖励如下:
[0014][0015]其中,γ为步长折扣因子;
[0016]步骤S2

2,根据可观的局部历史动作

观测经验序列来编码动作轨迹,目标是生成策略π(a|s)

exp{Q(s
t
,a
t
)},将局部轨迹的动作

观测历史作为输入,并估计产生一个联合动作;
[0017]步骤S2

3,假设经验序列中应对风险所执行的建议动作的遍历联合概率分布为:使得随机策略π(x)=(π1,π2,

)满足的条件转移概率,则存在唯一的归一化分布使得近似成立,即:
[0018][0019]步骤S2

4,对于可观测空间(S,A),初始的吉布斯抽样序列为X
n
=(x
i
:i=1,2,

,n),在t时刻时,根据动作

观测历史生成A
t
(s,u
t

t
),作为最佳响应动作。
[0020]在本专利技术提供的针对未知开放环境的层级式风控演绎装置系统中,还可以具有这样的特征:其中,步骤S3具体包括如下子步骤:
[0021]步骤S3

1,开放式系统中,假设每个A
t
(s,u
t

t
)均遵循伯努利分布,联合动作空间(u
t

t
)在状态空间s~z
i

j
下的效用值可近似为执动作作观测历史序列τ
t
的效用值总和,则最佳响应的提议分布如下:
[0022][0023]其中,为有限N步内获得全局奖励Q
n
而迭代推导得出的置信度,与状态空间s无关;
[0024]步骤S3

2,为了解决非平稳场景中的环境偏差与指数状态空间计算的问题,采用鼓励式探索与经验策略相结合的思想,每次迭代的稀疏环境奖励分配一组用于探索交互的权重:
[0025][0026]其中,权重值由实时的机会式环境探索决定,则当前风险条件下的全局奖励则相应地得到如下更新:
[0027][0028]其中,通过采样可生成策略(注:置信度:),由于恒成立,使得通过采样样本估计的未知环境变化的损失期望正比于真实的未知风险的梯度;
[0029][0030]其中,为每次迭代的损失系数。
[0031]步骤S3

3,当且仅当t=inf(n>0:X
n
∈A)时刻,存在使得意味着历史动作观测序列的优势策略不再适用,应当加大智能体对于外部环境的探索程度。
[0032]在本专利技术提供的针对未知开放环境的层级式风控演绎装置系统中,还可以具有这样的特征:其中,步骤S4具体包括如下子步骤:
[0033]步骤S4

1,基于对局部历史动作序列的充分观测,可以得出该条件下的k级最佳响应:
[0034][0035]通过引导策略从收益优于预期的那部分轨迹中进行更新,从而提高现有经验的利用率,以便将高层次的优势策略有效利用于下一次迭代的联合策略更新;
[0036]步骤S4

2,由于在稀疏的动作空间上很难接近理想的全局帕累托最优值,最大平均差的引入可以提高数据的利用率通过自模仿学习来进行实时策略的评估与改进,保证算法在自训练过程中放大最确定优势的经验,以提高未标记的目标域的集体知识。
[0037][0038]其中,通过没有奇数子项的高斯核来简化计算,φ(
·
)是可分类目标函数,而K(
·

·
)可以用核密度估计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对未知开放环境的层级式风控演绎装置系统,采用鼓励式探索与经验策略相结合的思想,对开放式系统中的随机条件概率分布进行近似,迭代计算中间增量缓冲中的主导优势策略的置信度水平以此构造未知风险环境下的层级自适应行为,其特征在于,包括以下步骤:步骤S1,观测层:导入环境信息的实时采样观测序列;步骤S2,分析层:构建动作观测的历史经验序列;步骤S3,判断层:风险事件触发检测与失效判断;步骤S4,置信层:生成推理模型并更新置信区间;步骤S5,迭代强化层:在复杂多模态系统中进行实物与仿真交叉验证,不断回溯并评估所述置信区间,将所述实时采样观测序列反馈至所述步骤S1内进行重复迭代。2.根据权利要求1所述的针对未知开放环境的层级式风控演绎装置系统,其特征在于:其中,所述步骤S1中的观测序列为去中心化的部分可观察马尔科夫决策链G,其中包括状态s∈S,动作为a∈A,观测采样序列为t时刻依据O(sa):S
×
A

Z中状态i

j转换的序列,奖励函数R
t
∈R(s,a)与转移条件。3.根据权利要求1所述的针对未知开放环境的层级式风控演绎装置系统,其特征在于:其中,所述步骤S2具体包括如下子步骤:步骤S2

1,在显著的非平稳情况下,由于环境偏差和指数状态空间计算,累积奖励如下:其中,γ为步长折扣因子;步骤S2

2,根据可观的局部历史动作

观测经验序列来编码动作轨迹,目标是生成策略π(a|s)

exp{Q(s
t
,a
t
)},将局部轨迹的动作

观测历史作为输入,并估计产生一个联合动作;步骤S2

3,假设经验序列中应对风险所执行的建议动作的遍历联合概率分布为:使得随机策略π(x)=(π1,π2,

)满足的条件转移概率,则存在唯一的归一化分布使得近似成立,即:步骤S2

4,对于可观测空间(S,A),初始的吉布斯抽样序列为X
n
=(x
i
:i=1,2,

,n),在t时刻时,根据动作

观测历史生成A
t
(s,u
t

t
),作为最佳响应动作。4.根据权利要求1所述的针对未知开放环境的层级式风控演绎装置系统,其特征在于:其中,所述步骤S3具体包括如下子步骤:步骤S3

1,开放式系统中,假设每个A
t
(s,u
t

t
)均遵循伯努利分布,联合动作空间(u
t

t
)在状态空间s~z
i

j
下的效用值可近似为执动作作观测历史序列τ
t
的效用值总和,则最
...

【专利技术属性】
技术研发人员:洪智铭杨涛吴晓峰胡波
申请(专利权)人:复旦大学义乌研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1