一种针对未知开放环境的层级式风控演绎装置系统制造方法及图纸

技术编号：36979115 阅读：13 留言：0更新日期：2023-03-25 17:58

本发明专利技术涉及一种针对未知开放环境的层级式风控演绎装置系统，通过微调推理条件随机场转移状态，对开放式系统中的风险随机概率分布进行近似，最大限度地评估主导优势策略的自适应置信水平。本发明专利技术阐明了目标条件政策和预测处理之间的内在关系，迭代计算增量缓冲并以此修改其在开放环境中的应对响应，并使其能够在整个自主学习过程中处理随机性。在开放式环境下，这种分层结构更容易实现，因为该方案的效率更高，消耗的计算量更少。本发明专利技术实现了对环境潜在风险的有效抽象，证明了其在机器人任务中的具备风险预估与推理的实际潜力，进一步提高了探索效率并改善了分层架构的有效性与可解释性。解释性。解释性。

全部详细技术资料下载

【技术实现步骤摘要】
一种针对未知开放环境的层级式风控演绎装置系统

[0001]本专利技术涉及一种针对未知开放环境的层级式风控演绎装置系统，属于人工智能机器人的

技术介绍

[0002]人工智能领域中，通常从环境认知、行为策略、交互与推理这三大方面来设计自主学习系统，通过持续学习增强其对未知的环境变化的适应能力。人类和许多智能生物解决复杂问题的能力，通常体现为一种从分层认知机制中进行学习的过程，意味着分层的适应性反应在生物学和认知上对自主学习和推理的发展至关重要。
[0003]在真实世界中，构建有效的自主学习不仅需要环境奖励的反馈，还要考虑环境的不确定性，建立对未知环境的有效识别与认知推理是进行自主学习的必要步骤。开放式系统的优势在于智能机器人通过判断当前场景是否存在类似风险特征，并从获得的经验序列中学习，然后再泛化到多模态场景，从而引导某些功能的特定式强化，如机器人探索任务，围棋博弈，形态进化等。分层的预测规划能够基于具有内在动机的连续空间演绎行为，处理稀疏性奖励和充分风险认知之间的平衡，这种新视角在处理大规模状态
‑
动作的稀疏空间决策问题时，有助于找到能够提高总体收益的环境适应性行为，但目前只适用于与之前相同或相近的任务，或是在简单生成域中的任务。

技术实现思路

[0004]本专利技术是为了解决上述问题而进行的，目的在于提供一种针对未知开放环境的层级式风控演绎装置系统，更准确、更快速、更广泛地推断不同环境风险下的层级行为演绎特征。为此，本专利技术提供以下技术方案：
[0005]...

【技术保护点】

【技术特征摘要】
1.一种针对未知开放环境的层级式风控演绎装置系统，采用鼓励式探索与经验策略相结合的思想，对开放式系统中的随机条件概率分布进行近似，迭代计算中间增量缓冲中的主导优势策略的置信度水平以此构造未知风险环境下的层级自适应行为，其特征在于，包括以下步骤：步骤S1，观测层：导入环境信息的实时采样观测序列；步骤S2，分析层：构建动作观测的历史经验序列；步骤S3，判断层：风险事件触发检测与失效判断；步骤S4，置信层：生成推理模型并更新置信区间；步骤S5，迭代强化层：在复杂多模态系统中进行实物与仿真交叉验证，不断回溯并评估所述置信区间，将所述实时采样观测序列反馈至所述步骤S1内进行重复迭代。2.根据权利要求1所述的针对未知开放环境的层级式风控演绎装置系统，其特征在于：其中，所述步骤S1中的观测序列为去中心化的部分可观察马尔科夫决策链G，其中包括状态s∈S，动作为a∈A，观测采样序列为t时刻依据O(sa)：S
×
A
→
Z中状态i
→
j转换的序列，奖励函数R
t
∈R(s，a)与转移条件。3.根据权利要求1所述的针对未知开放环境的层级式风控演绎装置系统，其特征在于：其中，所述步骤S2具体包括如下子步骤：步骤S2
‑
1，在显著的非平稳情况下，由于环境偏差和指数状态空间计算，累积奖励如下：其中，γ为步长折扣因子；步骤S2
‑
2，根据可观的局部历史动作
‑
观测经验序列来编码动作轨迹，目标是生成策略π(a|s)
∝
exp{Q(s
t
，a
t
)}，将局部轨迹的动作
‑
观测历史作为输入，并估计产生一个联合动作；步骤S2
‑
3，假设经验序列中应对风险所执行的建议动作的遍历联合概率分布为：使得随机策略π(x)＝(π1，π2，
…
)满足的条件转移概率，则存在唯一的归一化分布使得近似成立，即：步骤S2
‑
4，对于可观测空间(S，A)，初始的吉布斯抽样序列为X
n
＝(x
i
：i＝1，2，
…
，n)，在t时刻时，根据动作
‑
观测历史生成A
t
(s，u
t
|τ
t
)，作为最佳响应动作。4.根据权利要求1所述的针对未知开放环境的层级式风控演绎装置系统，其特征在于：其中，所述步骤S3具体包括如下子步骤：步骤S3
‑
1，开放式系统中，假设每个A
t
(s，u
t
|τ
t
)均遵循伯努利分布，联合动作空间(u
t
|τ
t
)在状态空间s～z
i
→
j
下的效用值可近似为执动作作观测历史序列τ
t
的效用值总和，则最
...

【专利技术属性】
技术研发人员：洪智铭，杨涛，吴晓峰，胡波，
申请(专利权)人：复旦大学义乌研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人