【技术实现步骤摘要】
一种针对未知开放环境的层级式风控演绎装置系统
[0001]本专利技术涉及一种针对未知开放环境的层级式风控演绎装置系统,属于人工智能机器人的
技术介绍
[0002]人工智能领域中,通常从环境认知、行为策略、交互与推理这三大方面来设计自主学习系统,通过持续学习增强其对未知的环境变化的适应能力。人类和许多智能生物解决复杂问题的能力,通常体现为一种从分层认知机制中进行学习的过程,意味着分层的适应性反应在生物学和认知上对自主学习和推理的发展至关重要。
[0003]在真实世界中,构建有效的自主学习不仅需要环境奖励的反馈,还要考虑环境的不确定性,建立对未知环境的有效识别与认知推理是进行自主学习的必要步骤。开放式系统的优势在于智能机器人通过判断当前场景是否存在类似风险特征,并从获得的经验序列中学习,然后再泛化到多模态场景,从而引导某些功能的特定式强化,如机器人探索任务,围棋博弈,形态进化等。分层的预测规划能够基于具有内在动机的连续空间演绎行为,处理稀疏性奖励和充分风险认知之间的平衡,这种新视角在处理大规模状态
‑
动作的稀疏空间决策问题时,有助于找到能够提高总体收益的环境适应性行为,但目前只适用于与之前相同或相近的任务,或是在简单生成域中的任务。
技术实现思路
[0004]本专利技术是为了解决上述问题而进行的,目的在于提供一种针对未知开放环境的层级式风控演绎装置系统,更准确、更快速、更广泛地推断不同环境风险下的层级行为演绎特征。为此,本专利技术提供以下技术方案:
[0005] ...
【技术保护点】
【技术特征摘要】
1.一种针对未知开放环境的层级式风控演绎装置系统,采用鼓励式探索与经验策略相结合的思想,对开放式系统中的随机条件概率分布进行近似,迭代计算中间增量缓冲中的主导优势策略的置信度水平以此构造未知风险环境下的层级自适应行为,其特征在于,包括以下步骤:步骤S1,观测层:导入环境信息的实时采样观测序列;步骤S2,分析层:构建动作观测的历史经验序列;步骤S3,判断层:风险事件触发检测与失效判断;步骤S4,置信层:生成推理模型并更新置信区间;步骤S5,迭代强化层:在复杂多模态系统中进行实物与仿真交叉验证,不断回溯并评估所述置信区间,将所述实时采样观测序列反馈至所述步骤S1内进行重复迭代。2.根据权利要求1所述的针对未知开放环境的层级式风控演绎装置系统,其特征在于:其中,所述步骤S1中的观测序列为去中心化的部分可观察马尔科夫决策链G,其中包括状态s∈S,动作为a∈A,观测采样序列为t时刻依据O(sa):S
×
A
→
Z中状态i
→
j转换的序列,奖励函数R
t
∈R(s,a)与转移条件。3.根据权利要求1所述的针对未知开放环境的层级式风控演绎装置系统,其特征在于:其中,所述步骤S2具体包括如下子步骤:步骤S2
‑
1,在显著的非平稳情况下,由于环境偏差和指数状态空间计算,累积奖励如下:其中,γ为步长折扣因子;步骤S2
‑
2,根据可观的局部历史动作
‑
观测经验序列来编码动作轨迹,目标是生成策略π(a|s)
∝
exp{Q(s
t
,a
t
)},将局部轨迹的动作
‑
观测历史作为输入,并估计产生一个联合动作;步骤S2
‑
3,假设经验序列中应对风险所执行的建议动作的遍历联合概率分布为:使得随机策略π(x)=(π1,π2,
…
)满足的条件转移概率,则存在唯一的归一化分布使得近似成立,即:步骤S2
‑
4,对于可观测空间(S,A),初始的吉布斯抽样序列为X
n
=(x
i
:i=1,2,
…
,n),在t时刻时,根据动作
‑
观测历史生成A
t
(s,u
t
|τ
t
),作为最佳响应动作。4.根据权利要求1所述的针对未知开放环境的层级式风控演绎装置系统,其特征在于:其中,所述步骤S3具体包括如下子步骤:步骤S3
‑
1,开放式系统中,假设每个A
t
(s,u
t
|τ
t
)均遵循伯努利分布,联合动作空间(u
t
|τ
t
)在状态空间s~z
i
→
j
下的效用值可近似为执动作作观测历史序列τ
t
的效用值总和,则最
...
【专利技术属性】
技术研发人员:洪智铭,杨涛,吴晓峰,胡波,
申请(专利权)人:复旦大学义乌研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。