一种多域多层级跨链网络协同方法及装置制造方法及图纸

技术编号:36606071 阅读:21 留言:0更新日期:2023-02-04 18:28
本发明专利技术公开了一种多域多层级跨链网络协同方法及装置,方法包括:获取跨链网络协同信息,根据每个跨链网络协同信息,计算出其对于其他跨链网络的跨链权重值;根据所述协同信息划分跨链网络的区域以及层级,形成多层级的活动功能、要素集合以及多区域的活动功能、要素集合;将每个区域当作一个多智能体,采用多智能体链接跨链网络中的多区域的活动功能、要素集合,形成以域划分的多智能体跨链网络集群;将以域划分的多智能体跨链网络集群输入训练好的多智能体模型,得到各个区域的跨链网络的最佳域权重值;将多层级的活动功能、要素集合输入训练好的分层强化学习模型,得到各个层级的跨链网络的最佳层级权重值;确定最终的跨链网络协同结果。网络协同结果。网络协同结果。

【技术实现步骤摘要】
一种多域多层级跨链网络协同方法及装置


[0001]本专利技术属于区块链跨链网络协同
,涉及一种多域多层级跨链网络协同方法及装置。

技术介绍

[0002]区块链从本质上讲,它是一个共享数据库,存储于其中的数据或信息,具有“不可伪造、全程留痕、可以追溯、公开透明、集体维护”等特征。基于这些特征,区块链技术奠定了坚实的“信任”基础,创造了可靠的“合作”机制,具有广阔的运用前景。
[0003]在区块链所面临的诸多问题中,链与链之间的互通性缺失很大程度限制了区块链的应用空间。跨链主要包括信息跨链和价值跨链两种应用场景,跨链互操作协议的严谨描述、规范实现和普遍应用将成为实现“价值互联网”的关键。区块链跨链互操作技术提供了同构和异构区块链之间的信息交互和价值流转服务,可以满足区块链应用的业务扩展性需求。
[0004]传统的区块链跨链网络协同,如公证人机制、通过引入侧链以及中继链和哈希锁定等,都是通过判断所述业务协同请求的类型以及是否满足智能合约的执行条件,来进行跨链交互的。
[0005]现有技术存在以下缺陷:当跨链网络是多层以及多区域的情况下,这些方法就会无法动态跟踪实际情况的变化,也就不能正确进行跨链协同操作,会产生异常,因此跨链网络协同方法还有待提升。

技术实现思路

[0006]目的:针对现有技术存在的问题及需求,引入一种基于多智能体分层强化学习的多域多层级跨链网络协同系统和方法。基于多级跨链网络建立分层强化学习的跨链系统功能协同模式,构建双向协同秩序,采用任务、需求驱动的漏斗式双向多级分层强化学习策略,自顶而下面向跨链系统性能优化协同多维功能,自底而上响应跨链业务需求协同多维功能。同时采用多智能体链接跨链网络中的多区域活动功能以及要素集合,设计智能体协同动作与奖励,采用中心化学习、去中心化决策的方式训练协同智能体,实现跨链系统群体协同下的便捷高性能协作。
[0007]技术方案:为解决上述技术问题,本专利技术采用的技术方案为:
[0008]第一方面,提供一种多域多层级跨链网络协同方法,包括:
[0009]获取跨链网络协同信息,其中,所述协同信息包括协同数据、所述协同数据所在的区块链的层级号、协同类型、所在区域、跨链交互次数、基础权重以及业务需求;
[0010]根据每个跨链网络协同信息中的跨链交互次数和基础权重,计算出其对于其他跨链网络的跨链权重值H;
[0011]根据所述协同信息划分跨链网络的区域以及层级,基于跨链业务需求以及跨链网络真实所在区域进行归类以及划分,形成多层级的活动功能、要素集合以及多区域的活动
功能、要素集合;
[0012]将每个区域当作一个多智能体,采用多智能体链接跨链网络中的多区域的活动功能、要素集合,形成以域划分的多智能体跨链网络集群;
[0013]将所述以域划分的多智能体跨链网络集群输入训练好的多智能体模型,根据所述多智能体模型的输出,得到各个区域的跨链网络的最佳域权重值;
[0014]将所述多层级的活动功能、要素集合输入训练好的分层强化学习模型,根据所述多智能体模型的输出,得到各个层级的跨链网络的最佳层级权重值;
[0015]基于各个区域的跨链网络的最佳域权重值和各个层级的跨链网络的最佳层级权重值,确定最终的跨链网络协同结果。
[0016]在一些实施例中,根据每个跨链网络协同信息中的跨链交互次数和基础权重,计算出其对于其他跨链网络的跨链权重值H,包括:
[0017][0018][0019][0020]其中f(a)为跨链频次辅助函数,g(b)为权重辅助函数;a为跨链网络x对于其他跨链网络的交互次数,p为跨链网络x本身的交互次数和其发起的交互次数之和;k为x的基础权重,b为x交互的跨链网络权重之和。
[0021]在一些实施例中,所述多智能体模型的构建方法包括:
[0022]所述多智能体模型采用MAPPO算法,采用actor

critic架构,是一个中心化值函数。
[0023]采用中心化学习、去中心化决策;
[0024]智能体各自有各自的策略网络,训练的时候有一个中央控制器,中央控制器收集所有智能体的观测、动作、以及奖励,中央控制器帮助智能体训练策略网络,训练结束之后,每个智能体根据自己的观测,用自己的策略网络做决策,不需要跟中央控制器通信;
[0025]系统利用n个智能体,每个智能体(Actor)上有一个策略网络,智能体跟环境交互,从环境中获得信息要素,智能体自己做决策得到动作a
i
,然后执行a
i
,训练的时候需要中央控制器,智能体跟中央控制器通信,把动作、观测和奖励发送给中央控制器;
[0026]中央控制器有所有智能体的信息以及n个价值网络Critic
i
,每个价值网络都对应一个智能体,在中央网络训练价值网络并使用时间差分算法更新训练结果;
[0027]训练结束之后不需要中央控制器了,每个智能体独立跟环境交互,智能体从局部环境观测到o
i
,每个智能体都有自己的决策网络,将观察作为输入,策略网络会输出一个动作概率分布,根据概率分布选择动作a
i
,每个智能体执行自己的动作a
i
,然后环境会改变状态。
[0028]在一些实施例中,所述分层强化学习模型的构建方法包括:
[0029]所述分层强化学习模型采用Option

Critic架构;
[0030]建立基于goal的分层强化学习,
[0031]上层区块链网络构建上层控制器,训练准则是让输出的goal尽可能满足我们所设定的语义信息,即让目标尽可能符合较好的状态/状态转移方向;
[0032]下层区块链网络构建下层控制器,而下层控制器的训练准则是让环境状态转移尽可能地满足目标;
[0033]为此,上层区块链网络会传递给下层区块链网络一个内部奖励驱动下层区块链网络完成目标,而上层区块链网络通常依据外部环境奖励进行训练;
[0034]因此,上层区块链网络与下层区块链网络实际上是分开训练的;通过赋予goal一定的语义信息,同时依据此语义信息设计合理的内部奖励,即便是在外部奖励十分稀疏的情况下,也能够保证下层区块链网络获得一定的内部激励,从而使得智能体能够更加高效地学习到最优策略,提升样本的使用效率。
[0035]在一些实施例中,基于各个区域的跨链网络的最佳域权重值和各个层级的跨链网络的最佳层级权重值,确定最终的跨链网络协同结果,包括:
[0036][0037]其中Result为跨链网络协同结果,H
s
、H
L
分别为每个跨链网络的最佳域权重值、最佳层级权重值,H为一个跨链网络对于其他跨链网络的跨链权重值。
[0038]第二方面,本专利技术提供了一种多域多层级跨链网络协同装置,包括:
[0039]协同信息获取模块,被配置为:获取跨链网络协同信息,其中,所述协本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多域多层级跨链网络协同方法,其特征在于,包括:获取跨链网络协同信息,其中,所述协同信息包括协同数据、所述协同数据所在的区块链的层级号、协同类型、所在区域、跨链交互次数、基础权重以及业务需求;根据每个跨链网络协同信息中的跨链交互次数和基础权重,计算出其对于其他跨链网络的跨链权重值H;根据所述协同信息划分跨链网络的区域以及层级,基于跨链业务需求以及跨链网络真实所在区域进行归类以及划分,形成多层级的活动功能、要素集合以及多区域的活动功能、要素集合;将每个区域当作一个多智能体,采用多智能体链接跨链网络中的多区域的活动功能、要素集合,形成以域划分的多智能体跨链网络集群;将所述以域划分的多智能体跨链网络集群输入训练好的多智能体模型,根据所述多智能体模型的输出,得到各个区域的跨链网络的最佳域权重值;将所述多层级的活动功能、要素集合输入训练好的分层强化学习模型,根据所述多智能体模型的输出,得到各个层级的跨链网络的最佳层级权重值;基于各个区域的跨链网络的最佳域权重值和各个层级的跨链网络的最佳层级权重值,确定最终的跨链网络协同结果。2.根据权利要求1所述的多域多层级跨链网络协同方法,其特征在于,根据每个跨链网络协同信息中的跨链交互次数和基础权重,计算出其对于其他跨链网络的跨链权重值H,包括:括:括:其中f(a)为跨链频次辅助函数,g(b)为权重辅助函数;a为跨链网络x对于其他跨链网络的交互次数,p为跨链网络x本身的交互次数和其发起的交互次数之和;k为x的基础权重,b为x交互的跨链网络权重之和。3.根据权利要求1所述的多域多层级跨链网络协同方法,其特征在于,所述多智能体模型的构建方法包括:所述多智能体模型采用MAPPO算法,采用actor

critic架构,是一个中心化值函数;采用中心化学习、去中心化决策;智能体各自有各自的策略网络,训练的时候有一个中央控制器,中央控制器收集所有智能体的观测、动作、以及奖励,中央控制器帮助智能体训练策略网络,训练结束之后,每个智能体根据自己的观测,用自己的策略网络做决策,不需要跟中央控制器通信;系统利用n个智能体,每个智能体Actor上有一个策略网络,智能体跟环境交互,从环境中获得信息要素,智能体自己做决策得到动作a
i
,然后执行a
i
,训练的时候需要中央控制器,智能体跟中央控制器通信,把动作、观测和奖励发送给中央控制器;
中央控制器有所有智能体的信息以及n个价值网络Critic
i
,每个价值网络都对应一个智能体,在中央网络训练价值网络并使用时间差分算法更新训练结果;训练结束之后不需要中央控制器了,每个智能体独立跟环境交互,智能体从局部环境观测到o
i
,每个智能体都有自己的决策网络,将观察作为输入,策略网络会输出一个动作概率分布,根据概率分布选择动作a
i
,每个智能体执行自己的动作a
i
,然后环境会改变状态。4.根据权利要求1所述的多域多层级跨链网络协同方法,其特征在于,所述分层强化学习模型的构建方法包括:所述分层强化学习模型采用Option

Critic架构;建立基于goal的分层强化学习,上层区块链网络构建上层控制器,训练准则是让输出的goal尽可能满足我们所设定的语义信息,即让目标尽可能符合较好的状态/状态转移方向;下层区块链网络构建下层控制器,而下层控制器的训练准则是让环境状态转移尽可...

【专利技术属性】
技术研发人员:亓晋虞赟淼董振江孙雁飞陈滏媛陈根鑫许斌
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1