一种基于多智能体强化学习的区块链共识方法及其应用技术

技术编号：39997282 阅读：7 留言：0更新日期：2024-01-09 02:54

本发明专利技术属于物联网和区块链技术领域，具体涉及区块链共识方法在物联网领域的应用。一种基于多智能体强化学习的区块链共识方法，包括：步骤1：构建多智能体强化学习模型，多智能体强化学习所需的基本元素包括智能体、动作、状态、环境以及奖励函数；步骤2：构建适用于区块链共识算法的问题场景，作为多智能体强化学习模型的环境；步骤3：多智能体强化学习模型与环境进行交互，以进行训练；步骤4：将训练完成的多智能体强化学习模型实际部署以用于实现区块链共识。本发明专利技术采用了多智能体强化学习的方法实现了一种物联网区块链共识方法，解决物联网中无线节点之间的通信问题，既保证了非常公平的信道使用，同时也提高了信道的利用率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于物联网和区块链，具体涉及区块链共识方法在物联网领域的应用。

技术介绍

1、物联网技术可以将大量设备连接起来，以便在无需人工干预的情况下自动协同工作。物联网设备可以生成不同类型的数据以服务于不同的目的。比如自动化工业系统，智能物流系统，电子健康系统和其他类似的智能服务系统是通过大规模复杂的物联网技术实现的，以实现自动化和优化，以获得更好的服务质量和资源利用。然而，这些优势也有相应的成本。复杂、互联、异构的网络容易受到网络攻击。处理智能设备生成的非结构化数据、更高标准的数据采集、通过通用协议将异构数据集成到一个统一的系统中，以及工业网络的访问控制是智能系统面临的一些关键挑战。

2、传统的集中式网络，如蓝牙、蜂窝网和wifi等，都是通过基站等中心化节点设施对用户的需求信息进行统一调配处理，所有信息都要汇总到中心节点，信息流拥挤，耗能较大。随着物联网技术的进一步发展，传统集中式网络就无法保障物与物之间的高效协同通信。如何缓解集中式网络的通信压力，是当前物联网技术面临的新挑战。

3、区块链是一种分布式账本技术，为交易和合同的制作和记录提供了一种安全的方式。它是共识驱动的，提供高度安全、不变和加密的记录保存机制。物联网可以从分布式账本技术中显著受益，用于数据交换、访问控制和管理。区块链消除了对中央服务器的需求，并为物联网提供了高数据可用性、安全性、透明性和不变性。区块链技术通过提供物联网数据完整性，为解决传统物联网问题提供了可能。

4、区块链技术包括点对点通信、共识算法、分布式存储技术、加密

技术实现思路

1、为了应对以上挑战，提高区块链共识算法的信道利用率，本专利技术提出了一种基于多智能体强化学习的区块链共识算法，在应用多智能体强化学习后提出了一个信道利用情况指标用以衡量公平性并以此来设计奖励，使得各个智能体能够学到最优策略，实现兼顾公平性的同时信道利用率也能达到最大。

2、本专利技术采用的技术方案是：一种基于多智能体强化学习的区块链共识方法，包括：

3、步骤1：构建多智能体强化学习模型，多智能体强化学习所需的基本元素包括智能体、动作、状态，环境以及奖励函数；

4、步骤2：构建适用于区块链共识算法的问题场景，作为多智能体强化学习模型的环境；

5、步骤3：多智能体强化学习模型与环境进行交互，以进行训练；

6、步骤4：将训练完成的多智能体强化学习模型实际部署以用于实现区块链共识。

7、进一步地，所述多智能体强化学习模型的构建包括智能体、动作、状态、环境以及奖励函数的构建，具体为：

8、(1)、构建多智能体强化学习的智能体：构建n个智能体，每个智能体作为区块链中的一个验证器，只能观测到公共的信道状态以及自身的状态；每个智能体i包含两个神经网络，分别为：

9、策略网络，πi(·|si；θi)，输入为每个智能体的状态si，输出是一个向量，该向量的每个元素对应一个动作的概率，做决策的时候，根据该向量做随机抽样得到动作ai，也就是在某一时间轮的初始阶段应采取的动作；

10、价值网络，q(si，ai；wi)，通过输入状态si以及动作ai，输出为对应的对于策略网络表现的评估值，用于指导策略网络的更新，而价值网络本身的更新依赖于奖励函数的反馈；

11、(2)构建智能体的动作：在每一时间轮t中，每个智能体i根据各自概率抽样后，选择动作：

12、

13、其中，每个智能体i有pi的概率采取发送信息的动作或者有1-pi的概率采取侦听信道的动作ai(t)为发送信息的动作和侦听信道的动作的集合；

14、(3)、构建多智能体强化学习所需状态：

15、如果某一时间轮中只有一个智能体选择了发送消息，而其他智能体都选择了侦听信道，那么本轮选举领导人成功，信道也被成功利用，因此被定义为成功轮ts，更新智能体的信道利用情况指标si(ts)：

16、

17、si(ts)描述的是智能体i距离上次自身成功被选为领导人之后经历了多少成功轮的间隔；其中，i代表智能体的id，ts代表训练过程中迭代轮次t中领导人选举成功的轮次；

18、每一个智能体i在本地维护一个全局信道利用情况指标表用以计算

19、

20、其中，为平均信道利用情况；n为智能体的数量；

21、(4)构建多智能体强化学习的环境：

22、每一个时间轮t内，每个智能体计算自身做出发送信息和侦听信道的动作的概率，然后根据概率进行抽样做出动作；在所有智能体都做完动作之后，信道的状态记作c(t)：

23、

24、(5)构建智能体奖励函数：

25、如果一个智能体i在时间轮t的ai(t)＝1，则简记它的si(ts)为sa，每个智能体从自身本地的全局信道利用情况指标表格更新中得知sa，奖励函数为：

26、对于每一个智能体i来说，在某一时间轮t，如果在执行完动作后侦听到信道状态即c(t)＝1：此时信道不为空而且恰好只有一个智能体发送信息，而其他智能体选择侦听信道，那么本轮可以视为领导人选举成功；此时，如果被选为领导人的智能体满足：则所有智能体都将获得奖励1；反之，被选为领导人的智能体满足：则给该智能体一个惩罚-1，同时也惩罚满足的智能体。

27、进一步优选的，适用于区块链共识算法的问题场景用于计算信道的使用状态，以供所述多智能体强化学习模型进行训练，其构建方法为：将n无线通信节点任意部署在一个二维欧氏空间中，并且节点所在的网络是同步单跳网络，以半双工模式传输；网络中的时间被划分为同步轮；分别用u和v来表示当前轮中发送信息的发射机和侦听信道的接收机；定义b为当前轮的所有发射机的集合；则发射机对于接收机的传输模型如下：

28、

29、

30、其中，signal(v)是接收机收到的信号强度,sinr(u，v)是发射机发射信号的信噪比，b为b中的任意发射机；d(b，v)是发射机和接收机之间的欧几里得距离,pb是发射机的发射功率,ρ∈(2，6]是路径损耗指数,n是环境噪声；其中ρ和n都是环境决定的；当sinr(u，v)≥m时，代表接收机能解码来自发射机的信号，说明信道被成功使用；反之sinr(u，v)＜m时，代表则信道传输失败本文档来自技高网...

【技术保护点】

1.一种基于多智能体强化学习的区块链共识方法，其特征在于，包括：

2.根据权利要求1所述的基于多智能体强化学习的区块链共识方法，其特征在于，所述多智能体强化学习模型的构建方法为：

3.根据权利要求2所述的基于多智能体强化学习的区块链共识方法，其特征在于，适用于区块链共识算法的问题场景用于计算信道的信噪比，以供所述多智能体强化学习模型进行交互训练，其构建方法为：

4.根据权利要求3所述的基于多智能体强化学习的区块链共识方法，其特征在于，所述多智能体强化学习模型与环境交互，进行训练，更新自己的网络参数，具体为：

5.根据权利要求4所述的基于多智能体强化学习的区块链共识方法，其特征在于，策略网络的参数更新方法包括：

6.根据权利要求4所述的基于多智能体强化学习的区块链共识方法，其特征在于，价值网络的参数更新，使用强化学习中的SARSA算法，具体为：

7.一种如权利要求1-6任一项所述的基于多智能体强化学习的区块链共识方法的应用，其特征在于：该方法应用于物联网中，实现无线节点之间的分布式信道竞争。

【技术特征摘要】

1.一种基于多智能体强化学习的区块链共识方法，其特征在于，包括：

2.根据权利要求1所述的基于多智能体强化学习的区块链共识方法，其特征在于，所述多智能体强化学习模型的构建方法为：

4.根据权利要求3所述的基于多智能体强化学习的区块链共识方法，其特征在于，所述多智能体强...

【专利技术属性】
技术研发人员：邹逸飞，于东晓，金宗景，成秀珍，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人