一种去中心化的PoW算力集群部署方法技术

技术编号:32298185 阅读:14 留言:0更新日期:2022-02-12 20:09
本发明专利技术公开了一种去中心化的PoW算力集群部署方法,包括实现DRCCP通讯协议部署的DRCCP通讯流程,该通讯流程包括集群初始化、建立通讯、请求同步、责任声明、故障迁移、请求转发和集群停机。与现有技术相比,本发明专利技术使集群内的各计算节点可以自主协调数据同步,并自动进行故障迁移,有效减少了节点数量,在实现容错性能的前提下降低了部署成本;同时,通过服务发现形式自主扩容,在横向扩容上能实现更加灵活的效果。的效果。的效果。

【技术实现步骤摘要】
一种去中心化的PoW算力集群部署方法


[0001]本专利技术涉及分布式网络和共识机制领域,特别是涉及一种PoW算力集群设计方案。

技术介绍

[0002]随着深度学习模型的大型化发展,为满足深度学习的高算力需求,分布式技术方案逐渐成为研究热点。在面对深度学习庞大资源池时,能将任务拆分成多个子任务,有效解决传统并行计算中耗时长的问题,实现高速度、高效率的计算效果。在分布式技术方案中,对于算力和处理能力是实现集群方案部署的核心。
[0003]分布式技术方案通常采用主/从和多主架构。在实现有效集群调度的前提下,一方面提高服务的容错性,即当一个节点崩溃时还存在多个节点可以运行,另一方面提高服务的响应速度,即多个节点提供服务,从而有效缓解响应延迟带来的问题,提高系统的承受能力。集群调度模式主要有负载均衡模式、主/从分离模式以及选举模式等。但这些模式都额外需要至少一个主节点(Master/Leader)用于监控集群状态,是一种中心化的算力集群方案。其中主节点(Master/Leader)是调度机制中最关键的环节,承担着集群监控和从节点(Slave)分发等重要职能。在主节点(Master/Leader)节点下线的情况下,集群中的从节点(Slave)将被迫重新选举新的主节点(Master/Leader),此时集群将出现真空期,不利于集群的顺利工作。随着分级数的增加,中心化模式需要增设额外节点,从而导致主节点(Master/Leader)数量也会随着增加,这样不仅浪费了部分节点的处理性能,还需额外对主节点(Master/Leader)进行分配。比如,在选举模式中,全部节点事实上均处于暂停状态,极大程度上延长了节点的等待时间,浪费空闲节点的性能,降低了整体的运行效率,使得部署复杂低效。

技术实现思路

[0004]本专利技术旨在提出了一种去中心化的PoW算力集群部署方法,采用分布式网络设计了一种DRCCP通讯协议和实现DRCCP通讯协议部署的通讯流程。
[0005]本专利技术利用以下技术方案实现:一种去中心化的PoW算力集群部署方法,该方法包括实现DRCCP通讯协议部署的通讯流程,其中,所述字段UID,用于记录消息时间戳,以保证在运行期间不重复;所述字段TYPE,用于记录消息类型,以描述消息的发送目的和接受者的行为,其取值至少为HEART请求、ALIVE请求、SYNC请求、RECOVER请求、FAIL请求以及MEET

PING

PONG请求;所述字段DATA,用于记录传输数据;该通讯流程具体包括以下步骤:步骤1:集群初始化,确定DRCCP通讯协议的报文格式以及具体字段格式,以去中心化为标准构建集自主协调数据同步、自动故障迁移、分布式一致性为一体的分布式DRCCP通讯协议;步骤2:建立通讯,通过MEET

PING

PONG在主机和集群间建立通讯;步骤3:请求同步,节点向其他节点发送同步请求;
步骤4:责任声明,节点对提案进行责任声明;步骤5:故障迁移,通过设计的PoW共识算法实现节点故障迁移;所述PoW共识算法,实现了将故障迁移分为集群侧和节点侧,当节点发送的HEART请求未得到回复时,开启一个FAIL提案,强制发送心跳HEART监测请求,随后,按照回复统计支持票数,若支持票数过半,判定节点下线,使用空闲节点或重复连接继续运作;步骤6:请求转发,利用节点转移非负责的hash值;步骤7:集群停机,接受STOP消息,停止集群工作。
[0006]与现有技术相比,本专利技术使集群内的各计算节点可以自主协调数据同步,并自动进行故障迁移,有效减少了节点数量,在实现容错性能的前提下降低了部署成本;同时,通过服务发现形式自主扩容,在横向扩容上能实现更加灵活的效果。
附图说明
[0007]图1为本专利技术的一种去中心化的PoW算力集群部署方法整体方案示意图;图2为本专利技术的通讯流程整体流程示意图;图3为本专利技术的建立通讯流程图;图4为本专利技术的请求同步流程图;图5为本专利技术的责任声明流程图;图6为本专利技术的故障迁移流程图,(6a)集群侧,(6b)节点侧。
具体实施方式
[0008]以下结合附图和具体实施例对本专利技术的技术方案进行详细说明。
[0009]如图1所示,为本专利技术的一种去中心化的PoW算力集群部署方法整体方案示意图。本专利技术整体方案分为DRCCP通讯协议和实现DRCCP通讯协议部署的DRCCP通讯流程两个部分。其中,所述DRCCP协议作为以去中心化为标准构建了一种集自主协调数据同步、自动故障迁移、分布式一致性为一体的分布式通讯协议,实现了集群的实时同步和故障迁移。所述DRCCP通讯流程包括建立通讯、请求同步、责任声明、故障迁移和请求转发,实现节点自动请求同步和故障迁移。部署DRCCP通讯协议的DRCCP通讯流程基于PoW共识算法来实现。所述PoW共识算法,实现了将故障迁移分为集群侧和节点侧,当节点发送的HEART请求未得到回复时,开启一个FAIL提案,强制发送心跳HEART监测请求。随后,按照回复统计支持票数,若支持票数过半,判定节点下线,使用空闲节点或重复连接继续运作。
[0010]一、DRCCP通讯协议所述DRCCP通讯协议的报文格式包括三个字段:UID、TYPE和DATA。分别对这三个字段进行说明如下:(一)字段UID记录每一条消息的时间戳,以保证在运行期间不重复。字段UID在操作次数递增的情况下不会减少,这使得具有序关系的两个操作在任何情况下均保持原本的序关系,且可保证已发生的事件不会被回退。节点利用字段UID报文格式,通过追加消息的方式认可该消息,维护日志的一致性,有助于实现PoW共识。该字段UID是80位的10进制数字。
[0011](二)字段TYPE
记录每一条消息的类型,用于区分消息的发送目的和接受者的行为,其取值有HEART、ALIVE、SYNC、RECOVER、FAIL、MEET

PING

PONG等等。对于不同类型的消息类型,UID编号也会做出相应的变化。
[0012](三)字段DATA记录实际传输的数据。对于不同类型的消息,数据存在不同的格式。
[0013]二、DRCCP通讯流程,实现了对各部分设计了通讯流程和对应的日志记录规则,也为主机对于不同类型消息的回复制定了规则。如图2所示,为基于DRCCP通讯协议的通讯流程示意图,包括以下步骤:步骤1:集群初始化,确定通讯协议的报文格式以及具体字段格式;步骤2:建立通讯,通过MEET

PING

PONG在主机和集群间建立通讯;步骤3:请求同步,节点向其他节点发送RECOVER 以请求同步;步骤4:责任声明,节点通过DECLARE对提案进行责任声明;步骤5:故障迁移,通过设计的共识算法实现节点故障迁移;步骤6:请求转发,节点可以转移非负责的hash值;步骤7:集群停机,接受STOP消息,停止集群工作。
[0014]上述DRCCP通讯流程的具体处理如下:步骤1、集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种去中心化的PoW算力集群部署方法,其特征在于,该方法包括实现DRCCP通讯协议部署的通讯流程,所述DRCCP通讯协议的报文格式包括字段UID、字段TYPE和字段DATA三个字段,其中,所述字段UID,用于记录消息时间戳,以保证在运行期间不重复;所述字段TYPE,用于记录消息类型,以描述消息的发送目的和接受者的行为,其取值至少为HEART请求、ALIVE请求、SYNC请求、RECOVER请求、FAIL请求以及MEET

PING

PONG请求;所述字段DATA,用于记录传输数据;该通讯流程具体包括以下步骤:步骤1:集群初始化,确定DRCCP通讯协议的报文格式以及具体字段格式,以去中心化为标准构建集自主协调数据同步、自动故障迁移、分布式一致性为一体的分布式DRCCP通讯协议;步骤2:建立通讯,通过MEET

PING

PONG在主机和集群间建立通讯;步骤3:请求同步,节点向其他节点发送同步请求;步骤4:责任声明,节点对提案进行责任声明;步骤5:故障迁移,通过设计的PoW共识算法实现节点故障迁移;所述PoW共识算法,实现了将故障迁移分为集群侧和节点侧,当节点发送的HEART请求未得到回复时,开启一个FAIL提案,强制发送心跳HEART监测请求,随后,按照回复统计支持票数,若支持票数过半,判定节点下线,使用空闲节点或重复连接继续运作;步骤6:请求转发,利用节点转移非负责的hash值;步骤7:集群停机,接受STOP消息,停止集群工作。2.如权利要求1所述的一种去中心化的PoW算力集群部署方法,其特征在于,所述步骤2还具体包括以下步骤:主机向任意一个集群中的结点发送MEET消息,任意节点收到后如同意加入集群则回复PING,如多个结点回复,则仅接受最先到达的节点请求并回复PING消息确认,当发送PONG消息后,超过2倍等待时间无异常,自动视为主机加入集群,介绍节点收到PONG消息后,更新集群节点列表,并向集群发送SYNC消息声明新节点,其中,日志记录规则为PONG消息同步至集群消息队列。3.如权利要求1所述的一种去中心化的PoW算力集群部署方法,其特征在于,所述步骤3还具体包括以下步骤:待同步节点向全体节点发送RECOVER消息请求同步,其他节点收到后回复SYNC消息,包含全部的增量消息,任何情况下,节点收到SY...

【专利技术属性】
技术研发人员:宋乐吉祥宇焦宏通惠一航于鑫慧刘子祯杨国涛武晟祥杨诗宇李国良
申请(专利权)人:天津大学四川创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1