集成学习的训练数据量和报酬确定方法以及相关设备技术

技术编号:39039189 阅读:19 留言:0更新日期:2023-10-10 11:52
本申请实施例公开了一种集成学习的训练数据量和报酬确定方法、集成服务器以及计算机可读存储介质,用于在最大化集成学习模型的精确度和最小化支付给各个终端设备的报酬,并能够自适应决策并激励具有不同计算和通信成本的终端设备参与到集成学习中的情况下,确定集成学习的各个终端设备的训练数据量和报酬。本申请实施例方法包括:确定参与集成学习的每个终端设备的初始训练数据量和初始报酬,利用激励算法,按照决策顺序对每个终端设备的初始训练数据量和初始报酬进行N轮迭代的决策,得到每轮迭代对应的决策结果,将决策结果满足预设收敛条件的每个终端设备对应的训练数据量和报酬作为每个终端设备对应的目标训练数据量和目标报酬。和目标报酬。和目标报酬。

【技术实现步骤摘要】
集成学习的训练数据量和报酬确定方法以及相关设备


[0001]本申请实施例涉及集成学习的训练数据量和报酬的确定领域,更具体的,是集成学习的训练数据量和报酬确定方法、集成服务器以及计算机可读存储介质。

技术介绍

[0002]集成学习是一种新型的面向人工智能和机器学习的群体智能技术,在金融、医疗、交通等多个领域都得到了广泛应用。典型的集成学习通过训练多个机器学习模型,联合多个模型的预测确定最终的预测结果,能够有效提高机器学习的模型性能和鲁棒性。然而,训练多个神经网络模型通常消耗大量的时间和计算资源,尤其当训练数据集和模型较大时,集成学习的模型训练时间过长。一种有效的解决方法为分布式集成学习,通过将单个模型的训练任务分配到不同的计算设备上,通过多个模型的并行训练,能够高效利用分布式计算设备的计算资源实现快速模型训练。
[0003]现有的集成学习的训练数据量和报酬确定方法是,集成学习服务器(集成服务器)随机确定每个参与集成学习的终端设备各自对应的训练数据量,并确定每个终端设备的单位资源的报酬为统一的报酬,针对分布式的每个终端设备,基于终端设备的训练数据量和统一的单位资源的报酬,确定需要支付给终端设备的最终报酬,使每个终端设备利用各自给定的训练数据量并行训练神经网络模型。并且,由于神经网络模型的性能与训练数据量息息相关,通常来讲,训练数据量越大,模型性能越好,但是需要支付给分布式的终端设备的报酬也越多,因此,集成服务器往往会给各个终端设备的训练数据量会较多。
[0004]但是,不同的分布式的终端设备通常具有不同的计算和通信成本,通过统一的单位资源的报酬简单计算的报酬给不同终端设备(不同计算设备拥有者),可能会导致计算和通信成本较高的设备拥有者不愿参与集成学习模型训练,因此,未考虑各个终端设备的报酬的合理性,不能在最大化集成学习模型的精确度的同时,最小化支付给各个终端设备的报酬,不能够自适应决策并激励具有不同计算和通信成本的终端设备参与到集成学习中。

技术实现思路

[0005]本申请实施例提供了一种集成学习的训练数据量和报酬确定方法、集成服务器以及计算机可读存储介质,能够在最大化集成学习模型的精确度和最小化各个终端设备的报酬,并能够自适应决策并激励具有不同计算和通信成本的终端设备参与到集成学习中的情况下,确定集成学习的各个终端设备的训练数据量和报酬。
[0006]第一方面,本申请实施例提供了一种集成学习的训练数据量和报酬确定方法,包括:
[0007]确定参与集成学习的每个终端设备的初始训练数据量和初始报酬;
[0008]利用激励算法,按照决策顺序对每个终端设备的初始训练数据量和初始报酬进行N轮迭代的决策,得到每轮迭代对应的决策结果;其中,所述激励算法为基于每个终端设备的计算和通信成本确定的,用于决策每个终端设备对应的训练数据量和报酬,以使得在N轮
迭代后集成学习模型的精确性达到最大值及各个终端设备的报酬达到最小值的目标;所述迭代对应的决策结果包括每个终端设备对应的训练数据量和报酬;所述N为大于或等于1的整数;
[0009]将决策结果满足预设收敛条件的每个终端设备对应的训练数据量和报酬作为每个终端设备对应的目标训练数据量和目标报酬;其中,每个终端设备对应的目标训练数据量用于各自训练每个终端设备对应的本地模型;且每个终端设备对应的目标报酬为每个终端设备基于对应的目标训练数据量训练本地模型所得的报酬;以获得每个终端设备对应的训练完成的本地模型,并将每个终端设备对应的训练完成的本地模型进行集成处理得到所述集成学习模型,并根据所述集成学习模型预测待预测数据。
[0010]第二方面,本申请实施例提供了一种集成服务器,包括:
[0011]确定单元,用于确定参与集成学习的每个终端设备的初始训练数据量和初始报酬;
[0012]决策单元,用于利用激励算法,按照决策顺序对每个终端设备的初始训练数据量和初始报酬进行N轮迭代的决策,得到每轮迭代对应的决策结果;其中,所述激励算法为基于每个终端设备的计算和通信成本确定的,用于决策每个终端设备对应的训练数据量和报酬,以使得在N轮迭代后集成学习模型的精确性达到最大值及各个终端设备的报酬达到最小值的目标;所述迭代对应的决策结果包括每个终端设备对应的训练数据量和报酬;所述N为大于或等于1的整数;
[0013]所述确定单元,还用于将决策结果满足预设收敛条件的每个终端设备对应的训练数据量和报酬作为每个终端设备对应的目标训练数据量和目标报酬;其中,每个终端设备对应的目标训练数据量用于各自训练每个终端设备对应的本地模型;且每个终端设备对应的目标报酬为每个终端设备基于对应的目标训练数据量训练本地模型所得的报酬;以获得每个终端设备对应的训练完成的本地模型,并将每个终端设备对应的训练完成的本地模型进行集成处理得到所述集成学习模型,并根据所述集成学习模型预测待预测数据。
[0014]第三方面,本申请实施例提供了一种集成服务器,包括:
[0015]中央处理器,存储器,输入输出接口,有线或无线网络接口以及电源;
[0016]所述存储器为短暂存储存储器或持久存储存储器;
[0017]所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行前述集成学习的训练数据量和报酬确定方法。
[0018]第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质包括指令,当指令在计算机上运行时,使得计算机执行前述集成学习的训练数据量和报酬确定方法。
[0019]第五方面,本申请实施例提供了一种包含指令的计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行前述集成学习的训练数据量和报酬确定方法。
[0020]从以上技术方案可以看出,本申请实施例具有以下优点:可以确定参与集成学习的每个终端设备的初始训练数据量和初始报酬,利用激励算法,按照决策顺序对每个终端设备的初始训练数据量和初始报酬进行N轮迭代的决策,得到每轮迭代对应的决策结果,其中,激励算法为基于每个终端设备的计算和通信成本确定的,用于决策每个终端设备对应的训练数据量和报酬,以使得在N轮迭代后集成学习模型的精确性达到最大值及各个终端
设备的报酬达到最小值的目标,将决策结果满足预设收敛条件的每个终端设备对应的训练数据量和报酬作为每个终端设备对应的目标训练数据量和目标报酬。可以利用集成学习服务器上的激励机制(激励算法),同时考虑集成学习模型的精确度和各个终端设备的报酬的合理性,可以最大化集成学习模型的精确度,且同时最小化支付给各个终端设备的报酬,能够自适应决策并激励具有不同计算和通信成本的终端设备参与到集成学习中。
附图说明
[0021]图1为本申请实施例公开的一种集成学习的训练数据量和报酬确定系统的架构示意图;
[0022]图2为本申请实施例公开的一种集成学习的训练数据量和报酬确定方法的流程示意图;
[0023]图3为本申请实施例公开的一种分布式集成学习激励机制的整体流程示意图;
[0024本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种集成学习的训练数据量和报酬确定方法,其特征在于,包括:确定参与集成学习的每个终端设备的初始训练数据量和初始报酬;利用激励算法,按照决策顺序对每个终端设备的初始训练数据量和初始报酬进行N轮迭代的决策,得到每轮迭代对应的决策结果;其中,所述激励算法为基于每个终端设备的计算和通信成本确定的,用于决策每个终端设备对应的训练数据量和报酬,以使得在N轮迭代后集成学习模型的精确性达到最大值及支付给各个终端设备的报酬达到最小值的目标;所述迭代对应的决策结果包括每个终端设备对应的训练数据量和报酬;所述N为大于或等于1的整数;将决策结果满足预设收敛条件的每个终端设备对应的训练数据量和报酬作为每个终端设备对应的目标训练数据量和目标报酬;其中,每个终端设备对应的目标训练数据量用于各自训练每个终端设备对应的本地模型;且每个终端设备对应的目标报酬为每个终端设备基于对应的目标训练数据量训练本地模型所得的报酬;以获得每个终端设备对应的训练完成的本地模型,并将每个终端设备对应的训练完成的本地模型进行集成处理得到所述集成学习模型,并根据所述集成学习模型预测待预测数据。2.根据权利要求1所述的方法,其特征在于,所述利用激励算法,按照决策顺序对每个终端设备的初始训练数据量和初始报酬进行N轮迭代的决策,得到每轮迭代对应的决策结果之前,所述方法还包括:获得每个终端设备对应的总成本,所述总成本包括计算成本和通信成本;将各个终端设备的总成本按照成本从低到高的顺序进行排序,并将所述成本从低到高的顺序确定为所述决策顺序。3.根据权利要求1所述的方法,其特征在于,所述利用激励算法,按照决策顺序对每个终端设备的初始训练数据量和初始报酬进行N轮迭代的决策,得到每轮迭代对应的决策结果,包括:对于第1轮迭代,基于每个终端设备的初始训练数据量和初始报酬确定第1轮迭代对应的目标激励算法;并利用所述第1轮迭代对应的目标激励算法,按照所述决策顺序依次对每个终端设备的初始训练数据量和初始报酬进行第1轮迭代,得到第1轮迭代对应的决策结果;所述第1轮迭代对应的决策结果包括每个终端设备对应的第1轮迭代后的训练数据量和报酬;对于第n轮迭代,基于每个终端设备的第n

1轮迭代后的训练数据量和报酬确定第n轮迭代对应的目标激励算法;并利用所述第n轮迭代对应的目标激励算法,按照决策顺序对每个终端设备对应的第n

1轮迭代后的训练数据量和报酬进行第n轮迭代,得到第n轮迭代对应的决策结果;所述第n轮迭代对应的决策结果包括每个终端设备对应的第n轮迭代后的训练数据量和报酬;其中2≤n≤N。4.根据权利要求3所述的方法,其特征在于,所述对于第1轮迭代,基于每个终端设备的初始训练数据量和初始报酬确定第1轮迭代对应的目标激励算法;并利用所述第1轮迭代对应的目标激励算法,按照所述决策顺序依轮对每个终端设备的初始训练数据量和初始报酬进行第1轮迭代,得到第1轮迭代对应的决策结果,包括:对于第1轮迭代的第1个决策的终端设备,基于每个终端设备的初始训练数据量和初始报酬确定第1轮迭代的第1个决策的终端设备对应的目标激励算法;并利用所述第1轮迭代
的第1个决策的终端设备对应的目标激励算法,对所述第1个决策的终端设备进行第1轮迭代的决策,得到第1轮迭代对应的所述第1个决策的终端设备的决策结果;对于第1轮迭代的第m个决策的终端设备,基于所述第1个决策的终端设备至第m

1个决策的终端设备各自对应的第1轮迭代对应的训练数据量和报酬,及第m个决策的终端设备至第M个决策的终端设备各自对应的初始训练数据量和初始报酬,确定第1轮迭代的第m个决策的终端设备对应的目标激励算法;并利用所述第1轮迭代的第m个决策的终端设备对应的目标激励算法,对所述第m个决策的终端设...

【专利技术属性】
技术研发人员:黄超汉鹏超黄建伟
申请(专利权)人:香港中文大学深圳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1