集成学习的训练数据量和报酬确定方法以及相关设备技术

技术编号：39039189 阅读：19 留言：0更新日期：2023-10-10 11:52

本申请实施例公开了一种集成学习的训练数据量和报酬确定方法、集成服务器以及计算机可读存储介质，用于在最大化集成学习模型的精确度和最小化支付给各个终端设备的报酬，并能够自适应决策并激励具有不同计算和通信成本的终端设备参与到集成学习中的情况下，确定集成学习的各个终端设备的训练数据量和报酬。本申请实施例方法包括：确定参与集成学习的每个终端设备的初始训练数据量和初始报酬，利用激励算法，按照决策顺序对每个终端设备的初始训练数据量和初始报酬进行N轮迭代的决策，得到每轮迭代对应的决策结果，将决策结果满足预设收敛条件的每个终端设备对应的训练数据量和报酬作为每个终端设备对应的目标训练数据量和目标报酬。和目标报酬。和目标报酬。

全部详细技术资料下载

【技术实现步骤摘要】
集成学习的训练数据量和报酬确定方法以及相关设备

[0001]本申请实施例涉及集成学习的训练数据量和报酬的确定领域，更具体的，是集成学习的训练数据量和报酬确定方法、集成服务器以及计算机可读存储介质。

技术介绍

[0002]集成学习是一种新型的面向人工智能和机器学习的群体智能技术，在金融、医疗、交通等多个领域都得到了广泛应用。典型的集成学习通过训练多个机器学习模型，联合多个模型的预测确定最终的预测结果，能够有效提高机器学习的模型性能和鲁棒性。然而，训练多个神经网络模型通常消耗大量的时间和计算资源，尤其当训练数据集和模型较大时，集成学习的模型训练时间过长。一种有效的解决方法为分布式集成学习，通过将单个模型的训练任务分配到不同的计算设备上，通过多个模型的并行训练，能够高效利用分布式计算设备的计算资源实现快速模型训练。
[0003]现有的集成学习的训练数据量和报酬确定方法是，集成学习服务器(集成服务器)随机确定每个参与集成学习的终端设备各自对应的训练数据量，并确定每个终端设备的单位资源的报酬为统一的报酬，针对分布式的每个终端设备，基于终端设备的训练数据量和统一的单位资源的报酬，确定需要支付给终端设备的最终报酬，使每个终端设备利用各自给定的训练数据量并行训练神经网络模型。并且，由于神经网络模型的性能与训练数据量息息相关，通常来讲，训练数据量越大，模型性能越好，但是需要支付给分布式的终端设备的报酬也越多，因此，集成服务器往往会给各个终端设备的训练数据量会较多。
[0004]但是，不同的分布式的终端设备通常具有不同的...

【技术保护点】

【技术特征摘要】
1.一种集成学习的训练数据量和报酬确定方法，其特征在于，包括：确定参与集成学习的每个终端设备的初始训练数据量和初始报酬；利用激励算法，按照决策顺序对每个终端设备的初始训练数据量和初始报酬进行N轮迭代的决策，得到每轮迭代对应的决策结果；其中，所述激励算法为基于每个终端设备的计算和通信成本确定的，用于决策每个终端设备对应的训练数据量和报酬，以使得在N轮迭代后集成学习模型的精确性达到最大值及支付给各个终端设备的报酬达到最小值的目标；所述迭代对应的决策结果包括每个终端设备对应的训练数据量和报酬；所述N为大于或等于1的整数；将决策结果满足预设收敛条件的每个终端设备对应的训练数据量和报酬作为每个终端设备对应的目标训练数据量和目标报酬；其中，每个终端设备对应的目标训练数据量用于各自训练每个终端设备对应的本地模型；且每个终端设备对应的目标报酬为每个终端设备基于对应的目标训练数据量训练本地模型所得的报酬；以获得每个终端设备对应的训练完成的本地模型，并将每个终端设备对应的训练完成的本地模型进行集成处理得到所述集成学习模型，并根据所述集成学习模型预测待预测数据。2.根据权利要求1所述的方法，其特征在于，所述利用激励算法，按照决策顺序对每个终端设备的初始训练数据量和初始报酬进行N轮迭代的决策，得到每轮迭代对应的决策结果之前，所述方法还包括：获得每个终端设备对应的总成本，所述总成本包括计算成本和通信成本；将各个终端设备的总成本按照成本从低到高的顺序进行排序，并将所述成本从低到高的顺序确定为所述决策顺序。3.根据权利要求1所述的方法，其特征在于，所述利用激励算法，按照决策顺序对每个终端设备的初始训练数据量和初始报酬进行N轮迭代的决策，得到每轮迭代对应的决策结果，包括：对于第1轮迭代，基于每个终端设备的初始训练数据量和初始报酬确定第1轮迭代对应的目标激励算法；并利用所述第1轮迭代对应的目标激励算法，按照所述决策顺序依次对每个终端设备的初始训练数据量和初始报酬进行第1轮迭代，得到第1轮迭代对应的决策结果；所述第1轮迭代对应的决策结果包括每个终端设备对应的第1轮迭代后的训练数据量和报酬；对于第n轮迭代，基于每个终端设备的第n
‑
1轮迭代后的训练数据量和报酬确定第n轮迭代对应的目标激励算法；并利用所述第n轮迭代对应的目标激励算法，按照决策顺序对每个终端设备对应的第n
‑
1轮迭代后的训练数据量和报酬进行第n轮迭代，得到第n轮迭代对应的决策结果；所述第n轮迭代对应的决策结果包括每个终端设备对应的第n轮迭代后的训练数据量和报酬；其中2≤n≤N。4.根据权利要求3所述的方法，其特征在于，所述对于第1轮迭代，基于每个终端设备的初始训练数据量和初始报酬确定第1轮迭代对应的目标激励算法；并利用所述第1轮迭代对应的目标激励算法，按照所述决策顺序依轮对每个终端设备的初始训练数据量和初始报酬进行第1轮迭代，得到第1轮迭代对应的决策结果，包括：对于第1轮迭代的第1个决策的终端设备，基于每个终端设备的初始训练数据量和初始报酬确定第1轮迭代的第1个决策的终端设备对应的目标激励算法；并利用所述第1轮迭代
的第1个决策的终端设备对应的目标激励算法，对所述第1个决策的终端设备进行第1轮迭代的决策，得到第1轮迭代对应的所述第1个决策的终端设备的决策结果；对于第1轮迭代的第m个决策的终端设备，基于所述第1个决策的终端设备至第m
‑
1个决策的终端设备各自对应的第1轮迭代对应的训练数据量和报酬，及第m个决策的终端设备至第M个决策的终端设备各自对应的初始训练数据量和初始报酬，确定第1轮迭代的第m个决策的终端设备对应的目标激励算法；并利用所述第1轮迭代的第m个决策的终端设备对应的目标激励算法，对所述第m个决策的终端设...

【专利技术属性】
技术研发人员：黄超，汉鹏超，黄建伟，
申请(专利权)人：香港中文大学深圳，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人