基于知识联邦的多端模型压缩方法、任务预测方法、装置及电子设备制造方法及图纸

技术编号:26651279 阅读:13 留言:0更新日期:2020-12-09 00:52
本发明专利技术公开了一种基于知识联邦的多端模型压缩方法、任务预测方法、装置及电子设备,其中多端模型压缩方法包括:将多个参与方上报的第N轮训练后的本地模型进行聚合得到全局待压缩模型,所述N大于或等于1;采用公共数据集基于预设性能指标对所述全局待压缩模型进行压缩,得到全局压缩模型,所述预设性能指标用于表征全局压缩模型在进行预测时的性能指标,所述公共数据集是通过对所述多个参与方的数据进行数据增强后得到的;将所述全局压缩模型发送至所述多个参与方以进行N+1轮训练。

【技术实现步骤摘要】
基于知识联邦的多端模型压缩方法、任务预测方法、装置及电子设备
本专利技术涉及人工智能
,具体涉及到一种多端模型压缩方法、任务预测方法、装置及电子设备。
技术介绍
随着人工智能(AI)走向成熟,人们见识到了人工智能(AI)在复杂应用场景下的巨大潜力。例如无人汽车驾驶、医疗保健、金融数据分析等等。人们希望探索人工智能更深层次的优势,提升模型的鲁棒性和准确性。当前对人工智能的兴趣是由大数据所驱动的:2016年,AlphaGo总共使用了300,000个棋局作为训练数据,以取得出色的成绩。有了AlphaGo的成功,人们自然希望,像AlphaGo这样的大数据驱动型AI能够在我们生活的各个方面早日实现。但是,现实世界中的情况有些令人失望:除少数行业外,大多数领域的数据有限或数据质量较差。当今的AI仍然面临两个主要挑战。一是在大多数行业中,数据以孤立的孤岛形式存在。另一个是加强数据隐私和安全性。如何合理地解决AI行业数据孤岛和数据安全问题是AI研究人员和从业人员面临的主要挑战。基于知识联邦的多端联合训练的方式作为解决上述问题的一种解决方案,能够保证隐私数据不进行交换的前提下,多个参与方之间合作建立全局模型,使得全局模型能够得到充分的训练。以知识联邦中的模型层联邦为例,模型层联邦可以在实现多个参与方之间合作建立全局模型的前提下能够加强数据隐私和安全性以及解决数据孤岛问题。然而,在对模型进行训练时,由于多方参与训练,需要频繁的通信和加密数据交换,因而带来了对于通信量的巨大挑战。并且,随着数据量以及参与方数量的增加,模型会越来越复杂,在模型训练和模型预测的过程中所需的传播数据会越来越多,通信压力会变的越来越大,进而导致模型训练的效率会大大下降。因此,如何提高基于知识联邦中模型训练的效率成为亟待解决的技术问题。
技术实现思路
本专利技术实施例要解决的技术问题为如何提高基于知识联邦的模型训练效率。根据第一方面,本专利技术实施例提供了一种基于知识联邦的多端模型压缩方法,包括:将多个参与方上报的第N轮训练后的本地模型进行聚合得到全局待压缩模型,N大于或等于1;采用公共数据集基于预设性能指标对全局待压缩模型进行压缩,得到全局压缩模型,预设性能指标用于表征全局压缩模型在进行预测时的性能指标,公共数据集是通过对多个参与方的数据进行数据增强后得到的;将全局压缩模型发送至多个参与方以进行N+1轮训练。可选地,采用公共数据集基于预设准确率对全局待压缩模型进行压缩,得到全局压缩模型包括:基于剪枝算法利用公共数据集对全局待压缩模型进行剪枝,得到全局压缩模型。可选地,服务方基于剪枝算法利用公共数据集对压缩模型进行剪枝操作,得到全局压缩模型包括:利用公共数据集对全局待压缩模型的当前全局参数进行更新得到全局待压缩模型的更新梯度;利用更新梯度确定全局待压缩模型的神经元的贡献度,贡献度用于表征神经元的激活程度;保留满足预设条件的神经元作为所述全局压缩模型,所述预设条件包括预设贡献度阈值和/或神经元数量比例。可选地,利用公共数据集对全局待压缩模型的当前全局参数进行更新得到全局待压缩模型的更新梯度包括:利用公共数据集对全局待压缩模型的进行向前传播和反向传播,得到更新梯度。可选地,利用全局更新参数确定全局待压缩模型的神经元的贡献度包括:根据更新梯度确定神经元的权重值梯度;基于权重值梯度计算神经元的贡献度。可选地,在采用公共数据集基于预设准确率对全局待压缩模型进行压缩和将全局压缩模型发送至多个参与方以进行N+1轮训练之间包括:利用公共数据集对全局压缩模型进行测试,得到全局压缩模型的第一性能指标;计算第一性能指标相对于全局待压缩模型的第二性能指标的性能衰减值,第二性能指标为利用公共数据集对全局待压缩压缩模型进行测试得到;当性能衰减值大于预设衰减值时,重复采用公共数据集基于预设准确率对全局待压缩模型进行压缩的步骤,直至性能衰减值小于或等于预设衰减值,进入步骤将全局压缩模型发送至多个参与方以进行N+1轮训练。可选地,将多个参与方上报的第N轮训练后的本地模型进行聚合得到全局待压缩模型包括:对参与方上报的本地模型和本地模型参数进行聚合,得到全局模型和全局模型参数;向参与方下发聚合后全局模型和全局模型参数,完成一轮训练;判断训练次数是否达到N次;当训练次数达到N次,将完成第N轮训练后的全局模型作为全局待压缩模型。根据第二方面,本专利技术实施例提供了一种任务预测方法,包括:获取待预测任务数据;将待预测任务数据输入至知识联邦的模型中得到预测结果,其中知识联邦的模型采用上述第一方面任意一项多端模型压缩方法得到。根据第三方面,本专利技术实施例提供了一种基于知识联邦的多端模型压缩装置,包括:聚合模块,用于将多个参与方上报的第N轮训练后的本地模型进行聚合得到全局待压缩模型,N大于或等于1;压缩模块,用于采用公共数据集基于预设性能指标对全局待压缩模型进行压缩,得到全局压缩模型,预设性能指标用于表征全局压缩模型在进行预测时的性能指标,公共数据集是通过对多个参与方的数据进行数据增强后得到的;发送模块,用于将全局压缩模型发送至多个参与方以进行N+1轮训练。根据第四方面,本专利技术实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行上述第一方面任意一项的多端模型压缩方法和/或第二方面任意一项的任务预测方法。根据第五方面,本专利技术实施例提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行上述第一方面任意一项的多端模型压缩方法和/或第二方面任意一项的任务预测方法。通过将模型的压缩设置在服务方,服务方在接收到参与方上传的本地模型之后,对其进行聚合,利用部署在服务方的公共数据集预设性能指标对全局待压缩模型进行压缩,由于服务方是对多个参与方的本地模型进行聚合,利用通过对多个参与方的数据进行数据增强后得到的公共数据集在服务方对聚合后的模型统一进行压缩,相比于分布在各个参与方最大限度的对模型的结构和/或参数进行压缩的同时保持模型精度不变,在压缩的过程中能够模拟所有参与方的数据特征,可以使得压缩后的模型对于多个参与方的数据都能保持较好泛化能力,在提升压缩率的同时可以避免由于各个参与方的数据分布不同导致的不同的参与方得到的剪枝后模型不同,再聚合时不同模型的交集较小导致的压缩比例较小的问题。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了本专利技术实施例的基于知识联邦的多端模型压缩方法的示意图;图2示出了本专利技术实施例的多端模型压缩方法的示意图;图3示出了本专利技术实施例模型压缩效果本文档来自技高网
...

【技术保护点】
1.一种基于知识联邦的多端模型压缩方法,其特征在于,包括:/n将多个参与方上报的第N轮训练后的本地模型进行聚合得到全局待压缩模型,所述N大于或等于1;/n采用公共数据集基于预设性能指标对所述全局待压缩模型进行压缩,得到全局压缩模型,所述预设性能指标用于表征全局压缩模型在进行预测时的性能指标,所述公共数据集是通过对所述多个参与方的数据进行数据增强后得到的;/n将所述全局压缩模型发送至所述多个参与方以进行N+1轮训练。/n

【技术特征摘要】
1.一种基于知识联邦的多端模型压缩方法,其特征在于,包括:
将多个参与方上报的第N轮训练后的本地模型进行聚合得到全局待压缩模型,所述N大于或等于1;
采用公共数据集基于预设性能指标对所述全局待压缩模型进行压缩,得到全局压缩模型,所述预设性能指标用于表征全局压缩模型在进行预测时的性能指标,所述公共数据集是通过对所述多个参与方的数据进行数据增强后得到的;
将所述全局压缩模型发送至所述多个参与方以进行N+1轮训练。


2.如权利要求1所述的多端模型压缩方法,其特征在于,所述采用公共数据集基于预设准确率对所述全局待压缩模型进行压缩,得到全局压缩模型包括:
基于剪枝算法利用公共数据集对所述全局压缩模型进行剪枝,得到所述全局压缩模型。


3.如权利要求1所述的多端模型压缩方法,其特征在于,所述服务方基于剪枝算法利用公共数据集对所述压缩模型进行剪枝操作,得到所述全局压缩模型包括:
利用所述公共数据集对所述全局待压缩模型的当前全局参数进行更新得到所述全局待压缩模型的更新梯度;
利用所述更新梯度确定所述全局待压缩模型的神经元的贡献度,所述贡献度用于表征神经元的激活程度;
保留满足预设条件的神经元作为所述全局压缩模型,所述预设条件包括预设贡献度阈值和/或神经元数量比例。


4.如权利要求3所述的多端模型压缩方法,其特征在于,所述利用所述公共数据集对所述全局待压缩模型的当前全局参数进行更新得到所述全局待压缩模型的更新梯度包括:
利用所述公共数据集对所述全局待压缩模型的进行向前传播和反向传播,得到所述更新梯度。


5.如权利要求3或4所述的多端模型压缩方法,其特征在于,利用所述全局更新参数确定所述全局待压缩模型的神经元的贡献度包括:
根据所述更新梯度确定神经元的权重值梯度;
基于所述权重值梯度计算神经元的贡献度。


6.如权利要求1所述的多端模型压缩方法,其特征在于,在所述采用公共数据集基于预设准确率对所述全局待压缩模型进行压缩和所述将所述全局压缩模型发送至所述多个参与方以进行N+1轮训练之间包括:
利用所述公共数据集对所述...

【专利技术属性】
技术研发人员:韦达孟丹李宏宇李晓林
申请(专利权)人:同盾控股有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1