基于联邦学习的知识迁移方法、装置、设备及介质制造方法及图纸

技术编号:24094085 阅读:37 留言:0更新日期:2020-05-09 09:26
本申请公开了一种基于联邦学习的知识迁移方法、装置、设备和介质,所述基于联邦学习的知识迁移方法包括:接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型,对各所述强化学习适配模型进行联邦处理,获得联邦模型,对所述联邦模型进行适配,获得联邦适配模型,将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。本申请解决了知识迁移效率低的技术问题。

Knowledge transfer methods, devices, devices and media based on Federated learning

【技术实现步骤摘要】
基于联邦学习的知识迁移方法、装置、设备及介质
本申请涉及金融科技(Fintech)的机器学习
,尤其涉及一种基于联邦学习的知识迁移方法、装置、设备及介质。
技术介绍
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。随着计算机软件和人工智能的不断发展,机器学习建模的应用也越来越广泛,在现有技术中,强化学习训练模型通常利用自身收集的数据进行学习、优化和控制,强化学习训练模型的知识也是可迁移的,例如,将无人车的控制知识迁移到扫地机器人的控制上,目前,通常是通过离线的迁移模型进行强化学习训练模型的知识的迁移,但是,这种离线迁移的方法在训练过程中需要花费大量的训练时间,进而导致强化学习训练模型的知识迁移效率极低,且导致训练过程中消耗的计算资源和传输资源过高,所以,现有技术中存在知识迁移效率低的技术问题。
技术实现思路
本申请的主要目的在于提供一种基于联邦学习的知识迁移方法、装置、设备和介质,旨在解决现有技术中知识迁移效率低的技术问题。为实现上述目的,本申请提供一种基于联邦学习的知识迁移方法,所述基于联邦学习的知识迁移方法应用于基于联邦学习的知识迁移设备,所述基于联邦学习的知识迁移方法包括:接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型;对各所述强化学习适配模型进行联邦处理,获得联邦模型;对所述联邦模型进行适配,获得联邦适配模型;将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。可选地,所述对各所述强化学习训练模型进行适配,获得强化学习适配模型的步骤包括:获取各所述强化学习训练模型的模型输入和模型输出;对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型。可选地,所述模型输入包括环境参数,所述模型输出包括模型控制变量,所述对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型的步骤包括:对各所述环境参数进行量纲校正,获得模型输入校正结果;对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果;基于所述模型输入校正结果和所述模型输出校正结果,获取所述强化学习适配模型。可选地,所述对各所述环境参数进行量纲校正,获得模型输入校正结果的步骤包括:获取预设标准环境参数,并将各所述环境参数与所述预设标准环境参数进行比对,获得环境参数差异度;基于各所述环境参数差异度,对各所述环境参数进行量纲校正,获得所述模型输入校正结果。可选地,所述对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果的步骤包括:对各所述控制变量进行对齐处理,获得对齐处理结果;获取预设标准控制变量,并基于所述预设标准控制变量和所述对齐处理结果对各所述控制变量进行量纲校正,获得模型输出校正结果。可选地,所述对所述联邦模型进行适配,获得联邦适配模型的步骤包括:获取各所述强化学习训练模型的训练任务;基于所述训练任务,对所述联邦模型的输入和输出进行适配,获得所述联邦适配模型。可选地,所述对各所述强化学习适配模型进行联邦处理,获得联邦模型的步骤包括:获取各所述强化学习适配模型的模型参数,并对各所述模型参数进行加权平均,获得联邦模型参数;基于所述联邦模型参数,获取所述联邦模型。本申请还提供一种基于联邦学习的知识迁移装置,所述基于联邦学习的知识迁移装置为虚拟装置,且所述基于联邦学习的知识迁移装置应用于基于联邦学习的知识迁移设备,所述基于联邦学习的知识迁移装置包括:第一适配模块,用于所述接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型;联邦模块,用于所述对各所述强化学习适配模型进行联邦处理,获得联邦模型;第二适配模块,用于所述对所述联邦模型进行适配,获得联邦适配模型;发送模块,用于所述将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。可选地,所述第一适配模块包括:第一获取子模块,用于所述获取各所述强化学习训练模型的模型输入和模型输出;校正子模块,用于所述对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型。可选地,所述校正子模块包括:第一校正单元,用于所述对各所述环境参数进行量纲校正,获得模型输入校正结果;第二校正单元,用于所述对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果;获取单元,用于所述基于所述模型输入校正结果和所述模型输出校正结果,获取所述强化学习适配模型。可选地,所述第一校正单元包括:比对子单元,用于所述获取预设标准环境参数,并将各所述环境参数与所述预设标准环境参数进行比对,获得环境参数差异度;第一校正子单元,用于所述基于各所述环境参数差异度,对各所述环境参数进行量纲校正,获得所述模型输入校正结果。可选地,所述第二校正单元包括:对齐子单元,用于所述对各所述控制变量进行对齐处理,获得对齐处理结果;第二校正子单元,用于所述获取预设标准控制变量,并基于所述预设标准控制变量和所述对齐处理结果对各所述控制变量进行量纲校正,获得模型输出校正结果。可选地,所述第二适配模块包括:第二获取子模块,用于所述获取各所述强化学习训练模型的训练任务;适配子模块,用于所述基于所述训练任务,对所述联邦模型的输入和输出进行适配,获得所述联邦适配模型。可选地,所述联邦模块包括:加权平均子模块,用于所述获取各所述强化学习适配模型的模型参数,并对各所述模型参数进行加权平均,获得联邦模型参数;第三获取子模块,用于所述基于所述联邦模型参数,获取所述联邦模型。本申请还提供一种基于联邦学习的知识迁移设备,所述基于联邦学习的知识迁移设备为实体设备,所述基于联邦学习的知识迁移设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述基于联邦学习的知识迁移方法的程序,所述基于联邦学习的知识迁移方法的程序被处理器执行时可实现如上述的基于联邦学习的知识迁移方法的步骤。本申请还提供一种介质,所述介质为可读存储介质,所述介质上存储有实现基于联邦学习的知识迁移方法的程序,所述基于联邦学习的知识迁移方法的程序被处理器执行时实现如上述的基于联邦学习的知识迁移方法的步骤。本申请首先接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型,进而对各所述强化学习适配模型进行联邦处理,获得联邦模型,进而对所述联邦模型进行适配,获得联邦适配模型,进而将各所述联邦适配模型发送本文档来自技高网...

【技术保护点】
1.一种基于联邦学习的知识迁移方法,其特征在于,所述基于联邦学习的知识迁移方法包括:/n接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型;/n对各所述强化学习适配模型进行联邦处理,获得联邦模型;/n对所述联邦模型进行适配,获得联邦适配模型;/n将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。/n

【技术特征摘要】
1.一种基于联邦学习的知识迁移方法,其特征在于,所述基于联邦学习的知识迁移方法包括:
接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型;
对各所述强化学习适配模型进行联邦处理,获得联邦模型;
对所述联邦模型进行适配,获得联邦适配模型;
将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。


2.如权利要求1所述基于联邦学习的知识迁移方法,其特征在于,所述对各所述强化学习训练模型进行适配,获得强化学习适配模型的步骤包括:
获取各所述强化学习训练模型的模型输入和模型输出;
对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型。


3.如权利要求2所述基于联邦学习的知识迁移方法,其特征在于,所述模型输入包括环境参数,所述模型输出包括模型控制变量,
所述对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型的步骤包括:
对各所述环境参数进行量纲校正,获得模型输入校正结果;
对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果;
基于所述模型输入校正结果和所述模型输出校正结果,获取所述强化学习适配模型。


4.如权利要求3所述基于联邦学习的知识迁移方法,其特征在于,所述对各所述环境参数进行量纲校正,获得模型输入校正结果的步骤包括:
获取预设标准环境参数,并将各所述环境参数与所述预设标准环境参数进行比对,获得环境参数差异度;
基于各所述环境参数差异度,对各所述环境参数进行量纲校正,获得所述模型输入校正结果。


5.如权利要求3所述基于联邦学习的知识迁移方法,其特征在于,所述对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果的步骤包括:
对各所述控制变量进行对齐处理,获得对齐处理结果;
获取预设标准控制变量,并基于所述预设标准控制变量和所述...

【专利技术属性】
技术研发人员:梁新乐刘洋陈天健董苗波
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1