基于联邦学习的银行与政务之间的数据处理系统和方法技术方案

技术编号:35578556 阅读:14 留言:0更新日期:2022-11-12 16:04
本发明专利技术公开一种基于联邦学习的银行与政务之间的数据处理系统和方法。本发明专利技术包括将银行数据与政务数据存储到联邦学习系统;对银行数据与政务数据进行预处理;将银行数据与政务数据各自真实的特征名进行加密;将加密后的银行数据与政务数据进行数据对齐;将对齐后的数据,根据所需要的规范进行特征工程;将处理后的各自数据进行同态加密获取各自的训练数据;发起方构建基于银行端和政务端的初步联邦学习模型;两端分别将各自训练数据输入到联邦学习系统中进行联合训练建模生成最终的联邦学习模型;利用生成的联邦学习模型对实际业务数据进行联合预测并返回结果到发起方。本发明专利技术解决当前面临的数据孤岛效应,采用数据本地不出门也能进行联合建模。门也能进行联合建模。门也能进行联合建模。

【技术实现步骤摘要】
基于联邦学习的银行与政务之间的数据处理系统和方法


[0001]本专利技术涉及金融风险控制应用领域,提出一种基于联邦学习的银行与政务之间的数据处理系统和方法。

技术介绍

[0002]目前银行机构对风险的预测主要还是依靠专家经验以及根据专家经验所写的规则。往往依靠人的主观判断对风险进行预判。这种专家经验所方式固有的缺点是,无法很好的利用积累大批量的数据进行数据的发掘和建模。如果想对银行机构积累的数据进行数据的发掘和建模,同时又存在数据不足的问题。如果想与政务数据进行数据融合提升模型效果,当下又存在数据隐私保护问题。
[0003]近年来,国内外在逐步加强数据保护,《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》、《数据安全管理办法(征求意见稿)》等政策的相继发布标志着我国在数据安全合规领域有法可依,个人的信息将在法律监管依据下得到更加全面的保护。法律法规的出台,并非意味着对数据的流通和企业间合作的禁锢,而是为数据要素市场提供更加透明、有序和安全的环境。因此如何在保证数据安全合规地前提下利用政务数据更好地服务本地金融机构、市民、企业成为了政府亟需解决的问题。
[0004]联邦学习是一种新的机器学习和深度学习方法,能够有效帮助多个机构或合作方在满足用户数据隐私保护、数据安全及政府法规的要求下,进行安全合规的数据使用和机器学习和深度学习建模,从而解决明文数据无法出域、联合查询成本高、建模样本少、标签少、模型精度由于样本质量难以提升等问题。通过搭建联邦学习能力平台,在保证数据隐私安全及合法合规的基础上,实现共同建模,提升联合建模的效果,支持数据提供方、数据应用方在无需共享或交换各自敏感数据的情况下基于进行联合建模,确保数据“可用不可见”。
[0005]利用银行所积累的数据进行风险预测的机器学习和深度学习建模,同时又想要合理合法合规的利用政务数据提升模型的效果,需要一种有效、可实现的方法。

技术实现思路

[0006]针对上述问题,本专利技术的目的在于提出一种基于联邦学习的银行与政务之间的数据处理系统和方法,用以解决上述金融风险控制领域机器学习和深度学习建模过程中遇到的数据安全和数据不足的问题。
[0007]基于联邦学习的银行与政务之间的数据处理方法,具体步骤包括:
[0008]步骤1:将银行数据与政务数据存储到联邦学习系统中;
[0009]步骤2:对银行数据与政务数据进行预处理,具体包括数据的筛选、清洗、ID值设置;进一步的,预处理需要条件基于联邦学习算法和机器学习算法、深度学习算法以及业务需要的数据规范限制;
[0010]步骤3:将银行数据与政务数据的各自真实的特征名进行加密;
[0011]步骤4:将特征名加密后的银行数据与政务数据进行数据对齐;将对齐后的数据,根据机器学习算法、深度学习算法所需要的规范进行特征工程;
[0012]步骤5:将经过步骤4处理后的各自数据进行同态加密,从而获取各自的训练数据;
[0013]步骤6:发起方利用机器学习模型或深度学习模型构建基于银行端和政务端的初步联邦学习模型;银行端和政务端分别将各自训练数据输入到联邦学习系统中进行联合训练建模,并最终生成联邦学习模型;
[0014]步骤7:利用步骤6生成的联邦学习模型,对实际业务数据进行联合预测;将预测结果返回到发起方。
[0015]进一步的,步骤3中对银行数据和政务数据的真实特征名进行加密后得到加密后的密文特征名,并且映射加密后的密文特征名与真实的特征名;在整个后续训练步骤中所使用的特征名均为加密后的密文特征名。
[0016]进一步的,所述步骤5中对银行数据和政务数据进行同态加密,并且加密后的数据保存在各自的联邦学习系统的数据存储模块中;在整个后续训练步骤中所使用的数据均为同态加密后的密文数据;所述步骤4中数据对齐,是根据银行数据和政务数据的各自的ID进行两次hash算法进行数据对齐。
[0017]进一步的,所述步骤6中的联邦学习模型具体包括:银行端和政务端拥有各自的半模型、银行端所设置的模型类型、联邦学习模型训练参数,且模型训练参数在银行数据端和政务数据端是一致的。
[0018]进一步的,所述步骤6中的联合建模具体包括:银行端根据自身的数据进行本地的半模型训练,政务端根据自身的数据进行本地的半模型训练,各自训练完毕后在联邦学习系统中进行整个联邦学习模型的损失计算,银行端和政务端根据整个联邦学习模型的损失求得各自的梯度并且进行各自半模型的更新。
[0019]进一步的,所述步骤6和步骤7中的发起方是指:拥有样本标签的那一方,是银行端或政务端。
[0020]基于联邦学习的银行与政务之间的数据处理系统,该系统包括数据存储模块、数据预处理模块、数据加密和数据对齐模块、数据特征工程模块、同态加密模块、模型构建与训练模块和模型推理模块;
[0021]数据存储模块:配置用于将银行数据与政务数据存储到联邦学习系统中;
[0022]数据预处理模块:用于对银行数据与政务数据进行预处理,具体包括数据的筛选、清洗、ID值设置;且预处理需要条件基于联邦学习算法和机器学习算法、深度学习算法以及业务需要的数据规范限制;
[0023]数据加密和数据对齐模块:配置用于将银行数据与政务数据的各自真实特征名进行加密,以及将特征名加密后的银行数据与政务数据进行数据对齐;
[0024]数据特征工程模块:用于将对齐后的数据,根据机器学习算法、深度学习算法所需要的规范进行特征工程;
[0025]同态加密模块:将经过数据特征工程模块处理后得到的数据进行同态加密,从而获取各自的训练数据;
[0026]模型构建与训练模块:发起方利用机器学习模型或深度学习模型构建基于银行端和政务端的初步联邦学习模型;银行端和政务端分别将各自训练数据输入到联邦学习系统
中进行联合训练建模,并最终生成联邦学习模型;
[0027]模型推理模块:利用生成的联邦学习模型,对实际业务数据进行联合预测;将预测结果返回到发起方。
[0028]进一步的,在具体实施中,步骤4中对银行数据和政务数据进行同态加密,并且加密后的数据保存在各自的联邦学习节点的内存中。在整个后续步骤中所使用的数据均为同态加密后的密文数据。所述数据对齐,是根据银行数据和政务数据的各自的ID进行两次hash算法进行数据对齐。
[0029]本专利技术打破了数据孤岛效应,采用数据本地不出门也可以进行联合建模。解决当前面临的数据孤岛效应,在保证数据隐私安全的前提下使得数据可用而不可见。同时采用的联邦学习方法而产生的联合建模模型与数据本地融合而训练得出的模型是等效的。银行可以根据自身的数据条件和政务数据的条件,灵活的配置模型参数进行模型训练迭代,并最终生成基于联邦学习的风控模型,用于预测银行未来的风险。
附图说明
[0030]为了更好的阐述本专利技术的技术方案,将对实施方式中所需要的附图作简单的介绍,同时附图作为本说明书的一部分。
[0031]图1是本专利技术一个实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于联邦学习的银行与政务之间的数据处理方法,其特征在于,包括:步骤1:将银行数据与政务数据存储到联邦学习系统中;步骤2:对银行数据与政务数据进行预处理,具体包括数据的筛选、清洗、ID值设置;进一步的,预处理需要条件基于联邦学习算法和机器学习算法、深度学习算法以及业务需要的数据规范限制;步骤3:将银行数据与政务数据的各自真实的特征名进行加密;步骤4:将特征名加密后的银行数据与政务数据进行数据对齐;将对齐后的数据,根据机器学习算法、深度学习算法所需要的规范进行特征工程;步骤5:将经过步骤4处理后的各自数据进行同态加密,从而获取各自的训练数据;步骤6:发起方利用机器学习模型或深度学习模型构建基于银行端和政务端的初步联邦学习模型;银行端和政务端分别将各自训练数据输入到联邦学习系统中进行联合训练建模,并最终生成联邦学习模型;步骤7:利用步骤6生成的联邦学习模型,对实际业务数据进行联合预测;将预测结果返回到发起方。2.根据权利要求1所述基于联邦学习的银行与政务之间的数据处理方法,其特征在于步骤3中对银行数据和政务数据的真实特征名进行加密后得到加密后的密文特征名,并且映射加密后的密文特征名与真实的特征名;在整个后续训练步骤中所使用的特征名均为加密后的密文特征名。3.根据权利要求1所述基于联邦学习的银行与政务之间的数据处理方法,其特征在于所述步骤5中对银行数据和政务数据进行同态加密,并且加密后的数据保存在各自的联邦学习系统的数据存储模块中;在整个后续训练步骤中所使用的数据均为同态加密后的密文数据;所述步骤4中数据对齐,是根据银行数据和政务数据的各自的ID进行两次hash算法进行数据对齐。4.根据权利要求1所述基于联邦学习的银行与政务之间的数据处理方法,其特征在于所述步骤6中的联邦学习模型具体包括:银行端和政务端拥有各自的半模型、银行端所设置的模型类型、联邦学习模型训练参数,且模型训练参数在银行数据端和政务数据端是一致的。5.根据权利要求1所述基于...

【专利技术属性】
技术研发人员:丁阳光沈超锋陈勇谌纪超
申请(专利权)人:安徽科讯金服科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1