训练样本构建方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:26173119 阅读:31 留言:0更新日期:2020-10-31 13:54
本发明专利技术公开了一种训练样本构建方法、装置、设备及计算机可读存储介质,该方法包括以下步骤:获取第一参与方的本地训练样本,并将本地训练样本转换成预设的数据形式,得到本地训练样本对应的本地样本表征;接收第二参与方发送的非重叠样本表征;基于非重叠样本表征中的各表征数据以及本地样本表征中的各表征数据,计算本地样本表征对应的补充样本表征;将补充样本表征加入至所述本地样本表征中,得到补全样本表征,并基于补全样本表征参与纵向联邦学习。本发明专利技术补全第一参与方的本地训练样本,使训练样本中的重叠部分增加,增加了参与纵向联邦学习的训练样本,解决了由于两个参与方之间的重叠样本较少导致计算机系统的计算效率低的问题。

Training sample construction method, device, equipment and computer-readable storage medium

【技术实现步骤摘要】
训练样本构建方法、装置、设备及计算机可读存储介质
本专利技术涉及机器学习
,尤其涉及一种训练样本构建方法、装置、设备及计算机可读存储介质。
技术介绍
随着人工智能的发展,人们为解决数据孤岛的问题,提出了“联邦学习”的概念,使得联邦学习中的参与方在不用给出己方数据的情况下,也可进行模型训练得到模型参数,并且可以避免数据隐私泄露的问题。联邦学习是为了在保护数据隐私的情况下利用多个参与方的数据建立健壮的机器学习模型。其中,纵向联邦学习是通过样本对齐技术找到所有参与方的重叠样本,并利用这些重叠样本对模型进行训练,以此建立机器学习模型。但是,由于训练模型的重叠样本较少,因此大量的非重叠样本不能用于训练联邦学习模型,导致所训练的纵向联邦学习模型收敛速度慢,进而需要花费的大量的计算资源,导致计算机系统的计算效率低,这在一定程度上限制了纵向联邦学习应用于更广泛的场景。上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
本专利技术的主要目的在于提供一种训练样本构建方法、装置、设备及计算机可本文档来自技高网...

【技术保护点】
1.一种训练样本构建方法,其特征在于,所述训练样本构建方法应用于第一参与方,所述训练样本构建方法包括以下步骤:/n获取所述第一参与方的本地训练样本,并将所述本地训练样本转换成预设的数据形式,得到本地训练样本对应的本地样本表征;/n接收第二参与方发送的非重叠样本表征,其中,所述非重叠样本表征为所述第二参与方将第二参与方本地训练样本中的非重叠训练样本转换成与所述第一参与方的所述本地样本表征相同的数据形式后得到的;/n基于所述非重叠样本表征中的各表征数据以及所述本地样本表征中的各表征数据,计算所述本地样本表征对应的补充样本表征;/n将所述补充样本表征加入至所述本地样本表征中,得到补全样本表征,并基于...

【技术特征摘要】
1.一种训练样本构建方法,其特征在于,所述训练样本构建方法应用于第一参与方,所述训练样本构建方法包括以下步骤:
获取所述第一参与方的本地训练样本,并将所述本地训练样本转换成预设的数据形式,得到本地训练样本对应的本地样本表征;
接收第二参与方发送的非重叠样本表征,其中,所述非重叠样本表征为所述第二参与方将第二参与方本地训练样本中的非重叠训练样本转换成与所述第一参与方的所述本地样本表征相同的数据形式后得到的;
基于所述非重叠样本表征中的各表征数据以及所述本地样本表征中的各表征数据,计算所述本地样本表征对应的补充样本表征;
将所述补充样本表征加入至所述本地样本表征中,得到补全样本表征,并基于所述补全样本表征参与纵向联邦学习。


2.如权利要求1所述的训练样本构建方法,其特征在于,所述第一参与方的所述本地训练样本包括样本特征,所述本地样本表征为所述样本特征对应的本地样本特征表征,
所述基于所述非重叠样本表征中的各表征数据以及所述本地样本表征中的各表征数据,计算所述本地样本表征对应的补充样本表征的步骤包括:
基于所述非重叠样本特征表征与所述本地样本特征表征,确定所述非重叠样本特征表征的各表征数据与所述本地样本特征表征的各表征数据之间的相似度权重,其中,所述非重叠样本表征为非重叠样本特征对应的非重叠样本特征表征;
基于所述相似度权重对所述本地样本特征表征的各样本表征进行加权求和,得到所述本地样本表征对应的补充样本表征。


3.如权利要求2所述的训练样本构建方法,其特征在于,所述接收第二参与方发送的非重叠样本表征的步骤之后,还包括:
基于所述非重叠样本特征表征中的各表征数据以及所述本地训练样本中样本标签的各标签数据,计算所述样本标签对应的补充样本标签;
所述基于所述相似度权重对所述本地样本特征表征的各样本表征进行加权求和,得到所述本地样本表征对应的补充样本表征的步骤之后,还包括:
将所述补充样本特征表征加入至所述本地样本表征中,得到补全样本特征表征,以及将所述补充样本标签加入至所述样本标签中,得到所述样本标签对应的补全样本标签;
基于所述补全样本特征表征和所述补全样本标签,参与纵向联邦学习。


4.如权利要求1所述的训练样本构建方法,其特征在于,所述第一参与方的所述本地训练样本包括样本特征,所述本地样本表征为所述样本特征对应的本地样本特征表征,
所述获取所述第一参与方的本地训练样本,并将所述本地训练样本转换成预设的数据形式,得到本地训练样本对应的本地样本表征的步骤包括:
获取所述本地训练样本,并根据所述本地训练样本的数据类型确定第一特征转换模型;
将所述本地训练样本中的样本特征输入至所述第一特征转换模型,以供所述第一特征转换模型将所述样本特征转换成预设的数据形式,得到本地样本特征表征。


5.如权利要求1所述的训练样本构建方法,其特征在于,所述基于所述补全样本表征参与纵向联邦学习的步骤包括:
将所述补全样本表征输入至第一模型,得到第一中间结果,其中,所述第一模型与所述第一参与方相对应;
将所述第一中间结果发送至所述第二参与方,以供所述第二参...

【专利技术属性】
技术研发人员:康焱
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1