数据处理方法、装置和计算机可读存储介质制造方法及图纸

技术编号:30240367 阅读:13 留言:0更新日期:2021-10-09 20:17
本公开涉及一种数据处理方法、装置和计算机可读存储介质,涉及计算机技术领域。本公开的方法包括:标签缺失方接收标签持有方发送的对象的标签信息,标签信息包括:标签持有方加密后的各个标签的标签向量;标签缺失方根据标签信息,利用注意力机制确定本地持有的对象的各项特征相对于标签的重要度;标签缺失方根据各项特征相对于标签的重要度,调整各项特征对应的特征向量;标签缺失方将各项特征调整后的特征向量输入联合模型中标签缺失方所持有的模型进行联邦学习。本公开中标签缺失方根据注意力机制可以激活重要特征,去除无效特征,减小联合模型训练难度,同时提高了联合模型的准确率和训练效率。确率和训练效率。确率和训练效率。

【技术实现步骤摘要】
数据处理方法、装置和计算机可读存储介质


[0001]本公开涉及计算机
,特别涉及一种数据处理方法、装置和计算机可读存储介质。

技术介绍

[0002]不同公司甚至同一公司的不同部门之间,因行业竞争、隐私安全等问题,数据常常是以孤岛的形式存在的。针对数据孤岛和数据隐私的两难问题,基于“联邦学习”的算法可以有效帮助多个机构在满足用户隐私保护、数据安全的要求下,进行数据使用和联合建模。“联邦学习”包括横向联邦、纵向联邦以及迁移联邦。其中纵向联邦学习主要用于用户重叠率较高,而数据特征重叠率较小情况下的联合模型训练。
[0003]纵向联邦学习技术把数据集按照纵向(即特征维度)切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。其将不同特征在加密的状态下加以聚合,进一步增强联合模型预测能力。
[0004]目前,进行联邦学习的双方一般存在一方有标签,另一方缺失标签的情况。

技术实现思路

[0005]专利技术人发现:针对目前联邦学习的双方一方有标签,另一方缺失标签的情况,标签缺失方可能存在大量特征数据,但是并不是所有特征对于最终的结果都能起作用,可能存在大量无效特征,这些无效特征用于联邦学习提高了联合模型训练过程的复杂度,降低了学习效率和准确性。
[0006]本公开所要解决的一个技术问题是:如何提高联邦学习的效率和准确性。
[0007]根据本公开的一些实施例,提供的一种数据处理方法,包括:标签缺失方接收标签持有方发送的对象的标签信息,标签信息包括:标签持有方加密后的各个标签的标签向量;标签缺失方根据标签信息,利用注意力机制确定本地持有的对象的各项特征相对于标签的重要度;标签缺失方根据各项特征相对于标签的重要度,调整各项特征对应的特征向量;标签缺失方将各项特征调整后的特征向量输入联合模型中标签缺失方所持有的模型进行联邦学习。
[0008]在一些实施例中,标签缺失方所持有的模型中嵌入层之后接入注意力机制模块;标签缺失方根据标签信息,利用注意力机制确定本地持有的对象的各项特征相对于标签的重要度包括:标签缺失方将嵌入层输出的各项特征对应的特征向量,以及标签信息输入注意力机制模块,得到注意力机制模块输出的标签持有方加密后的各项特征相对于标签的权重;标签缺失方根据标签持有方加密后的各项特征相对于标签的权重,确定各项特征相对于标签的重要度。
[0009]在一些实施例中,标签缺失方根据标签持有方加密后的各项特征相对于标签的权重,确定各项特征相对于标签的重要度包括:标签缺失方对标签持有方加密后的各项特征相对于标签的权重进行加密;标签缺失方将标签缺失方和标签持有方加密后的各项特征相
对于标签的权重,发送至标签持有方;标签缺失方接收标签持有方进行解密后返回的标签缺失方加密后的各项特征相对于标签的权重;标签缺失方对标签缺失方加密后的各项特征相对于标签的权重进行解密,得到各项特征相对于标签的权重,作为各项特征相对于标签的重要度。
[0010]在一些实施例中,在注意力机制模型内,利用预设函数计算标签持有方加密后的各个标签的标签向量与各项特征的特征向量对应的注意力得分;利用softmax激活函数将注意力得分映射为标签持有方加密后的各项特征相对于标签的权重。
[0011]在一些实施例中,标签持有方和标签缺失方进行加密的方法为同态加密或者差分隐私或者混淆电路或者秘密共享。
[0012]在一些实施例中,标签缺失方根据各项特征相对于标签的重要度,调整各项特征对应的特征向量包括:针对每项特征,标签缺失方将该特征对应的特征向量分别与特征相对于标签的权重相乘,得到各项特征调整后的特征向量。
[0013]在一些实施例中,对象为电话号码,标签为用户类别,各项特征包括用户的通信行为特征;其中,用户类别包括:普通用户、骚扰电话、外卖、快递、推销员中至少一项;或者,对象为用户,标签为借贷风险级别,各项特征包括用户消费行为数据;或者,对象为用户,标签为保险风险级别,各项特征包括用户出行数据。
[0014]在一些实施例中,该方法还包括:在联合模型训练完成后,获取待识别对象的各项特征;将待识别对象的各项特征输入联合模型,得到输出的待识别对象对应的标签,并进行显示。
[0015]根据本公开的另一些实施例,提供的一种数据处理装置,其中,数据处理装置设置于标签缺失方,包括:接收单元,用于接收标签持有方发送的对象的标签信息,标签信息包括:标签持有方加密后的各个标签的标签向量;确定单元,用于根据标签信息,利用注意力机制确定本地持有的对象的各项特征相对于标签的重要度;调整单元,用于根据各项特征相对于标签的重要度,调整各项特征对应的特征向量;模型输入单元,用于将各项特征调整后的特征向量输入联合模型中标签缺失方所持有的模型进行联邦学习。
[0016]在一些实施例中,标签缺失方所持有的模型中嵌入层之后接入注意力机制模块;确定单元用于将嵌入层输出的各项特征对应的特征向量,以及标签信息输入注意力机制模块,得到注意力机制模块输出的标签持有方加密后的各项特征相对于标签的权重;根据标签持有方加密后的各项特征相对于标签的权重,确定各项特征相对于标签的重要度。
[0017]在一些实施例中,确定单元用于对标签持有方加密后的各项特征相对于标签的权重进行加密;将标签缺失方和标签持有方加密后的各项特征相对于标签的权重,发送至标签持有方;接收标签持有方进行解密后返回的标签缺失方加密后的各项特征相对于标签的权重;对标签缺失方加密后的各项特征相对于标签的权重进行解密,得到各项特征相对于标签的权重,作为各项特征相对于标签的重要度。
[0018]在一些实施例中,在注意力机制模型内,利用预设函数计算标签持有方加密后的各个标签的标签向量与各项特征的特征向量对应的注意力得分;利用softmax激活函数将注意力得分映射为标签持有方加密后的各项特征相对于标签的权重。
[0019]在一些实施例中,标签持有方和标签缺失方进行加密的方法为同态加密或者差分隐私或者混淆电路或者秘密共享。
[0020]在一些实施例中,调整单元用于针对每项特征,将该特征对应的特征向量分别与特征相对于标签的权重相乘,得到各项特征调整后的特征向量。
[0021]在一些实施例中,对象为电话号码,标签为用户类别,各项特征包括用户的通信行为特征;其中,用户类别包括:普通用户、骚扰电话、外卖、快递、推销员中至少一项;或者,对象为用户,标签为借贷风险级别,各项特征包括用户消费行为数据;或者,对象为用户,标签为保险风险级别,各项特征包括用户出行数据。
[0022]在一些实施例中,该装置还包括:应用单元,用于在联合模型训练完成后,获取待识别对象的各项特征;将待识别对象的各项特征输入联合模型,得到输出的待识别对象对应的标签,并进行显示。
[0023]根据本公开的又一些实施例,提供的一种数据处理装置,包括:处理器;以及耦接至处理器的存储器,用于存储指令,指令被处理器执行时,使处理器执行如前述任意实施例的数据处理方法。
[0024]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,包括:标签缺失方接收标签持有方发送的对象的标签信息,所述标签信息包括:标签持有方加密后的各个标签的标签向量;所述标签缺失方根据所述标签信息,利用注意力机制确定本地持有的所述对象的各项特征相对于标签的重要度;所述标签缺失方根据所述各项特征相对于标签的重要度,调整所述各项特征对应的特征向量;所述标签缺失方将所述各项特征调整后的特征向量输入联合模型中标签缺失方所持有的模型进行联邦学习。2.根据权利要求1所述的数据处理方法,其中,所述标签缺失方所持有的模型中嵌入层之后接入注意力机制模块;所述标签缺失方根据所述标签信息,利用注意力机制确定本地持有的所述对象的各项特征相对于标签的重要度包括:所述标签缺失方将所述嵌入层输出的所述各项特征对应的特征向量,以及所述标签信息输入所述注意力机制模块,得到所述注意力机制模块输出的标签持有方加密后的所述各项特征相对于标签的权重;所述标签缺失方根据所述标签持有方加密后的所述各项特征相对于标签的权重,确定所述各项特征相对于标签的重要度。3.根据权利要求2所述的数据处理方法,其中,所述标签缺失方根据所述标签持有方加密后的所述各项特征相对于标签的权重,确定所述各项特征相对于标签的重要度包括:所述标签缺失方对所述标签持有方加密后的所述各项特征相对于标签的权重进行加密;所述标签缺失方将所述标签缺失方和标签持有方加密后的所述各项特征相对于标签的权重,发送至所述标签持有方;所述标签缺失方接收所述标签持有方进行解密后返回的标签缺失方加密后的所述各项特征相对于标签的权重;所述标签缺失方对所述标签缺失方加密后的所述各项特征相对于标签的权重进行解密,得到所述各项特征相对于标签的权重,作为所述各项特征相对于标签的重要度。4.根据权利要求2所述的数据处理方法,其中,在所述注意力机制模型内,利用预设函数计算所述标签持有方加密后的各个标签的标签向量与所述各项特征的特征向量对应的注意力得分;利用softmax激活函数将所述注意力得分映射为标签持有方加密后的所述各项特征相...

【专利技术属性】
技术研发人员:项超王学敏孟维业王建秀
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1