兼顾预测精度和隐私保护的预测模型训练方法及装置制造方法及图纸

技术编号:25837505 阅读:21 留言:0更新日期:2020-10-02 14:18
本说明书实施例提供一种兼顾预测精度和隐私保护的预测模型训练方法及装置。预测模型包括特征提取层和预测层,在对预测模型进行训练时,针对包含第一对象的第一原始特征和第一标签的第一样本,可以从第一原始特征中提取第一对象在多个隐私属性方面的第一实际值;将第一原始特征输入特征提取层,得到第一提取特征;将第一提取特征输入预测层,得到第一预测信息;基于第一预测信息与第一标签之间的差异确定第一预测损失;将第一提取特征输入预先训练的隐私保护模型,得到第一对象在多个隐私属性方面的第一预测值,基于第一预测值和第一实际值之间的差异,确定第二预测损失;向减小第一预测损失、增大第二预测损失的方向,更新所述特征提取层。

【技术实现步骤摘要】
兼顾预测精度和隐私保护的预测模型训练方法及装置
本说明书一个或多个实施例涉及机器学习
,尤其涉及兼顾预测精度和隐私保护的预测模型训练方法及装置。
技术介绍
随着计算机技术的不断发展,通过机器学习的方式训练预测模型,并利用预测模型进行业务预测的应用范围越来越广泛。例如,预测模型可以被训练以用于基于用户特征对用户进行分类,例如把用户分成高风险用户或低风险用户。在推荐系统的应用中,预测模型可以根据用户特征,向用户推荐商品、商店或其他信息,使得用户可以更容易地获取到需要的信息。预测系统还可以基于事件的事件特征进行预测等等。精确的预测系统能提供很好的预测结果和服务,但是过于精确的预测模型可能会给相关的用户、企业带来隐私泄露的疑虑,也增加了恶意者通过窃取用户账号、企业账号并结合预测模型来盗取隐私信息的风险。因此,希望能有改进的方案,可以训练兼顾预测精度和隐私保护的预测模型,进而提高对象的隐私安全性。
技术实现思路
本说明书一个或多个实施例描述了兼顾预测精度和隐私保护的预测模型训练方法及装置,以便训练兼顾预测精度和隐私保护的预测模型,进而提高对象的隐私安全性。具体的技术方案如下。第一方面,实施例提供了一种兼顾预测精度和隐私保护的预测模型训练方法,通过服务器执行;所述预测模型包括特征提取层和预测层;所述方法包括:获取训练集中任意的第一样本,所述第一样本包括第一对象的第一原始特征和对应的第一标签;从所述第一原始特征中提取所述第一对象在多个隐私属性方面的第一实际值;将所述第一原始特征输入所述特征提取层,得到所述第一对象的第一提取特征;将所述第一提取特征输入所述预测层,得到第一预测信息;基于所述第一预测信息与所述第一标签之间的差异,确定第一预测损失;将所述第一提取特征输入预先训练的隐私保护模型,得到所述第一对象在多个隐私属性方面的第一预测值,基于所述第一预测值和所述第一实际值之间的差异,确定第二预测损失;向减小所述第一预测损失、增大所述第二预测损失的方向,更新所述特征提取层。在一种实施方式中,所述隐私保护模型采用以下方式训练得到:获取所述训练集中任意的第二样本,所述第二样本包括第二对象的第二原始特征;从所述第二原始特征中提取所述第二对象在多个隐私属性方面的第二实际值;将所述第二原始特征输入所述特征提取层,得到所述第二对象的第二提取特征;将所述第二提取特征输入隐私保护模型,得到所述第二对象在多个隐私属性方面的第二预测值,基于所述第二预测值和所述第二实际值之间的差异,确定第三预测损失;向减小所述第三预测损失的方向,更新所述隐私保护模型。在一种实施方式中,所述隐私保护模型包括特征网络和激活层;所述将所述第一提取特征输入预先训练的隐私保护模型的步骤,包括:将所述第一提取特征输入所述特征网络,得到转换特征,将所述转换特征输入所述激活层,得到所述第一对象在多个隐私属性方面的第一预测值。在一种实施方式中,所述更新所述特征提取层的步骤,包括:基于所述第一预测损失减去所述第二预测损失的差值或加权差值,构建合成预测损失,向减小所述合成预测损失的方向,更新所述特征提取层。在一种实施方式中,所述基于所述第一预测值和所述第一实际值之间的差异,确定第二预测损失的步骤,包括:基于多个隐私属性对应的第一预测值和第一实际值的差异,分别确定多个隐私属性对应的子预测损失;基于多个子预测损失,确定所述第二预测损失。在一种实施方式中,所述基于多个子预测损失,确定所述第二预测损失的步骤,包括:基于多个子预测损失的和,确定所述第二预测损失。在一种实施方式中,所述基于多个子预测损失,确定所述第二预测损失的步骤,包括:将多个子预测损失中的最大值确定为所述第二预测损失。在一种实施方式中,所述从所述第一原始特征中提取所述第一对象在多个隐私属性方面的第一实际值的步骤,包括:将多个隐私属性与所述第一原始特征中的多个特征属性进行匹配,并基于匹配的特征属性的特征值确定对应的隐私属性的实际值,基于多个隐私属性的实际值确定所述第一实际值。在一种实施方式中,所述预测模型用于针对输入对象的原始特征进行业务预测;对象包括用户、商品、事件中的一种。在一种实施方式中,所述第一原始特征包括以下特征组中的多个:对象的基本属性特征、对象的历史行为特征、对象的关联关系特征、对象的交互特征;当对象为用户时,所述特征组还包括用户身体指标特征。在一种实施方式中,所述隐私保护模型包括递归神经网络;所述递归神经网络包括循环神经网络RNN或长短期记忆网络LSTM。第二方面,实施例提供了一种兼顾预测精度和隐私保护的预测模型训练装置,部署在服务器中;所述预测模型包括特征提取层和预测层;所述装置包括:样本获取模块,配置为,获取训练集中任意的第一样本,所述第一样本包括第一对象的第一原始特征和对应的第一标签;标签提取模块,配置为,从所述第一原始特征中提取所述第一对象在多个隐私属性方面的第一实际值;特征提取模块,配置为,将所述第一原始特征输入所述特征提取层,得到所述第一对象的第一提取特征;第一损失模块,配置为,将所述第一提取特征输入所述预测层,得到第一预测信息;基于所述第一预测信息与所述第一标签之间的差异,确定第一预测损失;第二损失模块,配置为,将所述第一提取特征输入预先训练的隐私保护模型,得到所述第一对象在多个隐私属性方面的第一预测值,基于所述第一预测值和所述第一实际值之间的差异,确定第二预测损失;模型更新模块,配置为,向减小所述第一预测损失、增大所述第二预测损失的方向,更新所述特征提取层。在一种实施方式中,该装置还包括隐私训练模块,用于采用以下方式训练得到所述隐私保护模型:获取所述训练集中任意的第二样本,所述第二样本包括第二对象的第二原始特征;从所述第二原始特征中提取所述第二对象在多个隐私属性方面的第二实际值;将所述第二原始特征输入所述特征提取层,得到所述第二对象的第二提取特征;将所述第二提取特征输入隐私保护模型,得到所述第二对象在多个隐私属性方面的第二预测值,基于所述第二预测值和所述第二实际值之间的差异,确定第三预测损失;向减小所述第三预测损失的方向,更新所述隐私保护模型。在一种实施方式中,所述隐私保护模型包括特征网络和激活层;所述第二损失模块,将所述第一提取特征输入预先训练的隐私保护模型时,包括:将所述第一提取特征输入所述特征网络,得到转换特征,将所述转换特征输入所述激活层,得到所述第一对象在多个隐私属性方面的第一预测值。在一种实施方式中,所述模型更新模块,具体配置为:基于所述第一预测损失减去所述第二预测损失的差值或加权差值,构建合成预测损失,向减小所述合成预测损失的方向,更新所述特征提取层。在一种实施方式中,所述第二损失模块,基于所述第一预测值和所述第一实际值之间本文档来自技高网...

【技术保护点】
1.一种兼顾预测精度和隐私保护的预测模型训练方法,通过服务器执行;所述预测模型包括特征提取层和预测层;所述方法包括:/n获取训练集中任意的第一样本,所述第一样本包括第一对象的第一原始特征和对应的第一标签;/n从所述第一原始特征中提取所述第一对象在多个隐私属性方面的第一实际值;/n将所述第一原始特征输入所述特征提取层,得到所述第一对象的第一提取特征;/n将所述第一提取特征输入所述预测层,得到第一预测信息;基于所述第一预测信息与所述第一标签之间的差异,确定第一预测损失;/n将所述第一提取特征输入预先训练的隐私保护模型,得到所述第一对象在多个隐私属性方面的第一预测值,基于所述第一预测值和所述第一实际值之间的差异,确定第二预测损失;/n向减小所述第一预测损失、增大所述第二预测损失的方向,更新所述特征提取层。/n

【技术特征摘要】
1.一种兼顾预测精度和隐私保护的预测模型训练方法,通过服务器执行;所述预测模型包括特征提取层和预测层;所述方法包括:
获取训练集中任意的第一样本,所述第一样本包括第一对象的第一原始特征和对应的第一标签;
从所述第一原始特征中提取所述第一对象在多个隐私属性方面的第一实际值;
将所述第一原始特征输入所述特征提取层,得到所述第一对象的第一提取特征;
将所述第一提取特征输入所述预测层,得到第一预测信息;基于所述第一预测信息与所述第一标签之间的差异,确定第一预测损失;
将所述第一提取特征输入预先训练的隐私保护模型,得到所述第一对象在多个隐私属性方面的第一预测值,基于所述第一预测值和所述第一实际值之间的差异,确定第二预测损失;
向减小所述第一预测损失、增大所述第二预测损失的方向,更新所述特征提取层。


2.根据权利要求1所述的方法,其中,所述隐私保护模型采用以下方式训练得到:
获取所述训练集中任意的第二样本,所述第二样本包括第二对象的第二原始特征;
从所述第二原始特征中提取所述第二对象在多个隐私属性方面的第二实际值;
将所述第二原始特征输入所述特征提取层,得到所述第二对象的第二提取特征;
将所述第二提取特征输入隐私保护模型,得到所述第二对象在多个隐私属性方面的第二预测值,基于所述第二预测值和所述第二实际值之间的差异,确定第三预测损失;
向减小所述第三预测损失的方向,更新所述隐私保护模型。


3.根据权利要求1所述的方法,所述隐私保护模型包括特征网络和激活层;所述将所述第一提取特征输入预先训练的隐私保护模型的步骤,包括:
将所述第一提取特征输入所述特征网络,得到转换特征,将所述转换特征输入所述激活层,得到所述第一对象在多个隐私属性方面的第一预测值。


4.根据权利要求1所述的方法,所述更新所述特征提取层的步骤,包括:
基于所述第一预测损失减去所述第二预测损失的差值或加权差值,构建合成预测损失,向减小所述合成预测损失的方向,更新所述特征提取层。


5.根据权利要求1所述的方法,所述基于所述第一预测值和所述第一实际值之间的差异,确定第二预测损失的步骤,包括:
基于多个隐私属性对应的第一预测值和第一实际值的差异,分别确定多个隐私属性对应的子预测损失;
基于多个子预测损失,确定所述第二预测损失。


6.根据权利要求5所述的方法,所述基于多个子预测损失,确定所述第二预测损失的步骤,包括:
基于多个子预测损失的和,确定所述第二预测损失。


7.根据权利要求5所述的方法,所述基于多个子预测损失,确定所述第二预测损失的步骤,包括:
将多个子预测损失中的最大值确定为所述第二预测损失。


8.根据权利要求1所述的方法,所述从所述第一原始特征中提取所述第一对象在多个隐私属性方面的第一实际值的步骤,包括:
将多个隐私属性与所述第一原始特征中的多个特征属性进行匹配,并基于匹配的特征属性的特征值确定对应的隐私属性的实际值,基于多个隐私属性的实际值确定所述第一实际值。


9.根据权利要求1所述的方法,所述预测模型用于针对输入对象的原始特征进行业务预测;对象包括用户、商品、事件中的一种。


10.根据权利要求9所述的方法,所述第一原始特征包括以下特征组中的多个:对象的基本属性特征、对象的历史行为特征、对象的关联关系特征、对象的交互特征;当对象为用户时,所述特征组还包括用户身体指标特征。


11.根据权利要求10所述的方法,所述隐私保护模型包括递归神经网络;所述递归神经网络包括循环神经网络RNN或长短期记忆网络LSTM。


12.一种兼顾预测精度和隐私保护的预测模型训练装置,部署在服务器中;所述预测模型包括特征提取层和预测层;所述装置包括:
样本获取模块,配置为,获取训练集中任意的第一样本,所述第一样本包括第一对象的第一原始特征和对应的第一标签;<...

【专利技术属性】
技术研发人员:王力周俊
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1