分类模型的训练方法、用户分类的方法和装置制造方法及图纸

技术编号:38545384 阅读:19 留言:0更新日期:2023-08-22 20:55
本说明书实施例提供一种分类模型的训练方法、用户分类的方法和装置,方法包括:对样本用户的特征表示向量中的元素随机置0处理,得到缺失表示向量;将缺失表示向量输入编码器,得到样本用户对应的隐向量所服从的高斯分布的均值向量和方差向量;基于均值向量和方差向量,生成第一隐向量,将第一隐向量输入解码器,得到样本用户的重建表示向量;根据重建表示向量和特征表示向量之间的差异,确定第一损失项;将均值向量输入分类器,得到样本用户属于各个预设类别的概率分布;根据样本用户的类别标签和概率分布,确定第二损失项;总损失函数包括第一损失项和第二损失项。能够提升分类模型在用户特征取值存在缺失时的性能。型在用户特征取值存在缺失时的性能。型在用户特征取值存在缺失时的性能。

【技术实现步骤摘要】
分类模型的训练方法、用户分类的方法和装置


[0001]本说明书一个或多个实施例涉及计算机领域,尤其涉及分类模型的训练方法、用户分类的方法和装置。

技术介绍

[0002]当前,常常会先通过数据采集获取用户的特征取值,再基于用户的特征取值,利用预先训练的分类模型进行用户分类,其中,用户的特征取值可能属于隐私数据,需要防止隐私数据的泄露。用户的特征取值通常涉及多个维度特征各自的取值,这多个维度特征中可能存在至少一个维度特征的取值缺失。由于缺失特征取值是数据采集中的常见问题,因此,在利用分类模型进行用户分类之前,预处理数据以处理用户的多个维度特征中的“NaN”或“NULL”值非常重要。传统上,一种简单的处理缺失信息的方法是在推断过程中用0进行填充。这种处理方式虽然能够实现利用分类模型进行用户分类,但是削弱了分类模型的性能。
[0003]因此,希望能有改进的方案,能够提升分类模型在用户特征取值存在缺失时的性能。

技术实现思路

[0004]本说明书一个或多个实施例描述了一种分类模型的训练方法、用户分类的方法和装置,能够提升分类模型在本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种分类模型的训练方法,所述分类模型包括编码器、解码器和分类器,所述方法包括:获取样本用户的特征表示向量和类别标签;对所述特征表示向量中的元素随机置0处理,得到缺失表示向量;将所述缺失表示向量输入所述编码器,得到所述样本用户对应的隐向量所服从的高斯分布的均值向量和方差向量;基于所述均值向量和方差向量,生成第一隐向量,将所述第一隐向量输入所述解码器,得到所述样本用户的重建表示向量;根据所述重建表示向量和所述特征表示向量之间的差异,确定第一损失项;将所述均值向量输入所述分类器,得到所述样本用户属于各个预设类别的概率分布;根据所述类别标签和所述概率分布,确定第二损失项;以总损失函数的值最小化为目标,对所述分类模型进行训练;所述总损失函数包括第一损失项和第二损失项。2.如权利要求1所述的方法,其中,所述总损失函数还包括第三损失项;所述方法还包括:获取所述类别标签对应的编码向量;以所述均值向量与所述编码向量之差作为期望均值向量,根据所述期望均值向量和所述方差向量对应的期望分布与标准正态分布之间的差异,确定第三损失项。3.如权利要求1所述的方法,其中,所述总损失函数还包括第四损失项;所述方法还包括:获取所述类别标签对应的编码向量;在所述第一隐向量基础上,减去所述编码向量,得到第二隐向量;根据所述第二隐向量与所述编码向量的差异,确定第四损失项。4.如权利要求1所述的方法,其中,所述样本用户的特征表示向量由第一方提供的第一表示向量和第二方提供的第二表示向量组合而成。5.如权利要求4所述的方法,其中,所述第一表示向量基于所述样本用户的第一特征而生成;所述第二表示向量基于所述样本用户的第二特征而生成。6.如权利要求5所述的方法,其中,所述分类模型设置于第三方,所述特征表示向量为所述第三方将所述第一表示向量和所述第二表示向量组合而成的。7.如权利要求1所述的方法,其中,所述基于所述均值向量和方差向量,生成第一隐向量,包括:从标准正态分布中随机采样出噪声;在所述均值向量基础上,叠加所述方差向量与噪声的作用结果,得到所述第一隐向量。8.一种利用分类模型进行用户分类的方法,所述分类模型包括编码器和分类器,所述分类模型基于权利要求1所述的方法训练得到,所述方法包括:获取目标用户的特征表示向量;将所述特征表示向量输入所述编码器,得到所述目标用户对应的隐向量所服从的高斯分布的均值向量;将所述均值向量输入所述分类器,得到所述目标用户的预测类别。
9.如权利要求8所述的方法,其中,所述目标用户的特征表示向量由第一方提供的第一表示向量和第二方提供的第二表示向量组合而成。10.如权利要求9所述的方法,其中,所述第一表示向量基于所述目标用户的第一特征而生成;所述第二表示向量基于所述目标用户的第二特征而生成。11.如权利要求10所述的方法,其中,所述分类模型设置于第三方,所述特征表示向量为所述第三方将所述第一表示向量和所述第二表示向量组合而成的。12.如权利要求10所述的方法,其中,所述第一特征或所述第二特征中的至少一个维度特征的特征取值存在缺失。13.如权利要求12所述的方法...

【专利技术属性】
技术研发人员:刘永超邱鹏宇
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1