用户画像模型训练的方法、用户数据确定方法、设备技术

技术编号:33042307 阅读:21 留言:0更新日期:2022-04-15 09:23
本公开提供的一种用户画像模型训练的方法、用户数据确定方法、设备,涉及用户画像技术,包括:获取训练数据集;训练数据集中包括多个无标记的原始样本;每个无标记的原始样本中包括用户的多个特征;对原始样本中的多个特征进行掩盖处理,得到掩盖后的训练样本;其中,训练样本中包括原始样本中的部分特征;根据训练样本以及与训练样本对应的原始样本对预设模型进行训练,得到用户画像模型;其中,用户画像模型用于输出用户画像向量。本公开提供的方案可以对训练样本的不同种类的多个特征进行整合训练,能够发现不同特征之间的关联性,使训练结果在具有通用性的同时也能够带来更好的准确率。准确率。准确率。

【技术实现步骤摘要】
用户画像模型训练的方法、用户数据确定方法、设备


[0001]本公开涉及用户画像技术,尤其涉及一种用户画像模型训练的方法、用户数据确定方法、设备。

技术介绍

[0002]随着计算机和互联网技术的快速发展,用户画像技术应运而生。用户画像模型是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。
[0003]现有技术中,用户画像模型的训练方法中,大部分首先基于原始特征进行独热编码生成训练样本;然后将训练样本通过单层全连接层,或者多层压缩维度,或者直接接入目标任务模型进行同步训练。
[0004]但是,上述方式对于不同的训练任务没有通用性,对于不同的训练目标都需要从头初始化训练;且训练参数较多导致同样的样本规模和训练时长效果较差,易陷入局部最优不再优化。

技术实现思路

[0005]本公开提供了一种用户画像模型训练的方法、用户数据确定方法、设备,以解决现有技术中对于不同的训练任务没有通用性,对于不同的训练目标都需要从头初始化训练;且训练参数较多导致同样的样本规模和训练时长效果较差,易陷入局部最优不本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用户画像模型训练的方法,其特征在于,包括:获取训练数据集;所述训练数据集中包括多个无标记的原始样本;每个所述无标记的原始样本中包括用户的多个特征;对所述原始样本中的多个特征进行掩盖处理,得到掩盖后的训练样本;其中,所述训练样本中包括原始样本中的部分特征;根据所述训练样本以及与所述训练样本对应的原始样本对预设模型进行训练,得到用户画像模型;其中,所述用户画像模型用于输出用户画像向量。2.根据权利要求1所述的方法,其特征在于,所述对所述原始样本中的多个特征进行掩盖处理,得到掩盖后的训练样本,包括:对所述原始样本中的每一特征都进行以下处理:获取所述原始样本中的第一特征;其中,所述第一特征是所述原始样本中的任意特征;根据预设概率确定对所述第一特征的掩盖处理方式;其中,预先设置有与每种掩盖处理方式对应的概率值,各概率值之和等于1;根据确定的所述掩盖处理方式对所述第一特征进行掩盖处理。3.根据权利要求2所述的方法,其特征在于,确定的所述掩盖处理方式为第一方式时,所述根据确定的所述掩盖处理方式对所述第一特征进行掩盖处理,包括:将所述原始样本中的所述第一特征替换为掩盖特征。4.根据权利要求2所述的方法,其特征在于,确定的所述掩盖处理方式为第二方式时,所述根据确定的所述掩盖处理方式对所述第一特征进行掩盖处理,包括:将所述原始样本中的所述第一特征替换为与所述第一特征属性相同的其他特征。5.根据权利要求1所述的方法,其特征在于,所述根据所述训练样本以及与所述训练样本对应的原始样本对预设模型进行训练,得到用户画像模型,包括:将所述训练样本输入至预设模型中,得到预测用户画像向量;根据所述预测用户画像向量、以及与所述训练样本对应的原始样本优化所述预设模型中的参数,得到优化后的预设模型;其中,满足停止训练条件的优化后的预设模型为所述用户画像模型。6.根据权利要求5所述的方法,其特征在于,若所述原始样本是文本数据,则所述将所述训练样本输入至预设模型中,包括:对所述训练样本进行编码,得到编码后的训练样本;将所述编码后的训练样本输入至预设模型中。7.根据权利要求1所述的方法,其特征在于,在训练样本的任意两个特征之间,设置有特殊分隔符。8.根据权利要求5所述的方法,其特征在于,所述根据所述预测用户画...

【专利技术属性】
技术研发人员:王蕾
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1