确定用户标签的方法、自编码网络的训练方法及装置制造方法及图纸

技术编号:21115898 阅读:35 留言:0更新日期:2019-05-16 09:02
本申请实施例提供了一种确定用户标签的方法、自编码网络的训练方法及装置,涉及机器学习技术领域,该方法包括:获取待识别用户的特征数据,然后采用自编码网络中的编码层对待识别用户的特征数据进行编码,确定待识别用户的嵌入特征,自编码网络的损失函数至少是基于相似度损失函数确定的,相似度损失函数是根据输入编码层的训练样本的用户特征数据和编码层输出的训练样本的嵌入特征确定的。之后再根据待识别用户的嵌入特征确定待识别用户的用户标签。由于采用不含有用户标签的用户特征数据与编码层输出的嵌入特征之间的关系来约束自编码网络的收敛方向,从而减少了噪声标签对编码层输出的嵌入特征的影响,提高基于嵌入特征预测用户标签的精度。

The Method of Determining User Label, the Training Method and Device of Self-coding Network

【技术实现步骤摘要】
确定用户标签的方法、自编码网络的训练方法及装置
本专利技术实施例涉及机器学习
,尤其涉及一种确定用户标签的方法、自编码网络的训练方法及装置。
技术介绍
用户画像,又称人群画像,是根据客户人口统计学信息,社交关系,偏好习惯和消费行为等信息而抽象出来的标签化画像,构建用户画像的核心即挖掘用户标签。目前常用的挖掘方法是采用监督学习训练模型用于挖掘用户标签,即预先获取用户的属性信息和行为数据,然后基于用户的属性信息和行为数据人为给用户打上潜在的标签,之后以用户的属性信息和行为数据以及用户标签为训练样本,采用监督学习的方式训练模型,之后采用训练好的模型挖掘用户标签。传统监督学习采用损失函数对模型收敛方向进行约束时,是基于训练样本中的用户标签完全正确的前提下,使模型预测结果更加拟合训练样本中的用户标签。而实际的训练样本中,用户标签往往存在偏差,即存在噪声标签,从而导致模型学习到噪声标签,进一步影响模型预测用户标签的精度。
技术实现思路
由于采用传统监督学习训练模型时,学习了训练样本中的噪声标签,从而影响模型预测用户标签的精度的问题,本申请实施例提供了一种确定用户标签的方法、自编码网络的训练方法本文档来自技高网...

【技术保护点】
1.一种确定用户标签的方法,其特征在于,包括:获取待识别用户的特征数据;采用自编码网络中的编码层对所述待识别用户的特征数据进行编码,确定所述待识别用户的嵌入特征,所述自编码网络是以用户特征数据以及用户标签为训练样本训练获得,所述自编码网络的损失函数至少是基于相似度损失函数确定的,所述相似度损失函数是根据输入所述编码层的训练样本的用户特征数据和所述编码层输出的训练样本的嵌入特征确定的;根据所述待识别用户的嵌入特征确定所述待识别用户的用户标签。

【技术特征摘要】
1.一种确定用户标签的方法,其特征在于,包括:获取待识别用户的特征数据;采用自编码网络中的编码层对所述待识别用户的特征数据进行编码,确定所述待识别用户的嵌入特征,所述自编码网络是以用户特征数据以及用户标签为训练样本训练获得,所述自编码网络的损失函数至少是基于相似度损失函数确定的,所述相似度损失函数是根据输入所述编码层的训练样本的用户特征数据和所述编码层输出的训练样本的嵌入特征确定的;根据所述待识别用户的嵌入特征确定所述待识别用户的用户标签。2.如权利要求1所述的方法,其特征在于,所述相似度损失函数是根据输入所述编码层的训练样本的用户特征数据和所述编码层输出的训练样本的嵌入特征确定的,包括:针对输入编码层的任意两个训练样本,根据所述两个训练样本的用户特征数据确定所述两个训练样本的原始特征;确定所述两个训练样本的原始特征的第一相似度;确定所述编码层输出的所述两个训练样本的嵌入特征的第二相似度;根据所述第一相似度和所述第二相似度确定所述自编码网络的相似度损失函数。3.如权利要求1所述的方法,其特征在于,所述根据所述待识别用户的嵌入特征确定所述待识别用户的用户标签,包括:将所述待识别用户的嵌入特征与预先获取的多个样本特征进行聚类,每个样本特征预先标记用户标签;根据与所述待识别用户的嵌入特征同属一类的样本特征的用户标签,确定所述待识别用户的用户标签。4.如权利要求3所述的方法,其特征在于,所述根据与所述待识别用户的嵌入特征同属一类的样本特征的用户标签,确定所述待识别用户的用户标签,包括:确定与所述待识别用户的嵌入特征同属一类的至少一个样本特征;对所述至少一个样本特征的用户标签进行统计,确定每类用户标签的数量;将数量最多的用户标签确定为所述待识别用户的用户标签。5.如权利要求1所述的方法,其特征在于,所述根据所述待识别用户的嵌入特征确定所述待识别用户的用户标签,包括:将所述待识别用户的嵌入特征输入训练好的分类器,确定所述待识别用户的用户标签。6.一种自编码网络的训练方法,其特征在于,包括:将训练样本输入初始的自编码网络,所述训练样本包括用户特征数据以及用户标签;采用所述自编码网络的编码层对所述训练样本进行编码,确定所述训练样本的嵌入特征;根据所述训练样本的嵌入特征和所述训练样本的用户特征数据确定所述自编码网络的相似度损失函数;至少根据所述相似度损失函数确定所述自编码网络的损失函数;在所述自编码网络的损失函数没有满足预设条件时,采用所述自编码网络的损失函数调整所述自编码网络的参数,并采用调整后的自编码网络对所述训练样本进行编码,确定所述训练样本的嵌入特征;依次循环,直到所述自编码网络的损失函数满足所述预设条件时,训练结束。7.如权利要求6所述的方法,其特征在于,还包括:采用所述自编码网络的解码层对所述训练样本的嵌入特征进行解码,确定所述训练样本的自编码结果;根据所述训练样...

【专利技术属性】
技术研发人员:胡彬
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1