标签预测方法、装置及电子设备制造方法及图纸

技术编号:39132895 阅读:9 留言:0更新日期:2023-10-23 14:51
本申请公开了一种标签预测方法、装置及电子设备,涉及数据处理技术领域,以解决现有技术预测结果置信度较差的问题。该方法包括:获取待预测用户数据,待预测用户数据属于第一类用户数据;将待预测用户数据分别与预先获取的第二类用户数据中的各第二用户数据构成多个预测样本对;将多个预测样本对分别输入数据融合模型进行处理,得到各预测样本对的相似度,数据融合模型是利用训练样本集中的各样本对预先构建的初始数据融合模型进行训练得到的,训练样本集包括多个样本对,每个样本对包括两个不同类别的用户数据;基于各预测样本对的相似度和各第二用户数据的标签,确定待预测用户数据的标签。本申请实施例可提高标签预测结果的置信度。的置信度。的置信度。

【技术实现步骤摘要】
标签预测方法、装置及电子设备


[0001]本申请涉及数据处理
,尤其涉及一种标签预测方法、装置及电子设备。

技术介绍

[0002]用户标签是对用户属性、行为、兴趣等特征的抽象与描述,是构成用户画像的核心因素之一。用户标签可以帮助研发人员充分发掘不同用户人群之间的目标、行为和观点的差异,洞察其需求,进而服务于精准营销、个性化产品设计、用户体验优化等

[0003]现有技术中,对于用户标签的预测通常是基于单一数据源的预测,然而,单一数据源中的数据特征较为局限,不能充分地反映用户全面的属性和行为,以此进行标签预测得到的结果的置信度较差。

技术实现思路

[0004]本申请实施例提供一种标签预测方法、装置及电子设备,以解决现有用户标签预测方案的预测结果置信度较差的问题。
[0005]第一方面,本申请实施例提供了一种标签预测方法,包括:
[0006]获取待预测用户数据,所述待预测用户数据属于第一类用户数据;
[0007]将所述待预测用户数据分别与预先获取的第二类用户数据中的各第二用户数据构成多个预测样本对;
[0008]将所述多个预测样本对分别输入数据融合模型进行处理,得到所述数据融合模型输出的各预测样本对的相似度,其中,所述数据融合模型是利用预先获取的训练样本集中的各样本对预先构建的初始数据融合模型进行训练得到的,所述训练样本集包括多个样本对,每个样本对包括两个不同类别的用户数据,且每个样本对标注有真值,所述真值用于表示样本对是否对应同一用户;
[0009]基于所述各预测样本对的相似度和所述各第二用户数据的标签,确定所述待预测用户数据的标签。
[0010]可选地,所述基于所述各预测样本对的相似度和所述各第二用户数据的标签,确定所述待预测用户数据的标签,包括:
[0011]以所述各预测样本对的相似度作为对应预测样本对中的第二用户数据的标签值的权重,对所述各第二用户数据的标签值进行加权,得到加权标签值;
[0012]将所述加权标签值确定为所述待预测用户数据的标签值。
[0013]可选地,所述初始数据融合模型包括第一数据处理模块、第二数据处理模块、第一跨模态处理模块、第二跨模态处理模块和特征融合模块;
[0014]其中,所述将所述多个预测样本对分别输入数据融合模型进行处理,得到所述数据融合模型输出的各预测样本对的相似度,包括:
[0015]通过所述第一数据处理模块对输入的样本对中的一个用户数据进行特征提取处理,以及,通过所述第二数据处理模块对输入的样本对中的另一个用户数据进行特征提取
处理;
[0016]通过所述第一跨模态处理模块,基于注意力机制对所述第一数据处理模块的输出特征和所述第二数据处理模块的输出特征进行特征提取和融合处理;
[0017]通过所述第二跨模态处理模块,基于注意力机制对所述第二数据处理模块的输出特征和所述第一数据处理模块的输出特征进行特征提取和融合处理;
[0018]通过所述特征融合模块对所述第一跨模态处理模块的输出特征和所述第二跨模态处理模块的输出特征进行融合,并输出输入的样本对中的两个用户数据的相似度。
[0019]可选地,所述第一数据处理模块为问卷编码器,所述问卷编码器包括编码模块、向量规整模块、池化模块和拼接模块;所述输入的样本对中的一个用户数据为问卷调研数据;
[0020]所述通过所述第一数据处理模块对输入的样本对中的一个用户数据进行特征提取处理,包括:
[0021]通过所述编码模块对所述问卷调研数据进行编码,通过所述向量规整模块对所述编码模块的输出向量进行归一化处理,通过所述池化模块对所述编码模块的输出向量池化处理,以及通过所述拼接模块对所述向量规整模块的输出向量与所述池化模块的输出向量进行拼接。
[0022]可选地,所述第一跨模态处理模块包括第一自注意力模块、第一互注意力模块和第一前馈网络;所述通过所述第一跨模态处理模块,基于注意力机制对所述第一数据处理模块的输出特征和所述第二数据处理模块的输出特征进行特征提取和融合处理,包括:
[0023]通过所述第一自注意力模块对所述第一数据处理模块的输出特征进行数据内部特征提取处理,通过所述第一互注意力模块对所述第一自注意力模块的输出特征和所述第二数据处理模块的输出特征进行数据间特征提取处理,以及通过所述第一前馈网络对所述第一互注意力模块的输出特征进行连接处理;
[0024]和/或,所述第二跨模态处理模块包括第二自注意力模块、第二互注意力模块和第二前馈网络;所述通过所述第二跨模态处理模块,基于注意力机制对所述第二数据处理模块的输出特征和所述第一数据处理模块的输出特征进行特征提取和融合处理,包括:
[0025]通过所述第二自注意力模块对所述第二数据处理模块的输出特征进行数据内部特征提取处理,通过所述第二互注意力模块对所述第二自注意力模块的输出特征和所述第一数据处理模块的输出特征进行数据间特征提取处理,以及通过所述第二前馈网络对所述第二互注意力模块的输出特征进行连接处理。
[0026]可选地,所述训练样本集包括多个第一类样本对,所述第一类样本对包括一个第一用户数据和一个第二用户数据,所述第一用户数据属于第一类用户数据,所述第二用户数据属于第二类用户数据,所述第一类用户数据和所述第二类用户数据为不同来源的数据;所述第一数据处理模块用于对输入的第一类样本对中的第二用户数据进行处理,所述第二数据处理模块用于对输入的第一类样本对中的第一用户数据进行处理;
[0027]所述将所述多个预测样本对分别输入数据融合模型进行处理之前,所述方法还包括:
[0028]获取M个第一用户数据和N个第二用户数据,N和M均为大于1的整数;
[0029]根据所述第一类用户数据与所述第二类用户数据之间的第一关联特征,确定与目标第二用户数据相似的L个目标第一用户数据,其中,所述目标第一用户数据为所述M个第
一用户数据中的任一第一用户数据,所述目标第二用户数据为所述N个第二用户数据中的第二用户数据,L为正整数;
[0030]将所述目标第二用户数据分别与所述L个目标第一用户数据构成L个第一类样本对;
[0031]根据所述L个第一类样本对中各第一类样本对是否对应同一用户,确定所述L个第一类样本中各第一类样本对的真值。
[0032]可选地,所述第一类用户数据为用户业务行为数据,所述第二类用户数据为问卷调研数据,所述训练样本集还包括多个第二类样本对,所述第二类样本对包括一个第一用户数据和一个第三用户数据;所述第二数据处理模块还用于对输入的第二类样本对中的第三用户数据进行处理;
[0033]所述将所述多个预测样本对分别输入数据融合模型进行处理之前,所述方法还包括:
[0034]根据所述第一类样本对进行样本扩充,生成与所述第一类样本对中的第一用户数据对应的第三用户数据,并将每个所述第三用户数据与对应的第一用户数据构成所述第二类样本对,确定所述第二类样本对的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标签预测方法,其特征在于,包括:获取待预测用户数据,所述待预测用户数据属于第一类用户数据;将所述待预测用户数据分别与预先获取的第二类用户数据中的各第二用户数据构成多个预测样本对;将所述多个预测样本对分别输入数据融合模型进行处理,得到所述数据融合模型输出的各预测样本对的相似度,其中,所述数据融合模型是利用预先获取的训练样本集中的各样本对预先构建的初始数据融合模型进行训练得到的,所述训练样本集包括多个样本对,每个样本对包括两个不同类别的用户数据,且每个样本对标注有真值,所述真值用于表示样本对是否对应同一用户;基于所述各预测样本对的相似度和所述各第二用户数据的标签,确定所述待预测用户数据的标签。2.根据权利要求1所述的方法,其特征在于,所述基于所述各预测样本对的相似度和所述各第二用户数据的标签,确定所述待预测用户数据的标签,包括:以所述各预测样本对的相似度作为对应预测样本对中的第二用户数据的标签值的权重,对所述各第二用户数据的标签值进行加权,得到加权标签值;将所述加权标签值确定为所述待预测用户数据的标签值。3.根据权利要求1所述的方法,其特征在于,所述初始数据融合模型包括第一数据处理模块、第二数据处理模块、第一跨模态处理模块、第二跨模态处理模块和特征融合模块;其中,所述将所述多个预测样本对分别输入数据融合模型进行处理,得到所述数据融合模型输出的各预测样本对的相似度,包括:通过所述第一数据处理模块对输入的样本对中的一个用户数据进行特征提取处理,以及,通过所述第二数据处理模块对输入的样本对中的另一个用户数据进行特征提取处理;通过所述第一跨模态处理模块,基于注意力机制对所述第一数据处理模块的输出特征和所述第二数据处理模块的输出特征进行特征提取和融合处理;通过所述第二跨模态处理模块,基于注意力机制对所述第二数据处理模块的输出特征和所述第一数据处理模块的输出特征进行特征提取和融合处理;通过所述特征融合模块对所述第一跨模态处理模块的输出特征和所述第二跨模态处理模块的输出特征进行融合,并输出输入的样本对中的两个用户数据的相似度。4.根据权利要求3所述的方法,其特征在于,所述第一数据处理模块为问卷编码器,所述问卷编码器包括编码模块、向量规整模块、池化模块和拼接模块;所述输入的样本对中的一个用户数据为问卷调研数据;所述通过所述第一数据处理模块对输入的样本对中的一个用户数据进行特征提取处理,包括:通过所述编码模块对所述问卷调研数据进行编码,通过所述向量规整模块对所述编码模块的输出向量进行归一化处理,通过所述池化模块对所述编码模块的输出向量池化处理,以及通过所述拼接模块对所述向量规整模块的输出向量与所述池化模块的输出向量进行拼接。5.根据权利要求3所述的方法,其特征在于,所述第一跨模态处理模块包括第一自注意力模块、第一互注意力模块和第一前馈网络;所述通过所述第一跨模态处理模块,基于注意
力机制对所述第一数据处理模块的输出特征和所述第二数据处理模块的输出特征进行特征提取和融合处理,包括:通过所述第一自注意力模块对所述第一数据处理模块的输出特征进行数据内部特征提取处理,通过所述第一互注意力模块对所述第一自注意力模块的输出特征和所述第二数据处理模块的输出特征进行数据间特征提取处理,以及通过所述第一前馈网络对所述第一互注意力模块的输出特征进行连接处理;和/或,所述第二跨模态处理模块包括第二自注意力模块、第二互注意力模块和第二前馈网络;所述通过所述第二跨模态处理模块,基于注意力机制对所述第二数据处理模块的输出特征和所述第一数据处理模块的输出特征进行特征提取和融合处理,包括:通过所述第二自注意力模块对所述第二数据处理模块的输出特征进行数据内部特征提取处理,通过所述第二互注意力模块对所述第二自注意力模块的输出特征和所述第一数据处理模块的输出特征进行数据间特征提取处理,以及通过所述第二前馈网络对所述第二互注意力模块的输出特征进行连接处理。6.根据权利要求3至5中任一项所述的方法,其特征在于,所述训练样本集包括多个第一类样本对,所述第一类样本对包括一个第一用户数据和一个第二用户数据,所述第一用户数据属于第一类用户数据,所述第二用户数据属于第二类用户数据,所述第一类用户数据和所述第二类用户数据为不同来源的数据;所述第一数据处理模块用于对输入的第一类样本对中的第二用户数据进行处理,所述第二数据处理模块用于对输入的第一类样本对中的第一用户数据进行处理;所述将所述多个预测样本对分别输入数据融合模型进行处理之前,所述方法还包括:获取M个第一用户数据和N个第二用户数据,N和M均为大于1的整数;根据所述第一类用户数据与所述第二类用户数据之间的第一关联特征,确定与目标第二用户数据相似的L个目标第一用户数据,其中,所述目标第一用户数据为所述M个第一用户数据中的任一第一用户数据,所述目标第...

【专利技术属性】
技术研发人员:陈星宇徐红蕾郭叶黄志勇
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1