【技术实现步骤摘要】
画像数据处理方法和画像模型训练方法
本申请涉及计算机
,特别是涉及一种画像数据处理方法和画像模型训练方法。
技术介绍
随着计算机技术的发展,人们越来越多地依赖互联网来获取各方面的信息,为了达到向用户及时推荐各种有用信息又尽量避免推荐无用信息的目的,通常根据用户的用户画像确定接受信息的目标人群。用户画像的构建可以通过训练好的画像模型进行预测得到。传统技术中,在训练画像模型时,对于存在多领域用户数据的场景,通常是分别对每个领域单独提取对应的用户行为数据,进行模型训练,得到每个领域对应的用户画像模型。这种方式忽略了多领域之间的关联,导致训练得到的画像模型生成的用户画像并不准确。
技术实现思路
基于此,有必要针对
技术介绍
中引出的技术问题,提供一种画像数据处理方法和画像模型训练方法。一种画像数据处理方法,包括:获取目标用户对应的历史离散用户特征集合;所述历史离散用户特征集合中包括至少一个非目标特征域对应的历史离散用户特征;获取目标特征域对应的目标画像模型;所述目标画像模型是根据第一训练样本对预训练画像模型进行调整得到的;所述第一训练样本包括第一训练离散用户特征集合和所述目标特征域的训练标签,所述第一训练离散用户特征集合包括所述目标特征域对应的历史离散用户特征;所述预训练画像模型是根据第二训练样本对初始画像模型进行训练得到的;所述第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合;将所述历史离散用户特征集合输入所述目标画像模 ...
【技术保护点】
1.一种画像数据处理方法,包括:/n获取目标用户对应的历史离散用户特征集合;所述历史离散用户特征集合中包括至少一个非目标特征域对应的历史离散用户特征;/n获取目标特征域对应的目标画像模型;/n所述目标画像模型是根据第一训练样本对预训练画像模型进行调整得到的;所述第一训练样本包括第一训练离散用户特征集合和所述目标特征域的训练标签,所述第一训练离散用户特征集合包括所述目标特征域对应的历史离散用户特征;/n所述预训练画像模型是根据第二训练样本对初始画像模型进行训练得到的;所述第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合;/n将所述历史离散用户特征集合输入所述目标画像模型,得到所述目标用户对应于所述目标特征域的用户画像。/n
【技术特征摘要】
1.一种画像数据处理方法,包括:
获取目标用户对应的历史离散用户特征集合;所述历史离散用户特征集合中包括至少一个非目标特征域对应的历史离散用户特征;
获取目标特征域对应的目标画像模型;
所述目标画像模型是根据第一训练样本对预训练画像模型进行调整得到的;所述第一训练样本包括第一训练离散用户特征集合和所述目标特征域的训练标签,所述第一训练离散用户特征集合包括所述目标特征域对应的历史离散用户特征;
所述预训练画像模型是根据第二训练样本对初始画像模型进行训练得到的;所述第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合;
将所述历史离散用户特征集合输入所述目标画像模型,得到所述目标用户对应于所述目标特征域的用户画像。
2.根据权利要求1所述的方法,其特征在于,所述第一训练样本的确定步骤包括:
获取第一时间段对应的第一训练离散业务数据集合及第二时间段对应于所述目标特征域的第二训练离散业务数据集合;所述第二时间段为第一时间段之后的时间段;所述第一训练离散业务数据集合包括所述目标特征域对应的历史离散业务数据;
根据所述第一训练离散业务数据集合确定所述第一训练离散用户特征集合;
根据所述第二训练离散业务数据集合确定所述目标特征域的训练标签。
3.根据权利要求1所述的方法,其特征在于,所述预训练画像模型的调整步骤包括:
获取预设的第一保留概率及第二保留概率;
根据所述第一训练样本对所述预训练画像模型进行调整,并且以所述第一保留概率保留第一训练离散用户特征集合中目标特征域对应的历史离散用户特征,以第二保留概率保留第一训练离散用户特征集合中其他特征域对应的历史离散用户特征。
4.根据权利要求1所述的方法,其特征在于,所述第二训练样本的确定步骤包括:
分别获取各训练特征域对应的训练行为数据集合;
获取各所述训练行为数据集合中各训练行为数据对应的标签,得到各训练特征域对应的第一标签集合;
根据各所述第一标签集合中各标签对应的训练行为数据所对应的行为次数及时间衰减系数,确定各所述第一标签集合中各标签的权重;
根据各所述第一标签集合中各标签的权重确定所述第二训练样本对应的候选标签集合;
从所述候选标签集合中选取预设数量的候选标签作为所述第二训练样本对应的目标训练标签,根据所述目标训练标签得到所述第二训练样本对应的训练标签集合;
将所述候选标签集合中剩下的标签组成所述第二训练样本对应的第二训练离散用户特征集合。
5.根据权利要求4所述的方法,其特征在于,所述根据所述目标训练标签得到所述第二训练样本对应的训练标签集合包括:
将所述目标训练标签确定为所述第二训练样本对应的正训练标签;
获取负训练标签;所述负训练标签为第一训练标签和第二训练标签中的至少一种;所述第一训练标签为其他训练样本对应的正训练标签;所述第二训练标签为预设的标签词典中的标签;
将所述正训练标签和负训练标签组成所述第二训练样本对应的训练标签集合。
6.根据权利要求1所述的方法,其特征在于,所述将所述历史离散用户特征集合输入所述目标画像模型,得到所述目标用户对应于所述目标特征域的用户画像包括:
将所述历史离散用户特征集合输入所述目标画像模型的输入层,通过所述输入层向量化所述历史离散用户特征集合,得到各特征域对应的离散特征向量;
通过所述目标画像模型的融合层融合各特征域对应的离散特征向量,得到所述目标用户对应的目标特征向量;
通过所述目标画像模型从所述目标特征域对应的候选用户标签集合中筛选出与所述目标特征向量对应的用户标签,得到所述用户画像。
7.根据权利要求6所述的方法,其特征在于,所述融合层包括域内融合层、域间融合层、特征交叉层和全连接层;所述通过所述目标画像模型的融合层融合各特征域对应的离散特征向量,得到所述目标用户对应的目标特征向量包括:
通过所述域内融合层融合各所述特征域对应的离散特征向量得到各特征域对应的域内特征...
【专利技术属性】
技术研发人员:闫肃,陈鑫,张旭,林乐宇,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。