画像数据处理方法和画像模型训练方法技术

技术编号:24251640 阅读:36 留言:0更新日期:2020-05-22 23:37
本申请涉及一种画像数据处理方法及画像模型训练方法,其中画像数据处理方法包括:获取目标用户对应的历史离散用户特征集合,获取目标特征域对应的目标画像模型,将历史离散用户特征集合输入其中,得到目标用户对应于目标特征域的用户画像,目标画像模型是根据第一训练样本对预训练画像模型进行调整得到的,第一训练样本包括第一训练离散用户特征集合和目标特征域的训练标签,第一训练离散用户特征集合包括目标特征域对应的历史离散用户特征,预训练画像模型是根据第二训练样本对初始画像模型进行训练得到的,第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合。采用本申请的方法可以得到更加准确的用户画像。

Methods of image data processing and image model training

【技术实现步骤摘要】
画像数据处理方法和画像模型训练方法
本申请涉及计算机
,特别是涉及一种画像数据处理方法和画像模型训练方法。
技术介绍
随着计算机技术的发展,人们越来越多地依赖互联网来获取各方面的信息,为了达到向用户及时推荐各种有用信息又尽量避免推荐无用信息的目的,通常根据用户的用户画像确定接受信息的目标人群。用户画像的构建可以通过训练好的画像模型进行预测得到。传统技术中,在训练画像模型时,对于存在多领域用户数据的场景,通常是分别对每个领域单独提取对应的用户行为数据,进行模型训练,得到每个领域对应的用户画像模型。这种方式忽略了多领域之间的关联,导致训练得到的画像模型生成的用户画像并不准确。
技术实现思路
基于此,有必要针对
技术介绍
中引出的技术问题,提供一种画像数据处理方法和画像模型训练方法。一种画像数据处理方法,包括:获取目标用户对应的历史离散用户特征集合;所述历史离散用户特征集合中包括至少一个非目标特征域对应的历史离散用户特征;获取目标特征域对应的目标画像模型;所述目标画像模型是根据第一训练样本对预训练画像模型进行调整得到的;所述第一训练样本包括第一训练离散用户特征集合和所述目标特征域的训练标签,所述第一训练离散用户特征集合包括所述目标特征域对应的历史离散用户特征;所述预训练画像模型是根据第二训练样本对初始画像模型进行训练得到的;所述第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合;将所述历史离散用户特征集合输入所述目标画像模型,得到所述目标用户对应于所述目标特征域的用户画像。一种画像数据处理装置,所述装置包括:特征获取模块,用于获取目标用户对应的历史离散用户特征集合;所述历史离散用户特征集合中包括至少一个非目标特征域对应的历史离散用户特征;模型获取模块,用于获取目标特征域对应的目标画像模型;所述目标画像模型是根据第一训练样本对预训练画像模型进行调整得到的;所述第一训练样本包括第一训练离散用户特征集合和所述目标特征域的训练标签,所述第一训练离散用户特征集合包括所述目标特征域对应的历史离散用户特征;所述预训练画像模型是根据第二训练样本对初始画像模型进行训练得到的;所述第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合;特征输入模块,用于将所述历史离散用户特征集合输入所述目标画像模型,得到所述目标用户对应于所述目标特征域的用户画像。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述画像数据处理方法所述的步骤。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述画像数据处理方法所述的步骤。上述画像数据处理方法、装置、计算机可读存储介质和计算机设备,由于目标画像模型是根据第一训练样本对预训练画像模型进行调整得到的,第一训练样本包括第一训练离散用户特征集合和目标特征域的训练标签,第一训练离散用户特征集合包括目标特征域对应的历史离散用户特征,而预训练画像模型则是根据第二训练样本对初始画像模型进行训练得到的,第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合,因此目标画像模型能够充分地学习到多个特征域之间的特征关联性以及其他特征域的离散用户特征与目标特征域用户画像之间的映射关系,当将目标用户对应的历史离散用户特征集合输入到目标画像模型时,最终得到的用户画像考虑了其他特征域与目标特征域之间的特征关联性,因此相较于传统技术得到的用户画像,本申请得到的用户画像更加准确。一种画像模型训练方法,包括:获取预训练画像模型;所述预训练画像模型是根据第一训练样本对初始画像模型进行训练得到的;所述第一训练样本包括多个训练特征域对应的第一训练离散用户特征集合及训练标签集合;获取第二训练样本;所述第二训练样本包括第二训练离散用户特征集合和所述目标特征域的训练标签,所述第二训练离散用户特征集合包括所述目标特征域对应的历史离散用户特征;根据所述第二训练样本对所述预训练画像模型进行调整,得到所述目标特征域对应的目标画像模型。一种画像模型训练装置,其特征在于,所述装置包括:模型获取模块,用于获取预训练画像模型;所述预训练画像模型是根据第一训练样本对初始画像模型进行训练得到的;所述第一训练样本包括多个训练特征域对应的第一训练离散用户特征集合及训练标签集合;样本获取模块,用于获取第二训练样本;所述第二训练样本包括第二训练离散用户特征集合和所述目标特征域的训练标签,所述第二训练离散用户特征集合包括所述目标特征域对应的历史离散用户特征;模型调整模块,用于根据所述第二训练样本对所述预训练画像模型进行调整,得到所述目标特征域对应的目标画像模型。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述画像模型训练方法所述的步骤。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述画像模型训练方法所述的步骤。上述画像模型训练方法、装置、计算机可读存储介质和计算机设备,由于目标画像模型是根据第一训练样本对预训练画像模型进行调整得到的,第一训练样本包括第一训练离散用户特征集合和目标特征域的训练标签,第一训练离散用户特征集合包括目标特征域对应的历史离散用户特征,而预训练画像模型则是根据第二训练样本对初始画像模型进行训练得到的,第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合,因此目标画像模型能够充分地学习到多个特征域之间的特征关联性以及其他特征域的离散用户特征与目标特征域用户画像之间的映射关系,通过该目标画像模型得到用户画像时,由于可以考虑到特征域之间的关联性,因此相较于传统技术,能够得到更加准确的用户画像。附图说明图1为一个实施例中画像数据处理方法的应用环境图;图2为一个实施例中画像数据处理方法的流程示意图;图3为一个实施例中对离散特征向量进行融合的步骤示意图;图4为一个实施例中目标画像模型的结构示意图;图5为一个实施例中基于注意力机制对一个特征域下的离散特征向量进行融合的原理图;图6为一个实施例中对域间特征向量中的子特征进行特征交叉处理的原理图;图6A为一个实施例中对域间特征向量进行线性变换的原理图;图7为一个实施例中画像数据处理装置的结构框图;图8为一个实施例中画像模型训练方法的流程示意图;图9为一个实施例中目标画像模型训练过程的示意图图10为一个实施例中画像模型训练装置的结构框图;图11为一个实施例中计算机设备的结构框图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所本文档来自技高网...

【技术保护点】
1.一种画像数据处理方法,包括:/n获取目标用户对应的历史离散用户特征集合;所述历史离散用户特征集合中包括至少一个非目标特征域对应的历史离散用户特征;/n获取目标特征域对应的目标画像模型;/n所述目标画像模型是根据第一训练样本对预训练画像模型进行调整得到的;所述第一训练样本包括第一训练离散用户特征集合和所述目标特征域的训练标签,所述第一训练离散用户特征集合包括所述目标特征域对应的历史离散用户特征;/n所述预训练画像模型是根据第二训练样本对初始画像模型进行训练得到的;所述第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合;/n将所述历史离散用户特征集合输入所述目标画像模型,得到所述目标用户对应于所述目标特征域的用户画像。/n

【技术特征摘要】
1.一种画像数据处理方法,包括:
获取目标用户对应的历史离散用户特征集合;所述历史离散用户特征集合中包括至少一个非目标特征域对应的历史离散用户特征;
获取目标特征域对应的目标画像模型;
所述目标画像模型是根据第一训练样本对预训练画像模型进行调整得到的;所述第一训练样本包括第一训练离散用户特征集合和所述目标特征域的训练标签,所述第一训练离散用户特征集合包括所述目标特征域对应的历史离散用户特征;
所述预训练画像模型是根据第二训练样本对初始画像模型进行训练得到的;所述第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合;
将所述历史离散用户特征集合输入所述目标画像模型,得到所述目标用户对应于所述目标特征域的用户画像。


2.根据权利要求1所述的方法,其特征在于,所述第一训练样本的确定步骤包括:
获取第一时间段对应的第一训练离散业务数据集合及第二时间段对应于所述目标特征域的第二训练离散业务数据集合;所述第二时间段为第一时间段之后的时间段;所述第一训练离散业务数据集合包括所述目标特征域对应的历史离散业务数据;
根据所述第一训练离散业务数据集合确定所述第一训练离散用户特征集合;
根据所述第二训练离散业务数据集合确定所述目标特征域的训练标签。


3.根据权利要求1所述的方法,其特征在于,所述预训练画像模型的调整步骤包括:
获取预设的第一保留概率及第二保留概率;
根据所述第一训练样本对所述预训练画像模型进行调整,并且以所述第一保留概率保留第一训练离散用户特征集合中目标特征域对应的历史离散用户特征,以第二保留概率保留第一训练离散用户特征集合中其他特征域对应的历史离散用户特征。


4.根据权利要求1所述的方法,其特征在于,所述第二训练样本的确定步骤包括:
分别获取各训练特征域对应的训练行为数据集合;
获取各所述训练行为数据集合中各训练行为数据对应的标签,得到各训练特征域对应的第一标签集合;
根据各所述第一标签集合中各标签对应的训练行为数据所对应的行为次数及时间衰减系数,确定各所述第一标签集合中各标签的权重;
根据各所述第一标签集合中各标签的权重确定所述第二训练样本对应的候选标签集合;
从所述候选标签集合中选取预设数量的候选标签作为所述第二训练样本对应的目标训练标签,根据所述目标训练标签得到所述第二训练样本对应的训练标签集合;
将所述候选标签集合中剩下的标签组成所述第二训练样本对应的第二训练离散用户特征集合。


5.根据权利要求4所述的方法,其特征在于,所述根据所述目标训练标签得到所述第二训练样本对应的训练标签集合包括:
将所述目标训练标签确定为所述第二训练样本对应的正训练标签;
获取负训练标签;所述负训练标签为第一训练标签和第二训练标签中的至少一种;所述第一训练标签为其他训练样本对应的正训练标签;所述第二训练标签为预设的标签词典中的标签;
将所述正训练标签和负训练标签组成所述第二训练样本对应的训练标签集合。


6.根据权利要求1所述的方法,其特征在于,所述将所述历史离散用户特征集合输入所述目标画像模型,得到所述目标用户对应于所述目标特征域的用户画像包括:
将所述历史离散用户特征集合输入所述目标画像模型的输入层,通过所述输入层向量化所述历史离散用户特征集合,得到各特征域对应的离散特征向量;
通过所述目标画像模型的融合层融合各特征域对应的离散特征向量,得到所述目标用户对应的目标特征向量;
通过所述目标画像模型从所述目标特征域对应的候选用户标签集合中筛选出与所述目标特征向量对应的用户标签,得到所述用户画像。


7.根据权利要求6所述的方法,其特征在于,所述融合层包括域内融合层、域间融合层、特征交叉层和全连接层;所述通过所述目标画像模型的融合层融合各特征域对应的离散特征向量,得到所述目标用户对应的目标特征向量包括:
通过所述域内融合层融合各所述特征域对应的离散特征向量得到各特征域对应的域内特征...

【专利技术属性】
技术研发人员:闫肃陈鑫张旭林乐宇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1