用户表征方法、装置、电子设备及计算机可读介质制造方法及图纸

技术编号:25441895 阅读:22 留言:0更新日期:2020-08-28 22:29
本申请实施例提供了一种用户表征方法、装置、电子设备及计算机可读介质,涉及人工智能领域。其中,所述方法包括:基于样本用户在源领域中的第一特征数据和所述样本用户在目标领域中的第二特征数据,对待训练的跨领域特征表征模型进行训练;通过训练后的所述跨领域特征表征模型,基于待表征的用户在所述源领域中的第三特征数据,生成所述待表征的用户在所述目标领域中的第一跨领域特征表征数据。通过本申请实施例,能够有效地提升目标领域特征缺失的用户在目标领域中的个性化表征效果。

【技术实现步骤摘要】
用户表征方法、装置、电子设备及计算机可读介质
本申请实施例涉及人工智能领域,尤其涉及一种用户表征方法、装置、电子设备及计算机可读介质。
技术介绍
关于冷启动用户的商品推荐与商品搜索是现代电子商务中提高用户活跃度和拉动用户量增长的重要手段,同时也是用户对电商平台的第一印象的重要参考。然而,冷启动用户通常缺少对电商平台的商品的点击或购买等历史行为,并且在电商平台的用户画像非常稀疏,使用传统的机器学习模型对冷启动用户偏好进行预估,很难达到较高的准确度。得益于大数据平台的发展,在很多电商公司中,除了商品推荐任务所在的领域,还会有其他的领域,例如,淘宝之外还有支付宝、高德、飞猪等,网易严选之外还有网易新闻等。对两个不同的领域进行账号对齐,便可获取冷启动用户在其他领域所具有的特征信息,可以极大地提升冷启动用户针对目标领域中的商品推荐任务的个性化效果,从而进行跨领域的商品推荐。其中,将冷启动用户的特征信息较为丰富的领域称为源领域,而将商品推荐任务所在的领域称为目标领域。在跨领域的商品推荐任务的处理方式上,传统的方法对冷启动用户在源领域与目标领域的特征信息进行级联,并将级联的特征信息作为冷启动用户在目标领域的特征输入,学习冷启动用户整体的表征。具体地,通过构建机器学习模型进行个性化的商品推荐来学习冷启动用户整体的表征。然而,目标领域的特征信息与目标领域的商品推荐任务贴近程度更高,具有更强的表征能力,学习过程会向目标领域的特征学习倾斜,源领域的特征学习会不够充分,而针对目标领域特征缺失严重的冷启动用户,往往无法提升冷启动用户在目标领域的个性化表征效果。
技术实现思路
本申请的目的在于提出一种用户表征方法、装置、电子设备及计算机可读介质,用于解决现有技术中存在的如何有效地提升目标领域特征缺失的用户在目标领域中的个性化表征效果的问题。根据本申请实施例的第一方面,提供了一种用户表征方法。所述方法包括:基于样本用户在源领域中的第一特征数据和所述样本用户在目标领域中的第二特征数据,对待训练的跨领域特征表征模型进行训练;通过训练后的所述跨领域特征表征模型,基于待表征的用户在所述源领域中的第三特征数据,生成所述待表征的用户在所述目标领域中的第一跨领域特征表征数据。根据本申请实施例的第二方面,提供了一种用户表征装置。所述装置包括:第一训练模块,用于基于样本用户在源领域中的第一特征数据和所述样本用户在目标领域中的第二特征数据,对待训练的跨领域特征表征模型进行训练;第一生成模块,用于通过训练后的所述跨领域特征表征模型,基于待表征的用户在所述源领域中的第三特征数据,生成所述待表征的用户在所述目标领域中的第一跨领域特征表征数据。根据本申请实施例的第三方面,提供了一种电子设备,包括:一个或多个处理器;计算机可读介质,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述实施例的第一方面所述的用户表征方法。根据本申请实施例的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例的第一方面所述的用户表征方法。通过本申请实施例提供的技术方案,基于样本用户在源领域中的第一特征数据和样本用户在目标领域中的第二特征数据,对待训练的跨领域特征表征模型进行训练,并通过训练后的跨领域特征表征模型,基于待表征的用户在源领域中的第三特征数据,生成待表征的用户在目标领域中的第一跨领域特征表征数据,与现有的其它方式相比,基于待表征的用户在源领域中的特征数据,生成待表征的用户在目标领域中的跨领域特征表征数据,能够有效地提升目标领域特征不同程度缺失的用户在目标领域中的个性化表征效果。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1为本申请实施例一中用户表征方法的步骤流程图;图2为根据本申请实施例一提供的跨领域特征表征模型的训练过程的示意图;图3为本申请实施例二中用户表征方法的步骤流程图;图4为根据本申请实施例二提供的处理对象预估任务的框架的示意图;图5为本申请实施例三中用户表征装置的结构示意图;图6为本申请实施例四中用户表征装置的结构示意图;图7为本申请实施例五中用户表征装置的结构示意图;图8为本申请实施例六中电子设备的结构示意图;图9为本申请实施例七中电子设备的硬件结构。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅配置为解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。参照图1,示出了本申请实施例一的用户表征方法的步骤流程图。具体地,本实施例提供的用户表征方法包括以下步骤:在步骤S101中,基于样本用户在源领域中的第一特征数据和所述样本用户在目标领域中的第二特征数据,对待训练的跨领域特征表征模型进行训练。在本申请实施例中,所述样本用户为活跃用户,也即是在源领域中的特征和在目标领域中的特征均比较丰富的用户。所述目标领域可理解为当前预估任务所在的领域,例如,当前在淘宝客户端中进行商品点击率预估任务或商品转化率预估任务,那么目标领域为淘宝客户端。其中,商品点击率预估任务可理解为预估用户浏览并点击商品的概率的任务,商品转化率预估任务可理解为预估用户点击并购买商品的概率的任务。又例如,当前在书旗小说客户端进行小说点击率预估任务或小说转化率预估任务,那么目标领域为书旗小说客户端。所述源领域可理解为除目标领域以外有其他特征或知识可供迁移至目标领域的领域。例如,当目标领域为淘宝客户端时,源领域可为支付宝客户端、高德客户端、飞猪客户端等。又例如,当目标领域为书旗小说客户端时,源领域可为淘宝客户端、支付宝客户端等。又例如,当目标领域为网易严选客户端时,源领域可为网易新闻客户端。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。在本申请实施例中,所述第一特征数据可理解为样本用户在源领域中的整体特征数据,包括样本用户在源领域中的行为特征数据和用户画像数据,例如,当源领域为支付宝客户端、高德客户端,或飞猪客户端时,所述第一特征数据可包括样本用户的机票购买数据和行程规划数据等。所述第二特征数据可理解为样本用户在目标领域中的整体特征数据,包括样本用户在目标领域中的行为特征数据和用户画像数据,例如,当目标领域为淘宝客户端时,所述第二特征数据可包括样本用户在淘宝客户端中的历史点击和购买的行为序列数据,以及样本用户在淘宝客户端中的购买力数据、性别数据、年龄数据等。所述待训练的跨领域特征表征模型可为多个全连接层构成的神经网络模型,例如,三个全连接层构成的神经网络模型,第一个全连接层可将输入数据映射为1028维的向量,第二全连本文档来自技高网
...

【技术保护点】
1.一种用户表征方法,其特征在于,所述方法包括:/n基于样本用户在源领域中的第一特征数据和所述样本用户在目标领域中的第二特征数据,对待训练的跨领域特征表征模型进行训练;/n通过训练后的所述跨领域特征表征模型,基于待表征的用户在所述源领域中的第三特征数据,生成所述待表征的用户在所述目标领域中的第一跨领域特征表征数据。/n

【技术特征摘要】
1.一种用户表征方法,其特征在于,所述方法包括:
基于样本用户在源领域中的第一特征数据和所述样本用户在目标领域中的第二特征数据,对待训练的跨领域特征表征模型进行训练;
通过训练后的所述跨领域特征表征模型,基于待表征的用户在所述源领域中的第三特征数据,生成所述待表征的用户在所述目标领域中的第一跨领域特征表征数据。


2.根据权利要求1所述的方法,其特征在于,所述基于样本用户在源领域中的第一特征数据和所述样本用户在目标领域中的第二特征数据,对待训练的跨领域特征表征模型进行训练,包括:
基于所述第一特征数据、所述第二特征数据、所述目标领域中与所述样本用户关联的样本对象的第四特征数据,及所述样本用户针对所述样本对象的行为标注数据,对所述待训练的跨领域特征表征模型进行训练。


3.根据权利要求2所述的方法,其特征在于,所述基于所述第一特征数据、所述第二特征数据、所述目标领域中与所述样本用户关联的样本对象的第四特征数据,及所述样本用户针对所述样本对象的行为标注数据,对所述待训练的跨领域特征表征模型进行训练,包括:
基于所述第一特征数据和所述第二特征数据,对所述跨领域特征表征模型和第一目标领域特征表征模型进行第一训练;
基于所述第二特征数据、所述第四特征数据和所述行为标注数据,对所述第一目标领域特征表征模型、第一对象特征表征模型和第一对象预估模型进行第二训练;
基于所述第一特征数据、所述第四特征数据和所述行为标注数据,对所述跨领域特征表征模型、所述第一对象特征表征模型和所述第一对象预估模型进行第三训练。


4.根据权利要求3所述的方法,其特征在于,所述基于所述第一特征数据和所述第二特征数据,对所述跨领域特征表征模型和第一目标领域特征表征模型进行第一训练,包括:
通过所述跨领域特征表征模型,基于所述第一特征数据,生成所述样本用户在所述目标领域中的第二跨领域特征表征数据;
通过所述第一目标领域特征表征模型,基于所述第二特征数据,生成所述样本用户的第一目标领域特征表征数据;
基于所述第二跨领域特征表征数据和所述第一目标领域特征表征数据,对所述跨领域特征表征模型和所述第一目标领域特征表征模型进行第一训练。


5.根据权利要求4所述的方法,其特征在于,所述基于所述第二跨领域特征表征数据和所述第一目标领域特征表征数据,对所述跨领域特征表征模型和所述第一目标领域特征表征模型进行第一训练,包括:
通过距离度量函数,确定所述第二跨领域特征表征数据和所述第一目标领域特征表征数据的距离值;
基于所述距离值,调整所述跨领域特征表征模型和所述第一目标领域特征表征模型的参数。


6.根据权利要求3所述的方法,其特征在于,所述基于所述第二特征数据、所述第四特征数据和所述行为标注数据,对所述第一目标领域特征表征模型、第一对象特征表征模型和第一对象预估模型进行第二训练,包括:
通过所述第一目标领域特征表征模型,基于所述第二特征数据,生成所述样本用户的第一目标领域特征表征数据;
通过所述第一对象特征表征模型,基于所述第四特征数据,生成所述样本对象的特征表征数据;
通过所述第一对象预估模型,基于所述第一目标领域特征表征数据和所述样本对象的特征表征数据,对所述样本用户针对所述样本对象的行为进行预估,以获得所述样本用户针对所述样本对象的行为预估数据;
基于所述行为标注数据和所述行为预估数据,对所述第一目标领域特征表征模型、所述第一对象特征表征模型和所述第一对象预估模型进行第二训练。


7.根据权利要求6所述的方法,其特征在于,所述基于所述行为标注数据和所述行为预估数据,对所述第一目标领域特征表征模型、所述第一对象特征表征模型和所述第一对象预估模型进行第二训练,包括:
通过目标损失函数,确定所述行为标注数据和所述行为预估数据的差异值;
基于所述差异值,调整所述第一目标领域特征表征模型、所述第一对象特征表征模型和所述第一对象预估模型的参数。


8.根据权利要求3所述的方法,其特征在于,所述基于所述第一特征数据、所述第四特征数据和所述行为标注数据,对所述跨领域特征表征模型、所述第一对象特征表征模型和所述第一对象预估模型进行第三训练,包括:
通过所述跨领域特征表征模型,基于所述第一特征数据,生成所述样本用户在所述目标领域中的第二跨领域特征表征数据;
通过所述第一对象特征表征模型,基于所述第四特征数据,生成所述样本对象的特征表征数据;
通过所述第一对象预估模型,基于所述第二跨领域特征表征数据和所述样本对象的特征表征数据,对所述样本用户针对所述样本对象的行为进行预估,以获得所述样本用户针对所述样本对象的行为预估数据;
基于所述行为标注数据和所述行为预估数据,对所述跨领域特征表征模型、所述第一对象特征表征模型和所述第一对象预估模型进行第三训练。


9.根据权利要求8所述的方法,其特征在于,所述基于所述行为标注数据和所述行为预估数据,对所述跨领域特征表征模型、所述第一对象特征表征模型和所述第一对象预估模型进行第三训练,包括:
通过目标损失函数,确定所述行为标注数据和所述行为预估数据的差异值;
基于所述差异值,调整所述跨领域特征表征模型、所述第一对象特征表征模型和所述第一对象预估模型的参数。


10.根据权利要求2-9中任意一项权利要求所述的方法,其特征在于,所述通过训练后的所述跨领域特征表征模型,基于待表征的用户在所述源领域中的第三特征数据,生成所述待表征的用户在所述目标领域中的第一跨领域特征表征数据,包括:
通过训练后的所述跨领域特征表征模型,基于所述待表征的用户在所述源领域中的第三特征数据,生成所述待表征的用户针对所述目标领域中的对象预估任务的第三跨领域特征表征数据。


11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
通过源领域特征表征模型,基于所述待表征的用户在所述源领域中的第三特征数据,生成所述待表征的用户针对所述对象预估任务的源领域特征表征数据;
通过第二目标领域特征表征模型,基于所述待表征的用户在所述目标领域中的第五特征数据,生成所述待表征的用户针对所述对象预估任务的第二目标领域特征表征数据;
基于所述第三跨领域特征表征数据、所述源领域特征表征数据和所述第二目标领域特征表征数据,确定所述待表征的用户的综合特征表征数据。


12.根据权利要求11所述的方法,其特征在于,所述基于所述第三跨领域特征表征数据、所述源领域特征表征数据和所述第二目标领域特征表征数据,确定所述待表征的用户的综合特征表征数据,包括:
通过域注意力模型,对所述第三跨领域特征表征数据、所述源领域特征表征数据和所述第二目标领域特征表征数据进行处理,以获得所述第三跨领域特征表征数据、所述源领域特征表征数据和所述第二目标领域特征表征数据分别对应的权重值;
基于所述第三跨领域特征表征数据、所述源领域特征表征数据和所述第二目标领域特征表征数据分别对应的权重值、所述第三跨领域特征表征数据、所述源领域特征表征数据和所述第二目标领域特征表征数据,确定所述待表征的用户的综合特征表征数据。


13.根据权利要求12所述的方法,其特征在于,所述通过域注意力模型,对所述第三跨领域特征表征数据、所述源领域特征表征数据和所述第二目标领域特征表征数据进行处理,以获得所述第三跨领域特征表征数据、所述源领域特征表征数据和所述第二目标领域特征表征数据分别对应的权重值,包括:
通过所述域注意力模型的卷积层,对所述第三跨领域特征表征数据、所述源领域特征表征数据和所述第二目标领域特征表征数据进行卷积操作,以获得所述第三跨领域特征表征数据、所述源领域特征表征数据和所述第二目标领域特征表征数据的特征图;
通过所述域注意力模型的全连接层,对所述特征图进行映射操作,以获得所述第三跨领域特征表征数据、所述源领域特征表征数据和所述第二目标领域特征表征数据的权重特征向量;
通过所述域注意力模型的计算层,对所述权重特征向量进行归一化操作,以获得所述第三跨领域特征表征数据、所述源领域特征表征数据和所述第二目标领域特征表征数据分别对应的权重值。


14.根据权利要求11-13中任意一项权利要求所述的方法,其特征在于,所述方法还包括:
通过第二对象特征表征模型,基于所述目标领域中待预估的对象的第六特征数据,生成所述待预估的对象针对所述对象预估任务的特征表征数据;
...

【专利技术属性】
技术研发人员:张心梓陈海凯
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1