机器学习模型训练方法、装置和计算机设备制造方法及图纸

技术编号:18498137 阅读:26 留言:0更新日期:2018-07-21 20:40
本申请涉及一种机器学习模型训练方法、装置和计算机设备,该方法包括:获取通过社交平台的用户标识相关联的第一用户数据及第一标签;所述第一标签源自第一业务,所述第一用户数据源自所述社交平台;获取通过所述社交平台的用户标识相关联的第二用户数据及第二标签;所述第二用户数据源自所述社交平台,所述第二标签源自第二业务;根据所述第一用户数据、所述第一标签、所述第二用户数据和所述第二标签,训练针对所述第二业务的机器学习模型。本申请的方案可以尽量避免在训练样本不足时导致机器学习模型预测准确性较低的问题。

Machine learning model training method, device and computer equipment

The present application relates to a machine learning model training method, device, and computer equipment. The method comprises obtaining first user data and a first label associated with the user identity of a social platform; the first label derives from a first service, the first user data is derived from the social platform, and obtains through the society. The user ID of the intersection platform is associated with second user data and the two label; the second user data is derived from the social platform, the second label derives from the second service; according to the first user data, the first label, the second user data, and the second tag, the second user data is trained for the second service. Machine learning model. The scheme of this application can avoid the low prediction accuracy of machine learning model when the training sample is insufficient.

【技术实现步骤摘要】
机器学习模型训练方法、装置和计算机设备
本专利技术涉及计算机
,特别是涉及一种机器学习模型训练方法、装置和计算机设备。
技术介绍
机器学习,是让机器基于训练样本训练出机器学习模型的过程,使得机器学习模型具有对训练样本之外的数据具有预测能力。比如,开放人员可以累积与用户信用有关的用户数据,并人工对该用户数据添加标签,从而利用带有标签的用户数据训练机器学习模型;当已知目标用户的用户数据时,就可以利用该机器学习模型预测目标用户的用户信用。然而,目前训练机器学习模型时,需要大量带标签的训练样本,而在业务启动初期,难以累积到足够数量的训练样本,从而导致训练的机器学习模型预测准确性较低。
技术实现思路
基于此,有必要针对目前机器学习模型预测准确性较低的问题,提供一种机器学习模型训练方法、装置和计算机设备。一种机器学习模型训练方法,包括:获取通过社交平台的用户标识相关联的第一用户数据及第一标签;所述第一标签源自第一业务,所述第一用户数据源自所述社交平台;获取通过所述社交平台的用户标识相关联的第二用户数据及第二标签;所述第二用户数据源自所述社交平台,所述第二标签源自第二业务;根据所述第一用户数据、所述第一标签、所述第二用户数据和所述第二标签,训练针对所述第二业务的机器学习模型。一种机器学习模型训练装置,包括:数据收集模块,用于获取通过社交平台的用户标识相关联的第一用户数据及第一标签;所述第一标签源自第一业务,所述第一用户数据源自所述社交平台;获取通过所述社交平台的用户标识相关联的第二用户数据及第二标签;所述第二用户数据源自所述社交平台,所述第二标签源自第二业务;训练模块,用于根据所述第一用户数据、所述第一标签、所述第二用户数据和所述第二标签,训练针对所述第二业务的机器学习模型。一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行机器学习模型训练方法的步骤。上述机器学习模型训练方法、装置和计算机设备,通过社交平台的用户标识,可以将第一业务的第一标签和社交平台中的第一用户数据相关联,并将第二业务的第二标签和社交平台中的第二用户数据相关联。增加第一业务的第一标签,可以补充第二业务所缺乏的第二标签,结合社交平台中存在的第一用户数据和第二用户数据,可以训练出针对第二业务的机器学习模型,该机器学习模型可以实现针对第二业务的预测,可尽量避免在训练样本不足时导致机器学习模型预测准确性较低的问题。附图说明图1为一个实施例中机器学习模型训练方法的应用环境图;图2为一个实施例中用于实施机器学习模型训练方法的计算机设备的内部结构示意图;图3为一个实施例中机器学习模型训练方法的流程示意图;图4为一个实施例中根据所述第一用户数据、所述第一标签、所述第二用户数据和所述第二标签,训练针对所述第二业务的机器学习模型的步骤的流程示意图;图5为一个实施例中第一业务、社交平台和第二业务之间用户数据的关系示意图;图6为一个实施例中构建第一业务的用户数据映射至第二业务的用户数据的映射关系的步骤的流程示意图;图7为一个实施例中通过神经网络算法学习第一业务的用户数据映射至第二业务的用户数据的映射关系的示意图;图8为一个具体应用场景中业务之间关系的示意图;图9为一个实施例中机器学习模型训练装置的结构框图;图10为一个实施例中训练模块的结构框图;图11为一个实施例中权重调整模块的结构框图;图12为另一个实施例中机器学习模型训练装置的结构框图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一业务称为社交平台,且类似地,可将社交平台称为第一业务。第一业务和社交平台两者都是业务,但其不是同一业务。图1为一个实施例中机器学习模型训练方法的应用环境图。参照图1,该应用环境包括计算机设备101、第一业务平台102、社交平台103和第二业务平台104。其中第一业务平台102是实现第一业务的服务器,社交平台103是实现社交平台的服务器,第二业务平台104是实现第二业务的服务器。计算机设备101可从第一业务平台102、社交平台103和第二业务平台104获取训练所需的数据。比如,计算机设备101可从社交平台103获取用户数据,获取的是源自社交平台的用户数据,具体如用户基础数据、用户行为数据和用户终端数据等。计算机设备101可从第一业务平台102和第二业务平台104分别获取相应平台上的用户数据,获取的是源自第一业务或者第二业务的用户数据。源自社交平台的用户数据,可以是用户主动登记或者社交平台自动采集的用户数数据。源自社交平台的用户数据,可以在用户通过社交平台访问非上述社交平台的业务时从相应的访问数据中采集,也可以在社交平台的接口被调用时从相应的接口调用信息中获取,也可以由社交平台的客户端主动上报。其中,用户基础数据比如年龄、性别、学历、职业或者政治面貌等。源自社交平台的用户行为数据可以包括经济行为数据、爱好行为数据、社交行为数据和用户线下行为数据等。经济行为数据比如消费,转账,理财或者收发红包等的行为数据。爱好行为数据比如文章阅读转发,公众号订阅或者内容搜索等的行为数据。社交行为数据,比如好友关注、黑名单成员、点赞或者评论等。用户线下行为数据比如基于地理位置的服务的使用行为数据,比如导航数据、签到数据或者在线打车数据。用户终端数据比如用户终端的型号、品牌名称、自定义名称和/或终端唯一识别编码等。源自第一业务或者第二业务的用户数据,包括用户在相应业务平台的用户基础数据或者用户行为数据。在相应业务平台的用户行为数据,比如在相应业务平台的登录记录、浏览记录或者业务使用记录等。登录记录比如登录次数和登录天数。业务使用记录比如借贷记录或者物品交易记录等。计算机设备101在获取到用户数据后,可对用户数据进行数据清洗后,根据清洗后的用户数据实施机器学习模型训练方法。数据清洗,是发现并纠正数据中可识别的错误的处理过程,具体比如补齐缺失的数据,或者对重复的数据进行去重处理等。在进行数据清洗后,再根据第一用户数据、第一标签、第二用户数据和第二标签,训练针对第二业务的机器学习模型。图2为一个实施例中用于实施机器学习模型训练方法的计算机设备的内部结构示意图。参照图2,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质和内存储器。其中,计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种机器学习模型训练方法。计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。计算机设备的内存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种机器学习模型训练方法。计算机设备可以是终端或者服务器。终端比如个人计算机或者工作站等,服务器可以是独立的物理服务器或者物理服务器集群。本领域技术人员可以理解,图本文档来自技高网...

【技术保护点】
1.一种机器学习模型训练方法,包括:获取通过社交平台的用户标识相关联的第一用户数据及第一标签;所述第一标签源自第一业务,所述第一用户数据源自所述社交平台;获取通过所述社交平台的用户标识相关联的第二用户数据及第二标签;所述第二用户数据源自所述社交平台,所述第二标签源自第二业务;根据所述第一用户数据、所述第一标签、所述第二用户数据和所述第二标签,训练针对所述第二业务的机器学习模型。

【技术特征摘要】
1.一种机器学习模型训练方法,包括:获取通过社交平台的用户标识相关联的第一用户数据及第一标签;所述第一标签源自第一业务,所述第一用户数据源自所述社交平台;获取通过所述社交平台的用户标识相关联的第二用户数据及第二标签;所述第二用户数据源自所述社交平台,所述第二标签源自第二业务;根据所述第一用户数据、所述第一标签、所述第二用户数据和所述第二标签,训练针对所述第二业务的机器学习模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一用户数据、所述第一标签、所述第二用户数据和所述第二标签,训练针对所述第二业务的机器学习模型,包括:根据包括所述第一用户数据和相关联的所述第一标签的训练样本,训练机器学习模型;通过所述机器学习模型对所述第二用户数据进行分类;根据所述分类得到的结果和相应第二用户数据所关联的第二标签,调整所述训练样本的权重分布;根据调整权重分布后的所述训练样本继续训练机器学习模型,直至满足训练停止条件时停止训练,得到针对所述第二业务的机器学习模型。3.根据权利要求2所述的方法,其特征在于,所述根据所述分类得到的结果和相应第二用户数据所关联的第二标签,调整所述训练样本的权重分布,包括:根据所述分类得到的结果和相应第二用户数据所关联的第二标签,确定所述机器学习模型的分类性能参数;根据所述分类性能参数确定权重缩放参数;根据所述权重缩放参数调整所述训练样本的权重分布。4.根据权利要求3所述的方法,其特征在于,当所述分类性能参数为分类正确率时,所述权重缩放参数为与相应权重相乘以调整所述权重分布的正系数,且与所述分类正确率负相关;当所述分类性能参数为分类错误率时,所述权重缩放参数为与相应权重相乘以调整所述权重分布的正系数,且与所述分类错误率正相关。5.根据权利要求2所述的方法,其特征在于,所述训练样本还包括所述第二用户数据和相关联的所述第二标签。6.根据权利要求5所述的方法,其特征在于,所述根据所述分类得到的结果和相应第二用户数据所关联的第二标签,调整所述训练样本的权重分布,包括:当对第二用户数据进行分类得到的结果与相应第二用户数据所关联的第二标签不一致时,将相应第二用户数据所在训练样本的权重占比调高。7.根据权利要求6所述的方法,其特征在于,所述根据所述分类得到的结果和相应第二用户数据所关联的第二标签,调整所述训练样本的权重分布还包括:通过所述机器学习模型对所述第一用户数据进行分类;当对所述第一用户数据进行分类的结果与相应第一用户数据所关联的第一标签不一致时,将相应第一用户数据所在训练样本的权重占比调低。8.根据权利要求2所述的方法,其特征在于,所述训练样本包括通过用户标识相关联的第一用户数据和第三用户数据的组合;所述第三用户数据,是从相应的用户标识所对应的源自于所述第一业务的用户数据映射至所述第二业务的用户数据;所述通过所述机器学习模型对第二用户数据进行分类,包括:对于第二用户数据及与所述第二用户数据通过用户标识相关联的源自所述第二业务...

【专利技术属性】
技术研发人员:刘成烽郑博黄巩怡段培
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1