机器学习模型训练方法、装置和计算机设备制造方法及图纸

技术编号：18498137 阅读：26 留言：0更新日期：2018-07-21 20:40

本申请涉及一种机器学习模型训练方法、装置和计算机设备，该方法包括：获取通过社交平台的用户标识相关联的第一用户数据及第一标签；所述第一标签源自第一业务，所述第一用户数据源自所述社交平台；获取通过所述社交平台的用户标识相关联的第二用户数据及第二标签；所述第二用户数据源自所述社交平台，所述第二标签源自第二业务；根据所述第一用户数据、所述第一标签、所述第二用户数据和所述第二标签，训练针对所述第二业务的机器学习模型。本申请的方案可以尽量避免在训练样本不足时导致机器学习模型预测准确性较低的问题。

Machine learning model training method, device and computer equipment

The present application relates to a machine learning model training method, device, and computer equipment. The method comprises obtaining first user data and a first label associated with the user identity of a social platform; the first label derives from a first service, the first user data is derived from the social platform, and obtains through the society. The user ID of the intersection platform is associated with second user data and the two label; the second user data is derived from the social platform, the second label derives from the second service; according to the first user data, the first label, the second user data, and the second tag, the second user data is trained for the second service. Machine learning model. The scheme of this application can avoid the low prediction accuracy of machine learning model when the training sample is insufficient.

全部详细技术资料下载

【技术实现步骤摘要】
机器学习模型训练方法、装置和计算机设备
本专利技术涉及计算机
，特别是涉及一种机器学习模型训练方法、装置和计算机设备。
技术介绍
机器学习，是让机器基于训练样本训练出机器学习模型的过程，使得机器学习模型具有对训练样本之外的数据具有预测能力。比如，开放人员可以累积与用户信用有关的用户数据，并人工对该用户数据添加标签，从而利用带有标签的用户数据训练机器学习模型；当已知目标用户的用户数据时，就可以利用该机器学习模型预测目标用户的用户信用。然而，目前训练机器学习模型时，需要大量带标签的训练样本，而在业务启动初期，难以累积到足够数量的训练样本，从而导致训练的机器学习模型预测准确性较低。
技术实现思路
基于此，有必要针对目前机器学习模型预测准确性较低的问题，提供一种机器学习模型训练方法、装置和计算机设备。一种机器学习模型训练方法，包括：获取通过社交平台的用户标识相关联的第一用户数据及第一标签；所述第一标签源自第一业务，所述第一用户数据源自所述社交平台；获取通过所述社交平台的用户标识相关联的第二用户数据及第二标签；所述第二用户数据源自所述社交平台，所述第二标签源自第二业务；根据所述第一用户数据、所述第一标签、所述第二用户数据和所述第二标签，训练针对所述第二业务的机器学习模型。一种机器学习模型训练装置，包括：数据收集模块，用于获取通过社交平台的用户标识相关联的第一用户数据及第一标签；所述第一标签源自第一业务，所述第一用户数据源自所述社交平台；获取通过所述社交平台的用户标识相关联的第二用户数据及第二标签；所述第二用户数据源自所述社交平台，所述第二标签源自第二业务；训练模块...

【技术保护点】
1.一种机器学习模型训练方法，包括：获取通过社交平台的用户标识相关联的第一用户数据及第一标签；所述第一标签源自第一业务，所述第一用户数据源自所述社交平台；获取通过所述社交平台的用户标识相关联的第二用户数据及第二标签；所述第二用户数据源自所述社交平台，所述第二标签源自第二业务；根据所述第一用户数据、所述第一标签、所述第二用户数据和所述第二标签，训练针对所述第二业务的机器学习模型。

【技术特征摘要】
1.一种机器学习模型训练方法，包括：获取通过社交平台的用户标识相关联的第一用户数据及第一标签；所述第一标签源自第一业务，所述第一用户数据源自所述社交平台；获取通过所述社交平台的用户标识相关联的第二用户数据及第二标签；所述第二用户数据源自所述社交平台，所述第二标签源自第二业务；根据所述第一用户数据、所述第一标签、所述第二用户数据和所述第二标签，训练针对所述第二业务的机器学习模型。2.根据权利要求1所述的方法，其特征在于，所述根据所述第一用户数据、所述第一标签、所述第二用户数据和所述第二标签，训练针对所述第二业务的机器学习模型，包括：根据包括所述第一用户数据和相关联的所述第一标签的训练样本，训练机器学习模型；通过所述机器学习模型对所述第二用户数据进行分类；根据所述分类得到的结果和相应第二用户数据所关联的第二标签，调整所述训练样本的权重分布；根据调整权重分布后的所述训练样本继续训练机器学习模型，直至满足训练停止条件时停止训练，得到针对所述第二业务的机器学习模型。3.根据权利要求2所述的方法，其特征在于，所述根据所述分类得到的结果和相应第二用户数据所关联的第二标签，调整所述训练样本的权重分布，包括：根据所述分类得到的结果和相应第二用户数据所关联的第二标签，确定所述机器学习模型的分类性能参数；根据所述分类性能参数确定权重缩放参数；根据所述权重缩放参数调整所述训练样本的权重分布。4.根据权利要求3所述的方法，其特征在于，当所述分类性能参数为分类正确率时，所述权重缩放参数为与相应权重相乘以调整所述权重分布的正系数，且与所述分类正确率负相关；当所述分类性能参数为分类错误率时，所述权重缩放参数为与相应权重相乘以调整所述权重分布的正系数，且与所述分类错误率正相关。5.根据权利要求2所述的方法，其特征在于，所述训练样本还包括所述第二用户数据和相关联的所述第二标签。6.根据权利要求5所述的方法，其特征在于，所述根据所述分类得到的结果和相应第二用户数据所关联的第二标签，调整所述训练样本的权重分布，包括：当对第二用户数据进行分类得到的结果与相应第二用户数据所关联的第二标签不一致时，将相应第二用户数据所在训练样本的权重占比调高。7.根据权利要求6所述的方法，其特征在于，所述根据所述分类得到的结果和相应第二用户数据所关联的第二标签，调整所述训练样本的权重分布还包括：通过所述机器学习模型对所述第一用户数据进行分类；当对所述第一用户数据进行分类的结果与相应第一用户数据所关联的第一标签不一致时，将相应第一用户数据所在训练样本的权重占比调低。8.根据权利要求2所述的方法，其特征在于，所述训练样本包括通过用户标识相关联的第一用户数据和第三用户数据的组合；所述第三用户数据，是从相应的用户标识所对应的源自于所述第一业务的用户数据映射至所述第二业务的用户数据；所述通过所述机器学习模型对第二用户数据进行分类，包括：对于第二用户数据及与所述第二用户数据通过用户标识相关联的源自所述第二业务...

【专利技术属性】
技术研发人员：刘成烽，郑博，黄巩怡，段培，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人