模型训练方法、数据类型识别方法和计算机设备技术

技术编号:19344874 阅读:28 留言:0更新日期:2018-11-07 14:54
本说明书实施例提供一种模型训练方法、数据类型识别方法和计算机设备。所述模型训练方法包括:确定迁移变量和互异变量;所述迁移变量用于表征源地区和目标地区之间历史数据的共有特征信息;所述互异变量用于表征源地区和目标地区历史数据的特有特征信息;基于源地区的历史数据,训练基于所述迁移变量和所述互异变量构建的第一分类模型;基于目标地区的历史数据和所述第一分类模型的训练结果,训练基于所述迁移变量和所述互异变量构建的第二分类模型;所述第二分类模型包括差异约束项;所述差异约束项用于约束所述迁移变量在所述第一分类模型和所述第二分类模型之间权重的差异。

Model training method, data type recognition method and computer equipment

The manual embodiment provides a model training method, a data type recognition method and a computer device. The model training methods include: determining migration variables and mutually exclusive variables; using the migration variables to represent the common characteristic information of historical data between source and target areas; using the mutually exclusive variables to represent the unique characteristic information of historical data of source and target areas; and using the historical data of source areas, training bases. The first classification model constructed from the migration variables and the mutually exclusive variables; the second classification model constructed from the migration variables and the mutually exclusive variables is trained based on the historical data of the target area and the training results of the first classification model; the second classification model includes the difference constraints; and the difference constraints. Items are used to constrain differences in weights between the first classification model and the second classification model of the migrating variables.

【技术实现步骤摘要】
模型训练方法、数据类型识别方法和计算机设备
本说明书实施例涉及计算机
,特别涉及一种模型训练方法、数据类型识别方法和计算机设备。
技术介绍
在实际业务中,经常需要从大量的业务数据中识别出标的业务数据。例如,从大量的交易数据中识别出涉及欺诈等违法内容的交易数据。为此,可以训练分类模型,进而可以使用训练的分类模型从大量的业务数据中识别出标的业务数据。受限于业务上线时间较短等因素,一些地区历史数据的数量较少。这样,单独基于该地区的历史数据为该地区训练的分类模型,区分能力较低,容易对来自该地区的业务数据的类型造成误识。
技术实现思路
本说明书实施例的目的是提供一种模型训练方法、数据类型识别方法和计算机设备,以提高训练后的分类模型的区分能力。为实现上述目的,本说明书实施例提供一种模型训练方法,包括:确定迁移变量和互异变量;所述迁移变量用于表征源地区和目标地区之间历史数据的共有特征信息;所述互异变量用于表征源地区和目标地区历史数据的特有特征信息;基于源地区的历史数据,训练基于所述迁移变量和所述互异变量构建的第一分类模型;基于目标地区的历史数据和所述第一分类模型的训练结果,训练基于所述迁移变量和所述互异变量构建的第二分类模型;所述第二分类模型包括差异约束项;所述差异约束项用于约束所述迁移变量在所述第一分类模型和所述第二分类模型之间权重的差异。为实现上述目的,本说明书实施例提供一种计算机设备,包括:确定单元,用于确定迁移变量和互异变量;所述迁移变量用于表征源地区和目标地区之间历史数据的共有特征信息;所述互异变量用于分别表征源地区和目标地区历史数据的特有特征信息;第一训练单元,用于基于源地区的历史数据,训练基于所述迁移变量和所述互异变量构建的第一分类模型;第二训练单元,用于基于目标地区的历史数据和所述第一分类模型的训练结果,训练基于所述迁移变量和所述互异变量构建的第二分类模型;所述第二分类模型包括差异约束项;所述差异约束项用于约束所述迁移变量在所述第一分类模型和所述第二分类模型之间权重的差异。为实现上述目的,本说明书实施例提供一种计算机设备,包括存储器和处理器;所述存储器,用于存储计算机指令;所述处理器,用于执行所述计算机指令实现以下步骤:确定迁移变量和互异变量;所述迁移变量用于表征源地区和目标地区之间历史数据的共有特征信息;所述互异变量用于分别表征源地区和目标地区历史数据的特有特征信息;基于源地区的历史数据,训练基于所述迁移变量和所述互异变量构建的第一分类模型;基于目标地区的历史数据和所述第一分类模型的训练结果,训练基于所述迁移变量和所述互异变量构建的第二分类模型;所述第二分类模型包括差异约束项;所述差异约束项用于约束所述迁移变量在所述第一分类模型和所述第二分类模型之间权重的差异。为实现上述目的,本说明书实施例提供一种数据类型识别方法,包括:使用为目标地区训练的分类模型,识别来自所述目标地区的业务数据的类型。为实现上述目的,本说明书实施例提供一种计算机设备,包括:识别单元,用于使用为目标地区训练的分类模型,识别来自所述目标地区的业务数据的类型。为实现上述目的,本说明书实施例提供一种计算机设备,包括存储器和处理器;所述存储器,用于存储计算机指令;所述处理器,用于执行所述计算机指令实现以下步骤:使用为目标地区训练的分类模型,识别来自所述目标地区的业务数据的类型。由以上本说明书实施例提供的技术方案可见,本说明书实施例,所述计算机设备可以确定迁移变量和互异变量;可以基于源地区的历史数据,训练基于所述迁移变量和所述互异变量构建的第一分类模型;可以基于目标地区的历史数据和所述第一分类模型的训练结果,训练基于所述迁移变量和所述互异变量构建的第二分类模型,所述第二分类模型可以包括差异约束项,所述差异约束项可以用于约束所述迁移变量在所述第一分类模型和所述第二分类模型之间权重的差异。这样,所述第二分类模型可以从源地区的历史数据中学习到源地区和目标地区之间历史数据的共有特征信息;可以从目标地区的历史数据中学习到目标地区历史数据的特有特征信息。从而,所述计算机设备可以同时使用所述源地区的历史数据和所述目标地区的历史数据来为所述目标地区训练分类模型,提高了为所述目标地区训练的分类模型的区分能力。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本说明书实施例一种模型训练方法的流程图;图2为本说明书实施例一种数据类型识别方法的流程图;图3为本说明书实施例一种计算机设备的功能结构示意图;图4为本说明书实施例一种计算机设备的功能结构示意图;图5为本说明书实施例一种计算机设备的功能结构示意图。具体实施方式下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。请参阅图1。本说明书实施例提供一种模型训练方法。所述模型训练方法的执行主体可以为计算机设备。所述计算机设备包括但不限于服务器、工控机(工业控制计算机)、个人计算机(PC机)、一体机等。所述模型训练方法可以包括以下步骤。步骤S10:确定迁移变量和互异变量。在本实施例中,所述计算机设备可以基于源地区的至少一个历史数据和目标地区的至少一个历史数据,从预置的多个变量中选取迁移变量和互异变量。在本实施例中,所述源地区的大小可以根据业务需要灵活设定,例如可以为街道、商圈、城市、国家、或多个国家组成的地区等等。所述目标地区的大小可以根据业务需要灵活设定,例如可以为街道、商圈、城市、国家、或多个国家组成的地区等等。所述源地区的每个历史数据和所述目标地区的每个历史数据均可以为任意类型的数据,例如可以为交易数据、商品评论数据、或聊天数据等。所述源地区的每个历史数据和所述目标地区的每个历史数据均可以具有对应于多个维度的多种特征信息。依赖于历史数据类型的不同,所述维度可以相同或不同。例如,所述历史数据可以为交易数据。那么,所述维度可以包括交易渠道、交易场景、交易时间、交易金额、付款账户、收款账户、交易设备标识、和交易网络地址等。所述交易渠道可以包括无线支付、PC支付、和协议支付等。所述交易场景可以包括当面付、批量扣款、房贷还款、和信用卡还款等。具体地,例如,所述源地区的历史数据可以包括DATA_A1、和DATA_A2,所述目标地区的历史数据可以包括DATA_B1、和DATA_B2。所述历史数据DATA_A1、DATA_A2、DATA_B1、和DATA_B2可以如下表1所示。表1以上述表1中的历史数据DATA_A1为例,所述历史数据DATA_A1对应于交易渠道、交易场景、交易时间、交易金额、付款账户、收款账户、交易设备标识、交易网络地址等维度的特征信息可以分别为无线支付、当面付、20180430、1000、Account1、Account2、ID1、222.92.本文档来自技高网...

【技术保护点】
1.一种模型训练方法,包括:确定迁移变量和互异变量;所述迁移变量用于表征源地区和目标地区之间历史数据的共有特征信息;所述互异变量用于表征源地区和目标地区历史数据的特有特征信息;基于源地区的历史数据,训练基于所述迁移变量和所述互异变量构建的第一分类模型;基于目标地区的历史数据和所述第一分类模型的训练结果,训练基于所述迁移变量和所述互异变量构建的第二分类模型;所述第二分类模型包括差异约束项;所述差异约束项用于约束所述迁移变量在所述第一分类模型和所述第二分类模型之间权重的差异。

【技术特征摘要】
1.一种模型训练方法,包括:确定迁移变量和互异变量;所述迁移变量用于表征源地区和目标地区之间历史数据的共有特征信息;所述互异变量用于表征源地区和目标地区历史数据的特有特征信息;基于源地区的历史数据,训练基于所述迁移变量和所述互异变量构建的第一分类模型;基于目标地区的历史数据和所述第一分类模型的训练结果,训练基于所述迁移变量和所述互异变量构建的第二分类模型;所述第二分类模型包括差异约束项;所述差异约束项用于约束所述迁移变量在所述第一分类模型和所述第二分类模型之间权重的差异。2.如权利要求1所述的方法,所述确定迁移变量和互异变量,包括:基于源地区和目标地区的历史数据,从预置的多个变量中选取迁移变量和互异变量。3.如权利要求2所述的方法,所述从预置的多个变量中选取迁移变量和互异变量,包括:基于源地区和目标地区的历史数据,计算预置的多个变量中至少一个变量的第一特征值;基于变量的第一特征值,从预置的多个变量中选取迁移变量和互异变量。4.如权利要求3所述的方法,所述第一特征值包括互信息值。5.如权利要求2所述的方法,在从预置的多个变量中选取迁移变量和互异变量之前,所述方法还包括:基于源地区和目标地区的历史数据,从预置的多个变量中筛选出多个代表变量;相应地,所述从预置的多个变量中选取迁移变量和互异变量,包括:基于源地区和目标地区的历史数据,从所述多个代表变量中选取迁移变量和互异变量。6.如权利要求5所述的方法,所述从预置的多个变量中筛选出多个代表变量,包括:基于源地区和目标地区的历史数据,计算预置的多个变量中至少一个变量的第二特征值;基于变量的第二特征值,从预置的多个变量中筛选出多个代表变量。7.如权利要求6所述的方法,所述第二特征值包括信息价值。8.如权利要求1所述的方法,所述第一分类模型包括第一权重约束项;所述第一权重约束项用于约束所述互异变量在所述第一分类模型的权重。9.如权利要求1所述的方法,所述第一分类模型的训练结果包括所述迁移变量和所述互异变量在所述第一分类模型的权重;相应地,所述训练基于所述迁移变量和所述互异变量构建的第二分类模型,包括:以所述迁移变量在所述第一分类模型的权重为所述迁移变量在所述第二分类模型的初始权重,以所述互异变量在所述第一分类模型的权重为所述互异变量在所述第二...

【专利技术属性】
技术研发人员:曾利彬
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1