模型训练方法、数据类型识别方法和计算机设备技术

技术编号：19344874 阅读：28 留言：0更新日期：2018-11-07 14:54

本说明书实施例提供一种模型训练方法、数据类型识别方法和计算机设备。所述模型训练方法包括：确定迁移变量和互异变量；所述迁移变量用于表征源地区和目标地区之间历史数据的共有特征信息；所述互异变量用于表征源地区和目标地区历史数据的特有特征信息；基于源地区的历史数据，训练基于所述迁移变量和所述互异变量构建的第一分类模型；基于目标地区的历史数据和所述第一分类模型的训练结果，训练基于所述迁移变量和所述互异变量构建的第二分类模型；所述第二分类模型包括差异约束项；所述差异约束项用于约束所述迁移变量在所述第一分类模型和所述第二分类模型之间权重的差异。

Model training method, data type recognition method and computer equipment

The manual embodiment provides a model training method, a data type recognition method and a computer device. The model training methods include: determining migration variables and mutually exclusive variables; using the migration variables to represent the common characteristic information of historical data between source and target areas; using the mutually exclusive variables to represent the unique characteristic information of historical data of source and target areas; and using the historical data of source areas, training bases. The first classification model constructed from the migration variables and the mutually exclusive variables; the second classification model constructed from the migration variables and the mutually exclusive variables is trained based on the historical data of the target area and the training results of the first classification model; the second classification model includes the difference constraints; and the difference constraints. Items are used to constrain differences in weights between the first classification model and the second classification model of the migrating variables.

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、数据类型识别方法和计算机设备
本说明书实施例涉及计算机
，特别涉及一种模型训练方法、数据类型识别方法和计算机设备。
技术介绍
在实际业务中，经常需要从大量的业务数据中识别出标的业务数据。例如，从大量的交易数据中识别出涉及欺诈等违法内容的交易数据。为此，可以训练分类模型，进而可以使用训练的分类模型从大量的业务数据中识别出标的业务数据。受限于业务上线时间较短等因素，一些地区历史数据的数量较少。这样，单独基于该地区的历史数据为该地区训练的分类模型，区分能力较低，容易对来自该地区的业务数据的类型造成误识。
技术实现思路
本说明书实施例的目的是提供一种模型训练方法、数据类型识别方法和计算机设备，以提高训练后的分类模型的区分能力。为实现上述目的，本说明书实施例提供一种模型训练方法，包括：确定迁移变量和互异变量；所述迁移变量用于表征源地区和目标地区之间历史数据的共有特征信息；所述互异变量用于表征源地区和目标地区历史数据的特有特征信息；基于源地区的历史数据，训练基于所述迁移变量和所述互异变量构建的第一分类模型；基于目标地区的历史数据和所述第一分类模型的训练结果，训练基于所述迁移变量和所述互异变量构建的第二分类模型；所述第二分类模型包括差异约束项；所述差异约束项用于约束所述迁移变量在所述第一分类模型和所述第二分类模型之间权重的差异。为实现上述目的，本说明书实施例提供一种计算机设备，包括：确定单元，用于确定迁移变量和互异变量；所述迁移变量用于表征源地区和目标地区之间历史数据的共有特征信息；所述互异变量用于分别表征源地区和目标地区历史数据的特有特征信息；第一训练...

【技术保护点】
1.一种模型训练方法，包括：确定迁移变量和互异变量；所述迁移变量用于表征源地区和目标地区之间历史数据的共有特征信息；所述互异变量用于表征源地区和目标地区历史数据的特有特征信息；基于源地区的历史数据，训练基于所述迁移变量和所述互异变量构建的第一分类模型；基于目标地区的历史数据和所述第一分类模型的训练结果，训练基于所述迁移变量和所述互异变量构建的第二分类模型；所述第二分类模型包括差异约束项；所述差异约束项用于约束所述迁移变量在所述第一分类模型和所述第二分类模型之间权重的差异。

【技术特征摘要】
1.一种模型训练方法，包括：确定迁移变量和互异变量；所述迁移变量用于表征源地区和目标地区之间历史数据的共有特征信息；所述互异变量用于表征源地区和目标地区历史数据的特有特征信息；基于源地区的历史数据，训练基于所述迁移变量和所述互异变量构建的第一分类模型；基于目标地区的历史数据和所述第一分类模型的训练结果，训练基于所述迁移变量和所述互异变量构建的第二分类模型；所述第二分类模型包括差异约束项；所述差异约束项用于约束所述迁移变量在所述第一分类模型和所述第二分类模型之间权重的差异。2.如权利要求1所述的方法，所述确定迁移变量和互异变量，包括：基于源地区和目标地区的历史数据，从预置的多个变量中选取迁移变量和互异变量。3.如权利要求2所述的方法，所述从预置的多个变量中选取迁移变量和互异变量，包括：基于源地区和目标地区的历史数据，计算预置的多个变量中至少一个变量的第一特征值；基于变量的第一特征值，从预置的多个变量中选取迁移变量和互异变量。4.如权利要求3所述的方法，所述第一特征值包括互信息值。5.如权利要求2所述的方法，在从预置的多个变量中选取迁移变量和互异变量之前，所述方法还包括：基于源地区和目标地区的历史数据，从预置的多个变量中筛选出多个代表变量；相应地，所述从预置的多个变量中选取迁移变量和互异变量，包括：基于源地区和目标地区的历史数据，从所述多个代表变量中选取迁移变量和互异变量。6.如权利要求5所述的方法，所述从预置的多个变量中筛选出多个代表变量，包括：基于源地区和目标地区的历史数据，计算预置的多个变量中至少一个变量的第二特征值；基于变量的第二特征值，从预置的多个变量中筛选出多个代表变量。7.如权利要求6所述的方法，所述第二特征值包括信息价值。8.如权利要求1所述的方法，所述第一分类模型包括第一权重约束项；所述第一权重约束项用于约束所述互异变量在所述第一分类模型的权重。9.如权利要求1所述的方法，所述第一分类模型的训练结果包括所述迁移变量和所述互异变量在所述第一分类模型的权重；相应地，所述训练基于所述迁移变量和所述互异变量构建的第二分类模型，包括：以所述迁移变量在所述第一分类模型的权重为所述迁移变量在所述第二分类模型的初始权重，以所述互异变量在所述第一分类模型的权重为所述互异变量在所述第二...

【专利技术属性】
技术研发人员：曾利彬，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人