模型训练和数据分类方法及装置制造方法及图纸

技术编号：33352478 阅读：14 留言：0更新日期：2022-05-08 10:01

本公开提供了一种模型训练方法和装置，涉及大数据、机器学习等技术领域。具体实现方案为：根据预先获取的辅助样本和目标样本，得到训练样本；采用预设的权重规则，生成训练样本的训练权重，权重规则用于使辅助样本和目标样本权重占比相同；执行以下训练步骤：将训练样本和训练权重输入基学习器，得到基学习器的输出；基于基学习器的输出，采用迁移算子调整训练权重，直到满足训练停止条件，得到目标模型。该实施方式提高了建模的效率。该实施方式提高了建模的效率。该实施方式提高了建模的效率。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练和数据分类方法及装置

[0001]本公开涉及计算机
，具体涉及大数据、机器学习等
，尤其涉及一种模型训练和数据分类方法及装置、电子设备、计算机可读存储介质以及计算机程序产品。

技术介绍

[0002]在目标样本较少时，建立模型(例如，分类模型)时一般只能采用逻辑回归等方式建模，建模效果不佳；而在对多份有标签样本进行EDA(Exploratory Data Analysis，数据探索性分析)分析时，需要采用人工策略对多份样本进行合并，得出所需要的训练样本，通过训练样本进行混合建模，建模效果不稳定，且需要大量人工介入，耗时久。

技术实现思路

[0003]本公开提供了一种模型训练方法和装置、数据分类方法和装置、电子设备、计算机可读存储介质以及计算机程序产品。
[0004]根据第一方面，提供了一种模型训练方法，该方法包括：根据预先获取的辅助样本和目标样本，得到训练样本；采用预设的权重规则，生成训练样本的训练权重，权重规则用于使辅助样本和目标样本权重占比相同；执行以下训练步骤：将训练样本和训练权重输入基学习器，得到基学习器的输出；基于基学习器的输出，采用迁移算子调整训练权重，直到满足训练停止条件，得到目标模型。
[0005]根据第二方面，提供了一种数据分类方法，该方法包括：获取待分类数据；将待分类数据输入采用如第一方面任一实现方式描述的方法生成的目标模型中，输出待分类数据的分类结果。
[0006]根据第三方面，提供了一种模型训练装置，该装置包括：拼接单元，被配置成根据预...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，所述方法包括：根据预先获取的辅助样本和目标样本，得到训练样本；采用预设的权重规则，生成所述训练样本的训练权重，所述权重规则用于使所述辅助样本和所述目标样本权重占比相同；执行以下训练步骤：将所述训练样本和所述训练权重输入基学习器，得到所述基学习器的输出；基于所述基学习器的输出，采用迁移算子调整所述训练权重，直到满足训练停止条件，得到目标模型。2.根据权利要求1所述的方法，所述方法还包括：若不满足所述训练停止条件，采用调整后的训练权重替代所述训练权重，并采用新基学习器替代所述基学习器，继续执行所述训练步骤，所述新基学习器与所述基学习器的结构和/或参数不同。3.根据权利要求1所述的方法，其中，所述权重规则包括以下任意一项：基于所述辅助样本的数量和所述目标样本的数量均匀生成所述辅助样本和所述目标样本的初始权重，并将所述辅助样本和所述目标样本的初始权重作为训练权重；基于所述辅助样本的数量和所述目标样本的数量均匀生成所述辅助样本和所述目标样本的初始权重，对所述辅助样本和所述目标样本的初始权重中的正样本的权重各自乘以预设系数，对所述辅助样本和所述目标样本权重进行标准化，生成训练权重；基于所述目标样本的数量生成所述目标样本的初始权重，使用截断正态分布函数随机生成所述辅助样本的初始权重，对所述辅助样本和所述目标样本的初始权重进行标准化，生成训练权重。4.根据权利要求1所述的方法，其中，训练停止条件包括以下至少一项：采用所述迁移算子的迭代训练轮次达到预设轮次；所述辅助样本的权重在所述训练权重中的占比大于或等于设定阈值。5.根据权利要求1
‑
4之一所述的方法，其中，所述直到满足所述训练停止条件，得到目标模型，包括：在满足训练停止条件之后，得到每次迭代训练对应的分类器，所述分类器通过调整所述基学习器的参数得到；基于每次迭代训练对应的分类器，采用预设规则确定目标模型。6.根据权利要求5所述的方法，其中，采用预设规则确定目标模型包括以下至少一项：基于所有迭代训练对应的分类器，获取所述目标模型，所述目标模型的输出结果是所有迭代训练对应的分类器的输出结果的均值或者加权均值；从所有迭代训练对应的分类器中确定满足第一预设指标的分类器，作为目标模型；从所有迭代训练对应的分类器中确定满足第二预设指标的分类器，并基于该分类器前设定位的分类器，获取所述目标模型，所述目标模型的输出结果为所述前设定位的分类器的输出结果的均值或加权均值。7.一种数据分类方法，所述方法：获取待分类数据；将所述待分类数据输入如权利要求1
‑
6任一项所述的方法生成的目标模型中，输出所
述待分类数据的分类结果。8.一种模型训练装置，所述装置包括：拼接单元，被配置成根据预先获取的辅助样本和目标样本，得到训练样本；生成单元，被配置成采用预设的权重规则，生成所述训练样本的训练权重，所述权重规则用于使所述辅助样本和所述目标样本权重占比相同；第一输入单元，被配置成将所述训练样本和所述训练权重输入基学习器，得到所述基学习器的输出；调整单元，被配置成基于所述基学习器的输出，采用迁移算子调整所述训练权重；第一获取单元，被配置成在满足所述训练停止条件时，得到目标模...

【专利技术属性】
技术研发人员：王天祺，刘昊骋，徐世界，徐靖宇，田建，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人