模型迭代训练方法及装置制造方法及图纸

技术编号:20944312 阅读:55 留言:0更新日期:2019-04-24 02:19
本发明专利技术公开了一种模型迭代训练方法,包括:在第一样本库中选取第一迭代负面样本,所述第一迭代负面样本为第一样本库中除第一迭代正例样本之外的其余样本;在所述第一迭代正面样本中随机选取第一数量的第一测试样本,在所述第一迭代负面样本中随机选取第二数量的第二测试样本,根据所述第一数量的第一测试样本以及第二数量的第二测试样本对待训练模型进行模型训练,得到第一迭代训练模型,如此迭代训练,通过不断增加正样本数量提升了负样本的清洁度,如此而训练得到的分类模型稳定性较好。

Model Iterative Training Method and Device

The invention discloses a model iteration training method, which includes: selecting the first iteration negative sample in the first sample library, the first iteration negative sample is the remaining sample in the first sample library except the first iteration positive sample; randomly selecting the first number of test samples in the first iteration positive sample, and randomly selecting the first number of test samples in the first iteration negative sample. According to the first number of first test samples and the second number of second test samples, the training model is trained to get the first iteration training model, so the cleanliness of negative samples is improved by increasing the number of positive samples, and the stability of the training classification model is better.

【技术实现步骤摘要】
模型迭代训练方法及装置
本专利技术涉及数据挖掘
,特别涉及一种模型迭代训练方法及装置。
技术介绍
当前数据挖掘技术受到了各个领域人员的极大关注。数据挖掘的基本任务为海量数据进行分类,而对数据分类通常基于训练好的分类模型实现。现在技术中在训练分类模型时,首先选取用于模型训练的正样本和负样本。其中,正样本指代训练模型用的样本库中已被标记的样本。如具有相同需求或兴趣的一类人群,负样本从样本库中未被标记的样本里选取。之后,根据该正例样本和该负例样本进行一轮模型训练,得到分类模型。然而往往负样本的清洁度会存在不高的问题,导致正例与负例样本区分度不够好,使用这样的样本数据对模型进行训练,模型稳定性不够好,模型的分类准确率等评估指标会相当低。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种模型迭代训练方法。所述技术方案如下:一方面,本专利技术实施例提供了一种模型迭代训练方法,所述方法包括:在第一样本库中选取第一迭代负面样本,所述第一迭代负面样本为第一样本库中除第一迭代正例样本之外的其余样本;在所述第一迭代正面样本中随机选取第一数量的第一测试样本,在所述第一迭代负面样本中随机选取本文档来自技高网...

【技术保护点】
1.一种模型迭代训练方法,其特征在于,所述方法包括:在第一样本库中选取第一迭代负面样本,所述第一迭代负面样本为第一样本库中除第一迭代正例样本之外的其余样本;在所述第一迭代正面样本中随机选取第一数量的第一测试样本,在所述第一迭代负面样本中随机选取第二数量的第二测试样本,所述第一数量与第二数量相等;根据所述第一数量的第一测试样本以及第二数量的第二测试样本对待训练模型进行模型训练,得到第一迭代训练模型;采用所述第一迭代训练模型对第二样本库进行分类测试,当测试结果不符合预定要求时,利用所述第一迭代训练模型对第一样本库进行分类,根据所述分类结果,在第一样本库中确定第二迭代预测正面样本,对于第二迭代预测正...

【技术特征摘要】
1.一种模型迭代训练方法,其特征在于,所述方法包括:在第一样本库中选取第一迭代负面样本,所述第一迭代负面样本为第一样本库中除第一迭代正例样本之外的其余样本;在所述第一迭代正面样本中随机选取第一数量的第一测试样本,在所述第一迭代负面样本中随机选取第二数量的第二测试样本,所述第一数量与第二数量相等;根据所述第一数量的第一测试样本以及第二数量的第二测试样本对待训练模型进行模型训练,得到第一迭代训练模型;采用所述第一迭代训练模型对第二样本库进行分类测试,当测试结果不符合预定要求时,利用所述第一迭代训练模型对第一样本库进行分类,根据所述分类结果,在第一样本库中确定第二迭代预测正面样本,对于第二迭代预测正面样本中的所有样本,分别确定其被分类为正例样本的可能性值,在所述第二迭代预测正面样本中选取被分类为正例样本的可能性值最高的预设数目个样本,将所述预设数目个样本确定为第二特殊...

【专利技术属性】
技术研发人员:张敏
申请(专利权)人:建湖云飞数据科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1