模型训练和数据分类方法及装置制造方法及图纸

技术编号:33352478 阅读:14 留言:0更新日期:2022-05-08 10:01
本公开提供了一种模型训练方法和装置,涉及大数据、机器学习等技术领域。具体实现方案为:根据预先获取的辅助样本和目标样本,得到训练样本;采用预设的权重规则,生成训练样本的训练权重,权重规则用于使辅助样本和目标样本权重占比相同;执行以下训练步骤:将训练样本和训练权重输入基学习器,得到基学习器的输出;基于基学习器的输出,采用迁移算子调整训练权重,直到满足训练停止条件,得到目标模型。该实施方式提高了建模的效率。该实施方式提高了建模的效率。该实施方式提高了建模的效率。

【技术实现步骤摘要】
模型训练和数据分类方法及装置


[0001]本公开涉及计算机
,具体涉及大数据、机器学习等
,尤其涉及一种模型训练和数据分类方法及装置、电子设备、计算机可读存储介质以及计算机程序产品。

技术介绍

[0002]在目标样本较少时,建立模型(例如,分类模型)时一般只能采用逻辑回归等方式建模,建模效果不佳;而在对多份有标签样本进行EDA(Exploratory Data Analysis,数据探索性分析)分析时,需要采用人工策略对多份样本进行合并,得出所需要的训练样本,通过训练样本进行混合建模,建模效果不稳定,且需要大量人工介入,耗时久。

技术实现思路

[0003]本公开提供了一种模型训练方法和装置、数据分类方法和装置、电子设备、计算机可读存储介质以及计算机程序产品。
[0004]根据第一方面,提供了一种模型训练方法,该方法包括:根据预先获取的辅助样本和目标样本,得到训练样本;采用预设的权重规则,生成训练样本的训练权重,权重规则用于使辅助样本和目标样本权重占比相同;执行以下训练步骤:将训练样本和训练权重输入基学习器,得到基学习器的输出;基于基学习器的输出,采用迁移算子调整训练权重,直到满足训练停止条件,得到目标模型。
[0005]根据第二方面,提供了一种数据分类方法,该方法包括:获取待分类数据;将待分类数据输入采用如第一方面任一实现方式描述的方法生成的目标模型中,输出待分类数据的分类结果。
[0006]根据第三方面,提供了一种模型训练装置,该装置包括:拼接单元,被配置成根据预先获取的辅助样本和目标样本,得到训练样本;生成单元,被配置成采用预设的权重规则,生成训练样本的训练权重,权重规则用于使辅助样本和目标样本权重占比相同;第一输入单元,被配置成将训练样本和训练权重输入基学习器,得到基学习器的输出;调整单元,被配置成基于基学习器的输出,采用迁移算子调整训练权重;第一单元,被配置成在满足训练停止条件时,得到分类模型。
[0007]根据第四方面,又提供了一种数据分类装置,该装置包括:第二获取单元,被配置成被配置成获取待分类数据;第二输入单元,被配置成将待分类数据输入采用如第三方面任一实现方式描述的装置生成的目标模型中,得到待分类数据的分类结果。
[0008]根据第五方面,提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面或第二方面任一实现方式描述的方法。
[0009]根据第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面或第二方面任一实现方式描述的方法。
[0010]根据第七方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面或第二方面任一实现方式描述的方法。
[0011]本公开的实施例提供的模型训练方法和装置,首先,拼接预先获取的辅助样本和目标样本;其次,采用预设的权重规则,生成训练样本的训练权重,权重规则用于使辅助样本和目标样本权重占比相同;再次,将训练样本和训练权重输入基学习器,得到基学习器的输出;最后,基于基学习器的输出,采用迁移算子调整训练权重,直到满足训练停止条件,得到目标模型。由此采用权重规则生成训练样本的训练权重,保证了输入基学习器的训练样本中目标样本和辅助样本的权重的等价性,在基学习器训练过程中采用迁移算子调整训练样本的权重,并在满足训练停止条件时,停止基学习器的训练,得到目标模型,由此提升了建模的效率。
[0012]本公开的实施例提供的数据分类方法和装置,获取待分类数据;将待分类数据输入采用本实施例的模型训练方法生成的目标模型中,得到待分类数据的分类结果。由此,采用模型训练方法得到的目标模型进行分类,可以对待分类数据进行可靠的分类,保证了数据分类的有效性。
[0013]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0014]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0015]图1是根据本公开模型训练方法的一个实施例的流程图;
[0016]图2是根据本公开模型训练方法的另一个实施例的流程图;
[0017]图3是根据本公开数据分类方法的一个实施例的流程图;
[0018]图4是根据本公开模型训练装置的一个实施例的结构示意图;
[0019]图5是根据本公开数据分类装置的一个实施例的结构示意图;
[0020]图6是用来实现本公开实施例的模型训练方法或数据分类方法的电子设备的框图。
具体实施方式
[0021]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0022]针对传统的小目标样本建模效果不好,或者通过多份数据源样本混合建模耗时较长且效果不稳定的问题,本公开提出了一种模型训练方法,图1示出了根据本公开模型训练方法的一个实施例的流程100,上述模型训练方法包括以下步骤:
[0023]步骤101,根据预先获取的辅助样本和目标样本,得到训练样本。
[0024]本实施例中,模型训练方法运行于其上的执行主体可以通过多种方式辅助样本和目标样本,例如,执行主体可以通过有线连接方式或无线连接方式,从数据库服务器中获取存储于其中的辅助样本和目标样本。再例如,用户可以通过与终端通信,获取终端所收集的
辅助样本和目标样本。
[0025]在这里,目标样本是主建模任务对应的实际业务场景样本,辅助样本是其他业务场景或渠道的样本,辅助样本用于辅助主建模任务的建模。目标样本是与辅助样本不同样本,目标样本可以主要用于分类模型的建模,由于目标样本的数量较少,辅助样本用于辅助目标样本进行分类模型的建模。通过对目标样本中的各个样本进行标签标注可以得到目标样本中的正样本和负样本,正样本和负样本用于为基学习器提供可靠的样本区分。可选地,还可以通过对辅助样本中的各个样本进行标签标注得到辅助样本中的正样本和负样本。
[0026]本实施例中,预先获取的目标样本和辅助样本可以是从大量的数据集或数据源中选取的样本,例如,目标样本是从目标样本集中选取的第一预设数目的样本,辅助样本是从辅助样本集中选取的第二预设数目的样本,并且,第一预设数目和第二预设数目可以相等也可以不相等。
[0027]本实施例中,上述根据预先获取的目标样本和辅助样本,得到训练样本包括:分别获取辅助样本和目标样本,拼接辅助样本和目标样本,并使辅助样本位于目标样本前面,得到训练样本。需要说明的是,辅助样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,所述方法包括:根据预先获取的辅助样本和目标样本,得到训练样本;采用预设的权重规则,生成所述训练样本的训练权重,所述权重规则用于使所述辅助样本和所述目标样本权重占比相同;执行以下训练步骤:将所述训练样本和所述训练权重输入基学习器,得到所述基学习器的输出;基于所述基学习器的输出,采用迁移算子调整所述训练权重,直到满足训练停止条件,得到目标模型。2.根据权利要求1所述的方法,所述方法还包括:若不满足所述训练停止条件,采用调整后的训练权重替代所述训练权重,并采用新基学习器替代所述基学习器,继续执行所述训练步骤,所述新基学习器与所述基学习器的结构和/或参数不同。3.根据权利要求1所述的方法,其中,所述权重规则包括以下任意一项:基于所述辅助样本的数量和所述目标样本的数量均匀生成所述辅助样本和所述目标样本的初始权重,并将所述辅助样本和所述目标样本的初始权重作为训练权重;基于所述辅助样本的数量和所述目标样本的数量均匀生成所述辅助样本和所述目标样本的初始权重,对所述辅助样本和所述目标样本的初始权重中的正样本的权重各自乘以预设系数,对所述辅助样本和所述目标样本权重进行标准化,生成训练权重;基于所述目标样本的数量生成所述目标样本的初始权重,使用截断正态分布函数随机生成所述辅助样本的初始权重,对所述辅助样本和所述目标样本的初始权重进行标准化,生成训练权重。4.根据权利要求1所述的方法,其中,训练停止条件包括以下至少一项:采用所述迁移算子的迭代训练轮次达到预设轮次;所述辅助样本的权重在所述训练权重中的占比大于或等于设定阈值。5.根据权利要求1

4之一所述的方法,其中,所述直到满足所述训练停止条件,得到目标模型,包括:在满足训练停止条件之后,得到每次迭代训练对应的分类器,所述分类器通过调整所述基学习器的参数得到;基于每次迭代训练对应的分类器,采用预设规则确定目标模型。6.根据权利要求5所述的方法,其中,采用预设规则确定目标模型包括以下至少一项:基于所有迭代训练对应的分类器,获取所述目标模型,所述目标模型的输出结果是所有迭代训练对应的分类器的输出结果的均值或者加权均值;从所有迭代训练对应的分类器中确定满足第一预设指标的分类器,作为目标模型;从所有迭代训练对应的分类器中确定满足第二预设指标的分类器,并基于该分类器前设定位的分类器,获取所述目标模型,所述目标模型的输出结果为所述前设定位的分类器的输出结果的均值或加权均值。7.一种数据分类方法,所述方法:获取待分类数据;将所述待分类数据输入如权利要求1

6任一项所述的方法生成的目标模型中,输出所
述待分类数据的分类结果。8.一种模型训练装置,所述装置包括:拼接单元,被配置成根据预先获取的辅助样本和目标样本,得到训练样本;生成单元,被配置成采用预设的权重规则,生成所述训练样本的训练权重,所述权重规则用于使所述辅助样本和所述目标样本权重占比相同;第一输入单元,被配置成将所述训练样本和所述训练权重输入基学习器,得到所述基学习器的输出;调整单元,被配置成基于所述基学习器的输出,采用迁移算子调整所述训练权重;第一获取单元,被配置成在满足所述训练停止条件时,得到目标模...

【专利技术属性】
技术研发人员:王天祺刘昊骋徐世界徐靖宇田建
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1