跨场景迁移分类模型形成方法、装置及可读存储介质制造方法及图纸

技术编号:30702258 阅读:62 留言:0更新日期:2021-11-06 09:40
本申请提供的跨场景迁移分类模型形成方法、装置及可读存储介质,将源域样本集与目标域训练样本集组成训练样本集,训练样本集与目标域测试集的分布不同,通过调整源域样本与目标域训练样本的样本权重,找到源域样本中与目标域分布最接近的样本,同时放大目标域样本损失的影响,增加有效数据权重,降低无效数据权重。通过模型效果参数判断是否迭代结束,并将训练过程中表现最好的一次作为决策。相对于现有技术中迁移学习算法通过提升多个弱分类器,使用后一半的弱分类器进行综合投票,得出最后的决策的方式,本申请使用在训练过程中表现最好的学习器进行决策,相当于整个迁移学习过程只发生在模型训练过程中,降低了开发难度。降低了开发难度。降低了开发难度。

【技术实现步骤摘要】
跨场景迁移分类模型形成方法、装置及可读存储介质


[0001]本申请涉及人工智能
,具体而言,涉及一种跨场景迁移分类模型形成方法、装置及可读存储介质。

技术介绍

[0002]传统的机器学习模型都是建立在训练集和测试集服从相同分布的基础上,这种假设在许多情况下并不满足,有时候训练集会过期,而重新去标注数据代价较大,所以希望利用一些分布不同的训练集,训练出一个分类器,在测试集上可以取得不错的分类效果。例如某单位(比如,银行)开拓新业务(比如,大额消费贷款业务)时间较短,此时该场景下的样本量不充分,坏样本较少,然而该银行亟需做该新业务场景下的模型,强行建模就会导致模型预测能力不强,模型不稳定。

技术实现思路

[0003]为了至少克服现有技术中的上述不足,本申请的目的在于提供一种跨场景迁移分类模型形成方法、装置及可读存储介质,用于解决上述技术问题。
[0004]第一方面,本申请实施例提供一种跨场景迁移分类模型形成方法,应用于计算机设备,所述方法包括:
[0005]初始化样本集权重参数及确定分类算法和迭代次数,其中,所述样本集包括由源域样本集与目标域训练样本集组成的训练样本集及由目标域测试样本组成的目标域测试集;
[0006]调用所述分类算法,基于所述训练样本集中各样本的权重分布情况及所述目标域测试集,得到一在所述目标域测试集上的分类器;
[0007]计算所述分类器在所述目标域训练样本集的错误率,并基于所述错误率调整所述训练样本集的权重;
[0008]计算所述分类器在所述目标域测试集上的模型效果参数,并存储对应的迭代标签;
[0009]检测所述模型效果参数是否满足迭代结束条件,在不满足迭代结束条件时回到所述调用所述分类算法,基于所述训练样本集中各样本的权重分布情况及所述目标域测试集,得到一在所述目标域测试集上的分类器的步骤,直到所述模型效果参数满足迭代结束的条件时,将所述模型效果参数满足迭代结束的条件所对应的分类器作为训练好的分类模型。
[0010]本申请提供的方案,将源域样本集与目标域训练样本集组成训练样本集,训练样本集与目标域测试集的分布不同,通过调整源域样本与目标域训练样本的样本权重,找到源域样本中与目标域分布最接近的样本,同时放大目标域样本损失的影响,增加有效数据权重,降低无效数据权重。通过模型效果参数判断是否迭代结束,并将训练过程中表现最好的一次作为决策。相对于现有技术中迁移学习算法通过提升多个弱分类器,使用后一半的
弱分类器进行综合投票,得出最后的决策的方式,本方案使用在训练过程中表现最好的学习器进行决策,相当于整个迁移学习过程只发生在模型训练过程中,降低了开发难度。同时,使用单模型(分类器)进行最终的预测,可以适用于更多的实际业务。
[0011]在一种可能的实现方式中,在所述初始化样本集权重参数及确定分类算法和迭代次数的步骤中:
[0012]初始化所述训练样本集的权重向量W1及权重调整参数β;
[0013]其中,权重向量重向量n为源域样本集中样本数量,m为目标域训练样本集中样本数量,N为迭代次数。
[0014]在一种可能的实现方式中,所述训练样本集上的权重分布P
t
满足以下公式:
[0015][0016]其中,t=1,...,N,t为对应的第几次迭代。
[0017]在一种可能的实现方式中,所述计算所述分类器在所述目标域训练样本集的错误率,并基于所述错误率调整所述训练样本集的权重的步骤包括:
[0018]计算所述分类器在所述目标域训练样本集的错误率;
[0019]基于所述错误率修正权重调整参数;
[0020]基于修正后的权重调整参数对所训练样本集中的样本的权重进行调整;
[0021]计算所述分类器在所述目标域训练样本集的错误率ξ
t
的公式如下:
[0022][0023]修正后的权重调整参数βt:
[0024]β
t
=ε
t
/(1

ε
t
)
[0025]调整后的训练样本集中的样本的权重分布满足:
[0026][0027]其中,h(x)为预测标签概率,c(x)为标注标签概率。
[0028]在一种可能的实现方式中,在所述检测所述模型效果参数是否满足迭代结束条件的步骤中,所述迭代结束条件包括以下三种的任意一个:
[0029]所述第一模型效果参数满足对应的判断规则;
[0030]所述第二模型效果参数满足对应的判断规则;或,
[0031]所述第一模型效果参数或所述第二模型效果参数满足对应的判断规则。
[0032]在一种可能的实现方式中,所述源域的样本为小于第一消费额度的消费贷款样本,所述目标域中的样本为大于第二消费额度的消费贷款样本,其中,第一消费额度不大于所述第二消费额度。
[0033]在一种可能的实现方式中,所述分类算法包括极端梯度提升模型。
[0034]第二方面,本申请实施例还提供一种跨场景迁移分类模型形成装置,应用于计算机设备,所述装置包括:
[0035]初始化模块,用于初始化样本集权重参数及确定分类算法和迭代次数,其中,所述样本集包括由源域样本集与目标域训练样本集组成的训练样本集及由目标域测试样本组成的目标域测试集;
[0036]调用模块,用于调用所述分类算法,基于所述训练样本集中各样本的权重分布情况及所述目标域测试集,得到一在所述目标域测试集上的分类器;
[0037]计算与调整模块,用于计算所述分类器在所述目标域训练样本集的错误率,并基于所述错误率调整所述训练样本集的权重;
[0038]计算与存储模块,用于计算所述分类器在所述目标域测试集上的模型效果参数,并存储对应的迭代标签;
[0039]检测模块,用于检测所述模型效果参数是否满足迭代结束条件,在不满足迭代结束条件时,重复执行所述调用模块、计算与调整模块及计算与存储模块的功能,直到所述模型效果参数满足迭代结束的条件,将所述模型效果参数满足迭代结束的条件所对应的分类器作为训练好的分类模型。
[0040]第三方面,本申请实施例提供一种可读存储介质,可读存储介质中存储有指令,当其被执行时,使得计算机执行上述第一方面或者第一方面中任意一个可能的实现方式中的跨场景迁移分类模型形成方法。
[0041]基于上述任意一个方面,将源域样本集与目标域训练样本集组成训练样本集,训练样本集与目标域测试集的分布不同,通过调整源域样本与目标域训练样本的样本权重,找到源域样本中与目标域分布最接近的样本,同时放大目标域样本损失的影响,增加有效数据权重,降低无效数据权重。通过模型效果参数判断是否迭代结束,并将训练过程中表现最好的一次作为决策。相对于现有技术中迁移学习算法通过提升多个弱分类器,使用后一半的弱分类器进行综合投票,得出最后的决策的方式,本方案使用在训练过程中表现最好的学习器进行决策,相当于整个迁移学习过程只发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跨场景迁移分类模型形成方法,其特征在于,应用于计算机设备,所述方法包括:初始化样本集权重参数及确定分类算法和迭代次数,其中,所述样本集包括由源域样本集与目标域训练样本集组成的训练样本集及由目标域测试样本组成的目标域测试集;调用所述分类算法,基于所述训练样本集中各样本的权重分布情况及所述目标域测试集,得到一在所述目标域测试集上的分类器;计算所述分类器在所述目标域训练样本集的错误率,并基于所述错误率调整所述训练样本集的权重;计算所述分类器在所述目标域测试集上的模型效果参数,并存储对应的迭代标签;检测所述模型效果参数是否满足迭代结束条件,在不满足迭代结束条件时回到所述调用所述分类算法,基于所述训练样本集中各样本的权重分布情况及所述目标域测试集,得到一在所述目标域测试集上的分类器的步骤,直到所述模型效果参数满足迭代结束的条件时,将所述模型效果参数满足迭代结束的条件所对应的分类器作为训练好的分类模型。2.如权利要求1所述的跨场景迁移分类模型形成方法,其特征在于,在所述初始化样本集权重参数及确定分类算法和迭代次数的步骤中:初始化所述训练样本集的权重向量W1及权重调整参数β;其中,权重向量重向量n为源域样本集中样本数量,m为目标域训练样本集中样本数量,N为迭代次数。3.如权利要求2所述的跨场景迁移分类模型形成方法,其特征在于,所述训练样本集上的权重分布P
t
满足以下公式:其中,t=1,...,N,t为对应的第几次迭代。4.如权利要求3所述的跨场景迁移分类模型形成方法,其特征在于,所述计算所述分类器在所述目标域训练样本集的错误率,并基于所述错误率调整所述训练样本集的权重的步骤包括:计算所述分类器在所述目标域训练样本集的错误率;基于所述错误率修正权重调整参数;基于修正后的权重调整参数对所训练样本集中的样本的权重进行调整;计算所述分类器在所述目标域训练样本集的错误率ξ
t
的公式如下:
修正后的权重调整参数βt:β
t
=ε
t
/(1

ε
t
)调整后的训练样本集中的样本的权重分布满足:其中,h(x)为预测标签概率,c(x)为标注标签概率。5.如权利要求4所述的跨场景迁移分类模型形成方法,其特征在于,所述计算所述分类器在所述目标域测试集上的模型效果参数...

【专利技术属性】
技术研发人员:顾凌云谢旻旗张阳王震宇
申请(专利权)人:上海冰鉴信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1