实现线上机器学习模型的更新迭代的方法和装置制造方法及图纸

技术编号:24800794 阅读:36 留言:0更新日期:2020-07-07 21:15
公开了一种实现线上机器学习模型的更新迭代的方法和装置,所述方法包括:由至少一个串行工作的机器学习模型组成的模型组对业务样本进行预测;模型组中的包括排在最前的机器学习模型的一个或多个机器学习模型被设置为:允许预测值大于本模型的基准阈值的业务样本通过,拒绝预测值小于本模型的比基准阈值小的下探阈值的业务样本,允许预测值小于等于基准阈值且大于等于下探阈值的业务样本以本模型对应的概率通过;获取模型组允许通过的业务样本的业务反馈信息,根据业务反馈信息与相应的业务样本构成训练样本;基于排在最后的机器学习模型上线之后的预定时间内产生的训练样本来训练新的机器学习模型,将训练好的新的机器学习模型串接到模型组中。

【技术实现步骤摘要】
实现线上机器学习模型的更新迭代的方法和装置
本公开总体说来涉及人工智能(AI)领域,更具体地,涉及一种实现线上机器学习模型的更新迭代的方法和装置。
技术介绍
在机器学习领域,往往通过将经验数据提供给机器学习算法来训练机器学习模型以确定构成机器学习模型的理想参数,而训练好的机器学习模型可在各种业务领域被应用于在面对新的业务样本时提供相应的预测结果。机器学习模型的构建和应用不是一蹴而就的事情,随着时间的推移,模型需要不断使用新的数据来迭代和更新。一方面,随着时间的推移,会积累更丰富的数据,而且越新的数据越能反应最新的趋势和业务变化;另一方面,随着业务的开展,可能会有新的数据来源,供模型更好的刻画业务样本,这些都是触发模型升级迭代的内在原因。在利用机器学习模型进行业务判断的场景,新积累的数据是由经过模型判断允许通过后的样本和该样本在实际业务中的表现信息所组成的。因此,如果用新积累的数据训练出的新模型直接替换旧模型,会由于新模型未“见”过“坏”的样本(旧模型判断拒绝通过的样本)而导致其业务判断的准确率下降,给实际业务带来风险。专本文档来自技高网...

【技术保护点】
1.一种实现线上机器学习模型的更新迭代的方法,所述方法包括:/n由至少一个串行工作的机器学习模型组成的模型组来对业务样本进行预测;其中,所述模型组中的包括排在最前的机器学习模型的一个或多个机器学习模型被设置为按以下方式工作:允许预测值大于本模型对应的基准阈值的业务样本通过,拒绝预测值小于本模型对应的比所述基准阈值小的下探阈值的业务样本,允许预测值小于等于所述基准阈值且大于等于所述下探阈值的业务样本以本模型对应的概率通过;并且其中,所述模型组中的其它机器学习模型被设置为按以下方式工作:允许预测值大于等于与本模型对应的基准阈值的业务样本通过,拒绝预测值小于所述基准阈值的业务样本;/n获取所述模型组...

【技术特征摘要】
1.一种实现线上机器学习模型的更新迭代的方法,所述方法包括:
由至少一个串行工作的机器学习模型组成的模型组来对业务样本进行预测;其中,所述模型组中的包括排在最前的机器学习模型的一个或多个机器学习模型被设置为按以下方式工作:允许预测值大于本模型对应的基准阈值的业务样本通过,拒绝预测值小于本模型对应的比所述基准阈值小的下探阈值的业务样本,允许预测值小于等于所述基准阈值且大于等于所述下探阈值的业务样本以本模型对应的概率通过;并且其中,所述模型组中的其它机器学习模型被设置为按以下方式工作:允许预测值大于等于与本模型对应的基准阈值的业务样本通过,拒绝预测值小于所述基准阈值的业务样本;
获取所述模型组允许通过的业务样本的业务反馈信息,根据业务反馈信息与相应的业务样本构成训练样本;
基于在当前模型组中的排在最后的机器学习模型上线之后的预定时间内产生的训练样本来训练新的机器学习模型,并将训练好的新的机器学习模型串接在所述排在最后的机器学习模型之后以将所述新的机器学习模型上线;
分别降低所述一个或多个机器学习模型中的每个机器学习模型的基准阈值和下探阈值,其中,降低后的下探阈值小于降低后的基准阈值;
当模型组中的一个机器学习模型的基准阈值变更为小于等于预设预警阈值时,下线该机器学习模型。


2.如权利要求1所述的方法,其中,所述基于在当前模型组中的排在最后的机器学习模型上线之后的预定时间内产生的训练样本来训练新的机器学习模型的步骤包括:
遵循训练样本的分布与当前模型组中的排在最后的机器学习模型上线之后的业务样本分布保持一致的原则,获取训练样本,
基于所获取的训练样本训练所述新的机器学习模型。


3.如权利要求2所述的方法,其中,当所述一个或多个机器学习模型仅包括排在最前的机器学习模型时,
遵循训练样本的分布与当前模型组中的排在最后的机器学习模型上线之后的业务样本分布保持一致的原则获取的训练样本满足下述公式:



M(N+1)train为用于训练所述新的机器学习模型的训练样本;
D为与当前模型组中的排在最后的机器学习模型上线之后的预定时间内输入所述模型组的全量业务样本;
N为正整数,表示当前模型组中的机器学习模型的数量;
i表示当前模型组中的按从前到后的顺序的第i个机器学习模型;
p1为与排在最前的机器学习模型对应的概率;
Compi表示从输入到第i个机器学习模型的业务样本中选取在经由第i个机器学习模型处理时其预测值大于对应的基准阈值的业务样本,并根据所获取的业务反馈信息与相应的业务样本构成训练样本;
Prob1表示排在最前的机器学习模型从输入到排在最前的机器学习模型的业务样本中选取在经由排在最前的机器学习模型处理时其预测值小于等于对应的基准阈值且大于等于对应的下探阈值且以概率p1通过的业务样本,并根据所获取的业务反馈信息与相应的业务样本构成训练样本。


4.如权利要求2所述的方法,其中,所述遵循训练样本的分布与当前模型组中的排在最后的机器学习模型上线之后的业务样本分布保持一致的原则获取的训练样本满足下述公式:



M(N+1)train为用于训练所述新的机器学习模型的训练样本;
D为与当前模型组中的排在最后的机器学习模型上线之后的预定时间内输入所述模型组的全量业务样本;
N为正整数,表示当前模型组中的机器学习模型的数量;
i表示当前模型组中的按从前到后的顺序的第i个机器学习模型;
pi为与第i个机器学习模型对应的概率;
Compi表示从输入...

【专利技术属性】
技术研发人员:高晓伟
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1