当前位置: 首页 > 专利查询>贝宝公司专利>正文

使用加权训练数据的机器学习模型的多阶段训练技术制造技术

技术编号:38346935 阅读:16 留言:0更新日期:2023-08-02 09:27
公开了涉及使用加权训练数据的机器学习模型的多阶段训练的技术。在一些实施例中,计算机系统可以在至少两个阶段中训练机器学习分类模型。在初始训练阶段期间,计算机系统可以基于训练数据集来训练分类模型的初始版本,向训练数据集中的训练样本应用同等权重。计算机系统随后可以利用分类模型的初始版本来为训练样本生成模型得分。基于这些模型得分,计算机系统可以为训练样本生成相应的加权值。计算机系统随后可以执行后续训练阶段以生成分类模型的更新版本,其中,在这个后续训练阶段期间,至少一些训练样本被使用其各自的加权值来加权。来加权。来加权。

【技术实现步骤摘要】
【国外来华专利技术】使用加权训练数据的机器学习模型的多阶段训练技术


[0001]本公开概括而言涉及用于训练机器学习模型的改进技术,更具体而言,根据各种实施例,涉及在至少一个阶段中使用加权训练数据来训练机器学习模型的多阶段训练技术。

技术介绍

[0002]服务器系统利用各种技术来检测其系统和其提供的服务的风险。许多风险检测问题可以被表征为“分类问题”,其中基于观察的特征来将该观察分类为多个类别中的一个。作为一个非限制性示例,“垃圾邮件”(不想要的电子邮件)检测的问题可以被认为是一个二元分类问题,对于这个问题,分类模型可以被用来生成概率值,指示入站的电子邮件应当被分类为“垃圾邮件”(或者“非垃圾邮件”)的可能性。
[0003]用于生成分类模型的一种技术是在先前观察(例如,在当前示例中,是电子邮件)的训练数据集上训练人工神经网络,这样,一旦经过训练,该模型就能够对新的观察进行分类。例如,现有的训练技术在“全局”上优化分类模型,使得模型的准确性在预测概率值的整个分布中是相对一致的。然而,这种训练技术存在各种技术缺陷。例如,如下文更详细描述的,现有的训练技术可能会限制模型对新的观察进行准确分类的能力,从而降低了分类模型的性能。
附图说明
[0004]图1的框图图示了根据一些实施例的可操作来使用多阶段训练操作对分类模型进行训练的示例训练模块。
[0005]图2的框图图示了根据一些实施例的包括示例训练模块和加权值生成器的计算机系统。
[0006]图3的框图图示了根据一些实施例的在第二训练阶段期间执行各种操作的示例训练模块。
[0007]图4的框图图示了根据一些实施例的示例服务器系统和使用分类模型来确定是否对请求进行授权的授权模块。
[0008]图5A

5B的曲线图分别描绘了根据一些实施例的未加权和加权模型得分的示例分布。
[0009]图6的流程图图示了根据一些实施例的用于使用多阶段训练技术来训练机器学习模型的示例方法。
[0010]图7的框图图示了根据一些实施例的示例计算机系统。
具体实施方式
[0011]许多技术问题可以被表征为“分类问题”,其中一个项目要被归类到多个类别中的一个。分类问题的一个特例是“二元分类问题”,其中一个项目只可以被归类到两个类别中。
二元分类问题的一个非限制性示例是垃圾邮件过滤,其中入站电子邮件被分析并且归类为“垃圾邮件”或者“非垃圾邮件”。解决二元分类问题的一个技术是使用经训练的分类模型来“预测”特定的元素属于两个类别之一的概率。如果该概率超过某个特定的阈值,则该元素可以被分类为属于一个类别(“类别A”),而如果不是,则该元素可以被分类为属于第二类别(“类别B”)。用于确定输入元素应当被分类到哪个类别的特定阈值可能会有所不同,这例如取决于分类模型被用于的技术问题,虽然这样的阈值通常相对较高(例如,80%、85%、90%、99%,等等)。
[0012]例如,考虑垃圾邮件过滤系统,该系统使用经训练的二元分类模型来确定是否将入站电子邮件归类为“垃圾邮件”或者“非垃圾邮件”。在接收到入站电子邮件后,分类模型可被用于分析与该电子邮件相关联的各种特征(也称为“属性”)(例如,发件人域、发送时间、存在的关键词,等等),并且生成指示出该电子邮件应当被归类为“垃圾邮件”的概率的值。如果该概率超过某个阈值(例如,85%),则垃圾邮件过滤系统可以将该电子邮件归类为“垃圾邮件”并且采取适当的动作,例如将该电子邮件路由到垃圾邮件文件夹。
[0013]二元分类模型(例如使用人工神经网络(“artificial neural network,ANN”)实现)通常被使用迭代过程来进行训练,在该过程中模型的参数被优化,以便减小损失函数提供的误差值。使用这些先前的训练技术,当损失函数提供的误差值达到其最低值时,参数就被优化,从而“全局”地优化模型,以使得其在预测值的整个分布上表现良好。
[0014]然而,这种训练技术存在各种技术缺陷。例如,申请人认识到,分类模型的训练目标和使用目标之间存在矛盾。在许多情况下,当使用模型将元素归类到已识别的类别(即,解决分类问题)时,该模型在概率分布一端的准确性就不那么重要了。例如,在上面的垃圾邮件过滤示例中,用于对电子邮件进行分类的阈值被设置为0.85,可以认为,对于入站电子邮件,模型得分为0.3(表明该电子邮件是垃圾邮件的概率为30%)与模型得分为0.4相比并不重要——在这两种情况下,该电子邮件都将被分类为“非垃圾邮件”,并不接近0.85的决策阈值。从而,在这种情况下,模型在概率分布的下端缺乏准确性将不会对模型的功效产生实质性的影响。然而,如果模型在分布的上端缺乏准确性(例如,在0.8

0.9的范围之间),则这将显著影响模型准确地将元素分类到其适当类别中的能力。因此,在上述场景中,二元分类模型被训练的目标(被优化为在预测概率值的整个频谱上表现良好)与二元分类模型被用于的目标(在预测概率值频谱的一端(例如,上端)有高准确性,而对另一端(例如,下端)的准确性不那么重视)不完全一致。
[0015]另外,一些训练技术对训练数据集中的所有训练样本应用相同的权重,这在训练分类模型时可能带来各种技术问题。例如,在二元分类问题的情境中,标记的训练数据的分布可能急剧倾向于两个类别中的一个。作为一个非限制性示例,在在线支付系统中的欺诈检测的情境中,绝大多数(例如,95%、98%,等等)尝试的交易可能是合法的,只有一小部分尝试的交易是欺诈的。在这种情况下,按照观察到的比例使用先前的观察(例如,电子邮件、电子交易,等等)作为训练数据集中的训练样本,可能会导致训练数据集被多个类别之一中的训练数据所偏斜(例如,绝大多数训练数据可能是合法交易,当被机器学习分类器打分时,其中大部分并不接近被归类为欺诈的“阈值”)。正如受益于本公开的本领域技术人员将会明白的,在这样的偏斜的训练数据集上训练分类模型可能会对所产生的模型的功效产生负面影响。
[0016]解决这个技术问题的其他方法存在各种缺陷。例如,一个这种方法是通过去除一些属于被过度代表的类别的训练样本(例如,“非垃圾邮件”电子邮件的某个子集)来“平坦”训练数据集的分布。然而,这种方法也会对所产生的分类模型的最终功效产生负面影响,因为通过减小训练数据集的大小,该模型无法学习可能存在于被去除的训练样本中的有用模式,从而降低了模型的性能。
[0017]然而,在各种实施例中,所公开的技术通过应用使用加权训练数据(在至少一个阶段中)来训练分类模型的多阶段训练技术,为这些问题提供了技术解决方案。例如,在各种实施例中,在第一训练阶段期间,所公开的技术包括基于训练数据集训练分类模型的第一版本,在这个第一训练阶段期间向训练数据集中的训练样本给予同等权重。使用分类模型的这个第一版本,所公开的技术然后可以基于训练数据集中的训练样本来创建模型得分。如本文所使用的,术语“模型得分”是指由分类模型生成的值,它指示出相应的训练样本应当被分类到一组类别中的一个类别中的概率。例如,在一些本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:计算机系统在第一训练阶段中基于训练数据集训练机器学习分类模型的初始版本,其中,在所述第一训练阶段期间,同等权重被应用到所述训练数据集中的多个训练样本;利用所述机器学习分类模型的初始版本,所述计算机系统生成与所述训练数据集中的所述多个训练样本相对应的多个模型得分,其中,对于所述多个训练样本中的给定训练样本,来自所述机器学习分类模型的初始版本的相应给定模型得分指示出所述给定训练样本属于多个类别中的特定类别的概率;由所述计算机系统基于所述多个模型得分执行一个或多个变换,以为所述多个训练样本生成相应的多个加权值;并且所述计算机系统生成所述机器学习分类模型的更新版本,包括所述计算机系统在第二训练阶段期间,基于所述训练数据集对所述机器学习分类模型执行额外的训练,以生成所述机器学习分类模型的更新版本,其中,在所述第二训练阶段期间,所述多个训练样本被使用所述相应的多个加权值来加权。2.如权利要求1所述的方法,其中,所述相应的多个加权值的生成使得具有第一模型得分的第一训练样本被赋予比具有较低的第二模型得分的第二训练样本更高的加权值。3.如权利要求1所述的方法,其中,所述执行额外的训练包括:应用优化算法来修改所述机器学习分类模型的一个或多个参数,其中所述优化算法使用特定损失函数来为所述多个训练样本中的给定训练样本评估所述机器学习分类模型的性能,并且其中,对于所述给定训练样本,利用所述特定损失函数生成的相应损失值被基于与所述给定训练样本相关联的给定加权值来加权。4.如权利要求3所述的方法,其中,所述特定损失函数包括二元交叉熵损失函数。5.如权利要求1所述的方法,其中,所述第一训练阶段使用第一学习率来训练所述机器学习分类模型的初始版本,并且其中,所述第二训练阶段使用较低的第二学习率来训练所述机器学习分类模型的更新版本。6.如权利要求1所述的方法,其中,对于所述多个训练样本中的具有第一相应模型得分的第一训练样本,所述执行一个或多个变换包括:对所述第一相应模型得分执行对数函数以生成第一对数值;基于以下项来正规化所述第一对数值:基于所述多个模型得分生成的多个对数值中的最高对数值;以及基于所述多个模型得分生成的多个对数值中的最低对数值;并且基于正规化的第一对数值为所述第一训练样本生成第一加权值。7.如权利要求1所述的方法,其中,所述机器学习分类模型是使用人工神经网络(ANN)实现的。8.如权利要求1所述的方法,其中,所述机器学习分类模型是二元分类模型。9.如权利要求1所述的方法,其中,所述多个训练样本对应于多个先前电子交易,并且其中,与所述多个先前电子交易中的第一先前电子交易相对应的第一训练样本指示出:与所述第一先前电子交易相关联的一个或多个属性;以及将所述第一先前电子交易分类到多个类别中的一个类别中的标签。10.如权利要求9所述的方法,还包括:
由所述计算机系统接收与第二电子交易相对应的授权请求,其中所述授权请求指定与所述第二电子交易相关联的一个或多个属性;由所述计算机系统将对应于与所述第二电子交易相关联的一个或多个属性的信息作为输入应用到所述机器学习分类模型的更新版本,以为所述第二电子交易生成预测分类;并且由所述计算机系统基于所述预测分类来确定是否授权所述第二电子交易。11.一种非暂态计算机可读介质,其上存储有可由计算机系统执行来执行操作的指令,所述操作包括:执行第一训练阶段以生成机器学习分类模型的初始版本,其中,在所述第一训练阶段期间,同等加权被应用到训练数据集中的多个训练样本;为所述多个训练样本生成相应的多个加权值,其中,对于所述多个训练样本中的给定训练样本,生成相应加权值包括:利用所述机器学习分类模型的初始版本为所述给定训练样本生成模型得分;并且基于所述模型得分为所述给定训练样本生成所述相应加权值;并且基于所述训练数据集,执行第二训练阶段以生成所述机器学习分类模型的更新版本,包括通过以下操作来生成:使用所述机器学习分类模型的初始版本的一个或多个参数的值,作为所述机器学习分类模型的更新版本的一个或多个参数的初始值;并且应用优化算法来修改所述机器学习分类模型的更新版本的一个或多个参数的初始值;其中,在所述第二训练阶段期间,...

【专利技术属性】
技术研发人员:陈实王硕渊张家琪
申请(专利权)人:贝宝公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1