基于机器学习的样本异常检测方法、装置、设备及介质制造方法及图纸

技术编号:31023237 阅读:16 留言:0更新日期:2021-11-30 03:17
本发明专利技术涉及人工智能技术领域,揭露一种基于机器学习的样本异常检测方法,包括:获取样本数据在历史训练过程中所形成的离线损失序列;利用携带有类别标签的样本数据训练用于分类任务的主网络;使用所述离线损失序列训练子网络以对所述样本数据进行权重赋值,并更新所述主网络以及子网络的权重参数;响应于目标样本数据的异常检测指令,根据更新后子网络构建的异常检测模型,对目标样本数据中的类别标签进行异常检测。本发明专利技术能够准确检测出样本数据中的异常情况,提高针对样本数据所训练模型的分类效果。分类效果。分类效果。

【技术实现步骤摘要】
基于机器学习的样本异常检测方法、装置、设备及介质


[0001]本专利技术涉及人工智能
,尤其是涉及到基于机器学习的样本异常检测方法、装置、计算机设备及计算机存储介质。

技术介绍

[0002]随着分类技术在机器学习领域的不断深入,一系列新问题和挑战也伴随而来,其中,针对异常样本数据的分类就是其中一个难点,该异常样本数据可以表现为不平衡样本数据,还可以表现为标记错误的样本数据,不平衡样本数据作为出现类别分布不均的样本空间,某一类的样本数量小于或者远小于其他类样本数量,作为分类过程中的大类,而其他样本数据作为分类过程中的小类。标记错误的样本数据作为出现类别标签噪声的样本空间,从一定程度上也影响了样本数据中的类别分布。由于异常文本数据在机器学习过程中会受到数据不平衡和标签问题的影响,有必要针对样本数据进行异常检测。
[0003]相关技术中,针对样本异常检测的方式主要使用样本赋值,通过损失函数来降低样本数据在训练过程中所占的权重,一次次不断地调整参数,由于损失函数是训练为训练之前的固定策略,其效果不如动态调整权重以不断重赋值方式,动态重赋权的过程主要是基于当前时刻或者当前的某几个时刻点模型参数来学习进行赋权,然而,考虑到样本数据中异常情况是一个不变的状态,而上述重赋权的方式所依赖模型参数在不断变化,很难准确检测出样本数据中的异常情况,使得针对样本数据所训练模型的分类效果受到影响。

技术实现思路

[0004]有鉴于此,本专利技术提供了一种基于机器学习的样本异常检测方法、装置、计算机设备及计算机存储介质,主要目的在于解决现有技术中基于重赋权的方式很难准确检测出样本数据中的异常情况,使得针对样本数据所训练模型的分类效果受到影响的问题。
[0005]依据本专利技术一个方面,提供了一种基于机器学习的样本异常检测方法,该方法包括:
[0006]获取样本数据在历史训练过程中所形成的离线损失序列;
[0007]利用携带有类别标签的样本数据训练用于分类任务的主网络;
[0008]使用所述离线损失序列训练子网络以对所述样本数据进行权重赋值,并更新所述主网络以及子网络的权重参数;
[0009]响应于目标样本数据的异常检测指令,根据更新后子网络构建的异常检测模型,对目标样本数据中的类别标签进行异常检测。
[0010]在本专利技术另一实施例中,所述获取样本数据在历史训练过程中所形成的离线损失序列,具体包括:
[0011]将样本数据输入至网络模型进行历史训练,并在网络模型进行历史训练的过程中,记录每个迭代周期使用损失函数输出预测值与实际值形成的损失值;
[0012]汇总经过多个迭代周期输出的损失值,形成离线损失序列。
[0013]在本专利技术另一实施例中,所述离线损失序列包含样本标签信息和样本偏执信息,所述使用所述离线损失序列训练子网络以对所述样本数据进行权重赋值,并更新所述主网络以及子网络的权重参数,具体包括:
[0014]使用所述样本标签信息和样本偏执信息训练子网络以对所述样本数据进行权重赋值,输出样本数据的类别权重;
[0015]根据所述样本数据的类别权重,更新所述主网络以及子网络的权重参数。
[0016]在本专利技术另一实施例中,所述根据所述样本数据的类别权重,更新所述主网络以及子网络的权重参数,具体包括:
[0017]根据所述样本数据的类别权重,利用携带有类别标签的元数据集优化所述子网络,以最小化所述元数据集在主网络上输出的损失值,所述元数据集为经过处理所述样本数据得到的;
[0018]根据优化后子网络输出的权重参数,利用所述样本数据优化所述主网络;
[0019]重复迭代执行优化所述子网络以及优化所述主网络的过程,并更新所述主网络以及所述子网络的权重参数。
[0020]在本专利技术另一实施例中,所述根据所述样本数据的类别权重,利用携带有类别标签的元数据集优化所述子网络,具体包括:
[0021]根据所述样本数据的类别权重,确定携带有分类标签的元数据集在所述主网络上输出的损失值;
[0022]以所述损失值最小化作为优化目标,更新所述子网络的权重参数。
[0023]在本专利技术另一实施例中,所述根据更新后子网络构建的异常检测模型,对目标样本数据中的类别标签进行异常检测,具体包括:
[0024]根据更新后的子网络构建的异常检测模型,判断所述目标样本数据中类别标签是否存在异常表征;
[0025]若是,则根据检测得到的异常表征对所述目标样本数据进行调整。
[0026]在本专利技术另一实施例中,所述根据更新后的子网络构建的异常检测模型判断所述目标样本数据中类别标签是否存在异常表征,具体包括:
[0027]根据更新后子网络构建的异常检测模型输出目标样本数据的类别权重,确定目标样本数据中类别分布信息,使用所述类别分布信息判断所述目标样本数据中是否存在类别分布不均的异常表征;
[0028]根据更新后子网络构建的异常检测模型输出的损失数据,确定目标样本数据中类别标记信息,使用所述类别标记信息判断所述目标样本数据中是否存在类别标记错误的异常表征。
[0029]依据本专利技术另一个方面,提供了一种基于机器学习的样本异常检测装置,所述装置包括:
[0030]获取单元,用于获取样本数据在历史训练过程中所形成的离线损失序列;
[0031]训练单元,用于利用携带有类别标签的样本数据训练用于分类任务的主网络;
[0032]更新单元,用于使用所述离线损失序列训练子网络以对所述样本数据进行权重赋值,并更新所述主网络以及子网络的权重参数;
[0033]检测单元,用于响应于目标样本数据的异常检测指令,根据更新后子网络构建的
异常检测模型,对目标样本数据中的类别标签进行异常检测。
[0034]在本专利技术另一实施例中,所述获取单元包括:
[0035]记录模块,用于将样本数据输入至网络模型进行历史训练,并在网络模型进行历史训练的过程中,记录每个迭代周期使用损失函数输出预测值与实际值形成的损失值;
[0036]汇总模块,用于汇总经过多个迭代周期输出的损失值,形成离线损失序列。
[0037]在本专利技术另一实施例中,所述离线损失序列包含样本标签信息和样本偏执信息,所述更新单元包括:
[0038]赋值模块,用于使用所述样本标签信息和样本偏执信息训练子网络以对所述样本数据进行权重赋值,输出样本数据的类别权重;
[0039]更新模块,用于根据所述样本数据的类别权重,更新所述主网络以及子网络的权重参数。
[0040]在本专利技术另一实施例中,所述更新模块包括:
[0041]第一优化子模块,用于根据所述样本数据的类别权重,利用携带有类别标签的元数据集优化所述子网络,以最小化所述元数据集在主网络上输出的损失值,所述元数据集为经过处理所述样本数据得到的;
[0042]第二优化子模块,用于根据优化后子网络输出的权重参数,利用所述样本数据优化所述主网络;...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的样本异常检测方法,其特征在于,所述方法包括:获取样本数据在历史训练过程中所形成的离线损失序列;利用携带有类别标签的样本数据训练用于分类任务的主网络;使用所述离线损失序列训练子网络以对所述样本数据进行权重赋值,并更新所述主网络以及子网络的权重参数;响应于目标样本数据的异常检测指令,根据更新后子网络构建的异常检测模型,对目标样本数据中的类别标签进行异常检测。2.根据权利要求1所述的方法,其特征在于,所述获取样本数据在历史训练过程中所形成的离线损失序列,具体包括:将样本数据输入至网络模型进行历史训练,并在网络模型进行历史训练的过程中,记录每个迭代周期使用损失函数输出预测值与实际值形成的损失值;汇总经过多个迭代周期输出的损失值,形成离线损失序列。3.根据权利要求1所述的方法,其特征在于,所述离线损失序列包含样本标签信息和样本偏执信息,所述使用所述离线损失序列训练子网络以对所述样本数据进行权重赋值,并更新所述主网络以及子网络的权重参数,具体包括:使用所述样本标签信息和样本偏执信息训练子网络以对所述样本数据进行权重赋值,输出样本数据的类别权重;根据所述样本数据的类别权重,更新所述主网络以及子网络的权重参数。4.根据权利要求3所述的方法,其特征在于,所述根据所述样本数据的类别权重,更新所述主网络以及子网络的权重参数,具体包括:根据所述样本数据的类别权重,利用携带有类别标签的元数据集优化所述子网络,以最小化所述元数据集在主网络上输出的损失值,所述元数据集为经过处理所述样本数据得到的;根据优化后子网络输出的权重参数,利用所述样本数据优化所述主网络;重复迭代执行优化所述子网络以及优化所述主网络的过程,并更新所述主网络以及所述子网络的权重参数。5.根据权利要求4所述的方法,其特征在于,所述根据所述样本数据的类别权重,利用携带有类别标签的元数据集优化所述子网络,具体包括:根据所述样本数据的类别权重,确定携带...

【专利技术属性】
技术研发人员:徐啸李晓宇孙瑜尧
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1