基于动量的数据评估方法、系统及存储介质技术方案

技术编号:34469053 阅读:12 留言:0更新日期:2022-08-10 08:42
本发明专利技术公开了一种基于动量的数据评估方法、系统与存储介质。输入机器学习中常见的流式数据;根据动量的变化来判断数据样本对分类模型的贡献大小,其中动量采用重球动量算法,根据相邻两步迭代去计算动量的变化值;动态的调整原始数据样本,根据所述的动量变化值对数据样本进行评估,设置一个阈值,对当前迭代输入的数据样本与之前数据样本进行加权,形成新的数据样本集;模型根据标签来判断分类是否正确,并输出分类结果。本发明专利技术更加适用于深度学习背景下的算法框架,可以针对数据的冗余性和不平衡性的进行有效评估,针对资源受限条件下的文本、视频、语音等训练样本数据进行有效评估,在数据集不平衡的情况下,动量算法的性能依然可以超越SGD。依然可以超越SGD。依然可以超越SGD。

【技术实现步骤摘要】
基于动量的数据评估方法、系统及存储介质


[0001]本专利技术涉及一种数据评估方法和系统,更具体地说,涉及一种基于动量的数据评估方法、评估系统及存储介质。

技术介绍

[0002]数据、模型和训练优化算法是机器学习的三要素。目前,机器学习领域的评估研究主要围绕模型和训练优化算法层面展开,但对数据的评估问题却很少有学者研究。对模型的评估指标有正确率、F1值等;对算法的评估指标有收敛速度、迭代次数、CPU时间以及循环次数等。对于数据评估的研究还很少。
[0003]标准数据质量评估体系主要参考以下指标:完整性、准确性、有效性、时效性、一致性。由于机器学习的发展对数据评估提出了更高的要求,特别是数据的冗余性和不平衡性方面还缺乏有效的评估方法。从机器学习的角度来看,现有的数据评估的技术和系统主要是基于梯度的方法。当前随着深度学习技术的发展,自适应动量优化算法已经成为主流优化方法。基于梯度的评估方法已经不能满足对当前大规模训练样本数据进行有效评估,主要体现在动量变化比梯度变化能够更加准确衡量训练样本数据对目标函数的贡献大小,因此,动量可以看作基于深度学习技术的数据质量评估中的关键性因素。
[0004]当前,深度强化学习已经在围棋、德州扑克、星际争霸、王者荣耀取得成功,究其原因主要是游戏中数据样本众多,可以不计代价的获取数据。现实生活中一些领域的数据并非容易获取,特别是在军事领域,数据具有价值高、数量少等特点,无法不计代价的获取数据,因此在资源受限的条件下如何进行高效学习是亟待解决的重要问题。此外,现实应用中的数据。因此,在训练过程中对样本数据进行有效评估显得尤为重要。
[0005]此外,机器学习领域的评估研究主要围绕模型和训练优化算法层面展开,但对训练数据样本的评估问题却很少有学者研究。当前,深度学习技术快速发展,在计算机视觉和自然语言处理等领域取得巨大成功。数据的冗余性和不平衡性成为了影响模型和算法的重要因素。算法方面,自适应步长算法和动量方法分别取得了成功,当前综合使用两种策略的自适应型步长算法成为了主流方法。机器学习,特别是深度学习的角度而言,传统基于梯度的方法已经不能很好评估数据的冗余性和不平衡性,取而代之的是基于动量的方法。在数据评估领域还没有注意到动量的变化可以更好的评估数据样本的质量以及重要性。深度学习技术快速发展对训练样本数据的要求越来越高,标准的数据质量体系评估缺乏冗余性和不平衡性的指标。
[0006]现实中机器学习任务中很多数据是以流的形式先后到达,一方面,对于海量高维的训练数据,一次性获得所有训练样本是不可能的,而且也可能没有足够的内存空间来存储。另一方面,具体应用中所包含的高质量数据样本较少,存在冗余性和不平衡性的问题。在线学习指的是这样一类学习算法:它们在顺序到达的数据流实例中学习优化预测模型。这种动态学习使得在线学习更具有可扩展性和更高的内存效用,目前在线学习模型已经广泛应用于机器学习中。在线学习分类模型的一般流程指(如图1所示):

输入数据样本(文
本,图像,语音等流式数据);

通过优化算法和分类模型进行训练;

模型根据标签来判断分类是否正确,并输出分类结果。
[0007]受物理学“动量”原理的启发,机器学习中可以根据动量的变化来判断数据样本对目标函数贡献的大小。在物理学中,动量是刻画质点惯性的物理量,动量方法已经成为计算机学科深度学习领域中的主流优化算法。

技术实现思路

[0008]1、本专利技术的目的
[0009]本专利技术旨在面向数据资源受限条件的问题,从机器学习的角度提出一种基于动量的数据评估评价方法和系统,从而有效评估数据样本的冗余性和不平衡性问题。
[0010]2、本专利技术所采用的技术方案
[0011]本专利技术提出了一种基于动量的数据评估方法,包括:
[0012]输入机器学习中常见的流式数据;
[0013]根据动量的变化来判断数据样本对分类模型的贡献大小,其中动量采用重球动量算法,根据相邻两步迭代去计算动量的变化值;
[0014]动态的调整原始数据样本,根据所述的动量变化值对数据样本进行评估,设置一个阈值,对当前迭代输入的数据样本与之前数据样本进行加权,形成新的数据样本集;
[0015]模型根据标签来判断分类是否正确,并输出分类结果。
[0016]优选的,所述的输入流式数据包括文本,图像,语音一种或多种。
[0017]优选的,所述的根据动量的变化来判断数据样本对分类模型的贡献大小,采用通过自适应动量优化算法和在线学习模型进行训练。
[0018]优选的,使用重球动量算法迭代,显示累积的梯度信息。
[0019]更进一步,
[0020]步骤1、输入数据样本(文本,图像,语音等流式数据);
[0021]步骤2、通过自适应动量优化算法和在线学习模型进行训练,迭代次数t从1到T;
[0022]使用重球动量算法:w
t+1
=w
t

αg
t
+β(w
t

w
t
‑1),其中α是学习率,β代表动量系数,w是优化变量,w
t
指优化算法迭代第t步的优化变量。可以看出M
t+1
=β(w
t

w
t
‑1)为当前t+1步的动量项,显示了前t+1步累积的梯度的信息。
[0023]更进一步,根据相邻两步迭代去计算动量的变化值,具体为:
[0024]步骤3、算法训练过程,根据相邻两步迭代去计算动量的变化值,
[0025]M
t+1

M
t
=β(w
t

w
t
‑1)

β(w
t
‑1‑
w
t
‑2)。
[0026]更进一步,
[0027]根据动量的变化值对数据样本进行评估,设置一个阈值ε,体现数据样本的重要性,M
t+1

M
t
≥ε是重要的数据样本,M
t+1

M
t
<ε说明样本重要性程度低。对第t步迭代输入的数据样本与之前t

1步的数据样本进行加权,形成新的数据样本集;
[0028]本专利技术提出了一种基于动量的数据评估系统,包括存储器和处理器,存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述的方法步骤。
[0029]一种计算机可读存储介质,其上存储有计算机程序,所述的计算机程序被处理器执行时实现所述的方法步骤。
[0030]3、本专利技术所采用的有益效果
[0031](1)本专利技术提出了一种新型基于动量的数据评估方法,更加适用于深度学习背景下的算法框架,可以针对数据的冗余性和不平衡性的进行有效评估,并填补了两个标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动量的数据评估方法,其特征在于:输入机器学习中常见的流式数据;根据动量的变化来判断数据样本对分类模型的贡献大小,其中动量采用重球动量算法,根据相邻两步迭代去计算动量的变化值;动态的调整原始数据样本,根据所述的动量变化值对数据样本进行评估,设置一个阈值,对当前迭代输入的数据样本与之前数据样本进行加权,形成新的数据样本集;模型根据标签来判断分类是否正确,并输出分类结果。2.根据权利要求1所述的基于动量的数据评估方法,其特征在于:所述的输入流式数据包括文本,图像,语音一种或多种。3.根据权利要求2所述的基于动量的数据评估方法,其特征在于:所述的根据动量的变化来判断数据样本对分类模型的贡献大小,采用通过自适应动量优化算法和在线学习模型进行训练。4.根据权利要求3所述的基于动量的数据评估方法,其特征在于:使用重球动量算法迭代,显示累积的梯度信息。5.根据权利要求1或4所述的基于动量的数据评估方法,其特征在于:步骤1、输入数据样本(文本,图像,语音等流式数据);步骤2、通过自适应动量优化算法和在线学习模型进行训练,迭代次数t从1到T;使用重球动量算法:w
t+1
=w
t

αg
t
+β(w
t

w
t
‑1),其中α是学习率,β代表动量系数,w是优化变量,w
t
指优化算法迭代第t步的优化变量。可以看出M
t+1
=β(w
t

【专利技术属性】
技术研发人员:陶蔚彭宝云范晓宸陇盛邹军华
申请(专利权)人:中国人民解放军军事科学院战略评估咨询中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1