训练集的评估制造技术

技术编号:15939488 阅读:46 留言:0更新日期:2017-08-04 22:03
该发明专利技术特别地涉及一种用于评估由机器学习系统预测的结果的潜在偏差的计算机实现的方法。该方法包括:在第一组观测上训练模型,每个观测与目标值相关联;随机生成第二组观测;将训练的模型应用于第二组,从而获得与第二组的每个观测相关联的目标值;将第一和第二组观测及其相关联的目标值索引到索引中;接收第一查询,第一查询允许对第一和第二组观测的子集的选择;生成第二查询,第二查询包括第一查询和将仅仅返回第一组的一个或多个观测的附加约束;生成第三查询,第三查询包括第一查询和将仅仅返回第二组的一个或多观测的附加约束;使用第二和第三查询来查询索引;并且返回对第二和第三查询的响应。

Evaluation of training set

The invention in particular relates to a computer implemented method for assessing potential deviations from predicted results by a machine learning system. The method includes: training model in the first set of observations, each of which is associated with the target observation value; randomly generated second groups of observation; the training model is applied to the second groups, and each group to obtain second observations associated with the target value; the goal of the first and second groups of observation and its associated value index to the index; receiving the first query, the first query allows subsets of the first and second groups of observation of choice; generate second queries, including the first and second query query will only return the first set of one or more observations to generate third additional constraints; third query query, including the first query and will only return the second group A or more observations of additional constraints; using second and third query to query the index; and on the second and the third returned in response to queries.

【技术实现步骤摘要】
训练集的评估
该专利技术涉及计算机程序和系统领域,并且更具体地涉及用于评估由机器学习系统预测的结果的潜在偏差的方法、系统和程序。
技术介绍
在机器学习中,因为训练的模型不适当,输入变量的选择无效,或者训练样本的选择不代表新数据,所以可能发生预测误差。有时,模型的选择是有限的(例如,对于为即将到来的问题执行良好的已知模型),并且输入变量的选择是有限的(例如,对于可以被收集的变量)。因此,对于分析者出现的问题是对于给定的模型和给定的一组输入变量,如何评估由于训练样本的选择或目标值对于其已知的该组观测的可用性(该组也被称为标记数据)的误差风险。已经开发了用于测试训练的模型的方法。第一个方法被称为德尔塔和伽马测试。在Stefánsson,N.和AntoniaJ.Jones的“Anoteonthegammatest.”NeuralComputing&Applications5.3(1997):131-133中提出的伽马测试估计训练样本的仅仅基于平滑模型的误差。平滑模型是其输出是输入的平滑函数的模型(诸如神经网络)。平滑函数是具有有界部分一阶和二阶导数的函数。直观地,这意味着跨任何方向的函数的曲线是平滑的并且不形成角度。德尔塔测试不需要平滑模型,但需要连续模型。连续模型是其输出是输入的连续函数的模型。连续函数是一个这样的函数,如果S收敛到P,在一系列S点上的该函数的值趋于其在P点上的值。德尔塔测试在伽马测试之前。它对模型做较弱的假设,但是需要更大的数据集密度来估计具有相似质量的模型的误差。然而,该第一个方法经受缺点。值得注意的是,它适用受限类的模型。德尔塔测试和伽马测试估计观测的实际目标值与可以由平滑函数生成的目标值之间的误差。该输出在每个模型中不是输入的平滑函数。对于一些类型的人工神经网络,情况是这样,但是对于基于决策树或存根的整体方法不是这样,该方法当前被选为对许多机器学习问题的最高性能方法。第二个方法是在Kohavi,Ron的“Astudyofcross-validationandbootstrapforaccuracyestimationandmodelselection.”ljcai.Vol.14.No.2.1995中讨论的交叉验证。交叉验证由将可用标记数据拆成训练数据和测试数据组成。基于训练数据对模型进行训练,并且然后对测试数据进行测试。当被测试时,训练的模型的输出与目标数据的实际值比较。K折叠由多个(K,例如K=5)交叉验证组成,以更好地利用可用标记数据。在第一交叉验证中,标记数据被分割成近似相同大小的K个集(它是近似的,因为标记数据集的大小可与K的数量不同)。然后,对于每个连续运行,用先前未在测试集中(在先前运行中)使用的样本进行测试数据集,并且每个运行时的训练数据是标记数据集的剩余部分。为每个运行测量模型的性能。最终性能测量典型地是所有运行的平均。第三个方法是交叉验证的特定情况,其中为不同大小的训练集绘制误差率。更具体地,该第三个方法由绘制两个误差率曲线组成。一个对应于关于来自训练集的观测的模型的误差,并且另一个对应于关于测试集的观测的模型的误差。训练集的观测的误差率应当关于训练集大小而连续减小,而关于测试集的观测的误差率应当至少对于较小训练集大小而减小。可以有一个点,在其之后它开始增加。这个拐点是训练集的最佳大小,在其之前发生欠拟合,并且在其之后发生过度拟合。如果这一点不存在,没有过度拟合,并且最佳训练集是最大的。第二和第三个方法不允许使用所有可用标记数据来训练模型。在理想情况下(当模型不过度拟合时),使用尽可能多的数据来训练模型是有益的,所以在实践中典型地在所有可用标记数据上训练模型。在这些情况下,那些方法不精确地测量它将在生产中运行的训练的模型的性能。当有很少的标记数据时,这是一个问题。这些方法没有一个考虑关联到训练数据的选择的误差的风险。甚至当训练时可用的所有标记数据用于训练时,这些方法也不考虑关联到训练时可用的标记数据的分布的误差的风险。在实践中,这是重要的问题,因为标记数据仅仅代表在收集标记数据时发生的情况,这可能与将来可发生的情况不同。在数据不能总被收集的一些情况下,可用标记数据仅仅代表发生的情况的子集,即,当可能收集数据时发生的情况,这可能不代表整个一组可能的情况。例如,交叉验证仅仅允许评估关于类似于测试集中的观测的观测的误差的风险,即,类似于在可用标记数据中发现的观测。在改变训练集的大小的同时比较关于训练集和测试集上的误差率的问题正是我们仅仅改变训练集的大小,而不是训练集中的观测的选择。这意味着训练集中的观测应该代表所有可能的观测,并且它们应该以完全随机的顺序进行。如果人考虑例如二分类模型的训练集,其中所有观测都位于可能观测的空间的小区域中。该模型将学习如何区分该特定子空间中的两个类的微小细节。它将不会学习如何在观测的空间的其它领域中区分两个类。模型将过拟合,不是由于训练集的大小,而是由于训练集中的观测的分布。德尔塔测试和伽马测试不需要将可用标记数据分割成训练集和测试集。但是它们仍然假设可用标记数据代表所有可能的输入数据(包括未来输入数据)。因此,缺少用这些方法的风险评估是问题,因为现象典型地随时间改变。所以训练数据的分布在某一点变得过时。例如,在车赛中何时进行进站加油的预测典型地依赖于描述赛道(circuit)和汽车行为的输入数据。例如,随着气候变化,极端温度可能首次出现在F1赛道上。极端温度可影响轮胎粘附性,以及发动机和制动垫片行为。然而,极端温度的结果可能不由模型学习。这样的情况可能还未在可用标记数据中被捕获,尤其如果这些温度以前从未在当前赛道中看到。用于帮助确定进站加油的最佳时刻的机器学习模型可能导致与通常非常不同的情况下的不适当的推荐。在进站加油中的F1赛车上作出的不适当的操作或者不适当的定时不仅可以降低团队的表演,而且还导致危险的情况。在该上下文下,仍然存在用于评估由机器学习系统预测的结果的潜在偏差的必要。
技术实现思路
因此提供一种用于评估由机器学习系统预测的结果的潜在偏差的计算机实现的方法。该方法包括:-在第一组观测上训练模型,每个观测与目标值相关联;-生成第二组观测;-将训练的模型应用于第二组,从而获得与第二组观测的每个观测相关联的目标值;-将第一组观测和第二组观测及其相关联的目标值索引到索引中;-接收第一查询,第一查询允许第一组观测和第二组观测的子集的选择;-生成第二查询,第二查询包括第一查询和将仅仅返回第一组的(一个或多个)观测的附加约束;-生成第三查询,第三查询包括第一查询和将仅仅返回第二组的(一个或多个)观测的附加约束;-使用第二查询和第三查询来查询索引;以及-返回对第二查询和第三查询的响应。该方法可包括以下中的一个或多个:-第一组观测的每个观测与一个或多个变量相关联,每个变量与值相关联;-在第一组观测上训练模型的步骤之前:在连续段上或在离散集上定义第一组的一个或多个变量;-第二组观测的随机生成包括:在第一组的每个变量上关联概率分布;-概率分布是根据第一组的所述每个变量来确定的;-概率分布函数是均匀概率分布;-通过使用至少一个随机变量生成器,跨连续段或在离散集上生成值;计算从至少一个随机变量生成器获得的值的组合;-确定变量之间的依赖性;在本文档来自技高网
...
训练集的评估

【技术保护点】
一种用于评估由机器学习系统预测的结果的潜在偏差的计算机实现的方法,包括:‑在第一组观测上训练(S10)模型,每个观测与目标值相关联;‑生成第二组观测;‑将训练的模型应用(S20)于所述第二组,从而获得与所述第二组中的每个观测相关联的目标值;‑将所述第一组观测和所述第二组观测及其相关联的目标值索引(S30)到索引中;‑接收(S40)第一查询,所述第一查询允许对所述第一组观测和所述第二组观测的子集的选择;‑生成(S50)第二查询,所述第二查询包括所述第一查询和仅仅返回所述第一组中的一个或多个观测的附加约束;‑生成(S52)第三查询,所述第三查询包括所述第一查询和仅仅返回所述第二组中的一个或多个观测的附加约束;‑使用所述第二查询和所述第三查询来查询所述索引;以及‑返回(S60)对所述第二查询和所述第三查询的响应。

【技术特征摘要】
2015.12.31 EP 15307193.11.一种用于评估由机器学习系统预测的结果的潜在偏差的计算机实现的方法,包括:-在第一组观测上训练(S10)模型,每个观测与目标值相关联;-生成第二组观测;-将训练的模型应用(S20)于所述第二组,从而获得与所述第二组中的每个观测相关联的目标值;-将所述第一组观测和所述第二组观测及其相关联的目标值索引(S30)到索引中;-接收(S40)第一查询,所述第一查询允许对所述第一组观测和所述第二组观测的子集的选择;-生成(S50)第二查询,所述第二查询包括所述第一查询和仅仅返回所述第一组中的一个或多个观测的附加约束;-生成(S52)第三查询,所述第三查询包括所述第一查询和仅仅返回所述第二组中的一个或多个观测的附加约束;-使用所述第二查询和所述第三查询来查询所述索引;以及-返回(S60)对所述第二查询和所述第三查询的响应。2.根据权利要求1所述的计算机实现的方法,其中所述第一组观测中的每个观测与一个或多个变量相关联,每个变量与值相关联。3.根据权利要求2所述的计算机实现的方法,进一步包括:在所述第一组观测上训练模型的步骤之前:-在连续段上或在离散集上定义所述第一组的一个或多个变量。4.根据权利要求3所述的计算机实现的方法,其中所述第二组观测的随机生成包括:-在所述第一组的每个变量上关联概率分布。5.根据权利要求4所述的计算机实现的...

【专利技术属性】
技术研发人员:X·格勒昂
申请(专利权)人:达索系统公司
类型:发明
国别省市:法国,FR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1