训练集的评估制造技术

技术编号：15939488 阅读：46 留言：0更新日期：2017-08-04 22:03

该发明专利技术特别地涉及一种用于评估由机器学习系统预测的结果的潜在偏差的计算机实现的方法。该方法包括：在第一组观测上训练模型，每个观测与目标值相关联；随机生成第二组观测；将训练的模型应用于第二组，从而获得与第二组的每个观测相关联的目标值；将第一和第二组观测及其相关联的目标值索引到索引中；接收第一查询，第一查询允许对第一和第二组观测的子集的选择；生成第二查询，第二查询包括第一查询和将仅仅返回第一组的一个或多个观测的附加约束；生成第三查询，第三查询包括第一查询和将仅仅返回第二组的一个或多观测的附加约束；使用第二和第三查询来查询索引；并且返回对第二和第三查询的响应。

Evaluation of training set

The invention in particular relates to a computer implemented method for assessing potential deviations from predicted results by a machine learning system. The method includes: training model in the first set of observations, each of which is associated with the target observation value; randomly generated second groups of observation; the training model is applied to the second groups, and each group to obtain second observations associated with the target value; the goal of the first and second groups of observation and its associated value index to the index; receiving the first query, the first query allows subsets of the first and second groups of observation of choice; generate second queries, including the first and second query query will only return the first set of one or more observations to generate third additional constraints; third query query, including the first query and will only return the second group A or more observations of additional constraints; using second and third query to query the index; and on the second and the third returned in response to queries.

全部详细技术资料下载

【技术实现步骤摘要】
训练集的评估
该专利技术涉及计算机程序和系统领域，并且更具体地涉及用于评估由机器学习系统预测的结果的潜在偏差的方法、系统和程序。
技术介绍
在机器学习中，因为训练的模型不适当，输入变量的选择无效，或者训练样本的选择不代表新数据，所以可能发生预测误差。有时，模型的选择是有限的(例如，对于为即将到来的问题执行良好的已知模型)，并且输入变量的选择是有限的(例如，对于可以被收集的变量)。因此，对于分析者出现的问题是对于给定的模型和给定的一组输入变量，如何评估由于训练样本的选择或目标值对于其已知的该组观测的可用性(该组也被称为标记数据)的误差风险。已经开发了用于测试训练的模型的方法。第一个方法被称为德尔塔和伽马测试。在Stefánsson，N.和AntoniaJ.Jones的“Anoteonthegammatest.”NeuralComputing&Applications5.3(1997)：131-133中提出的伽马测试估计训练样本的仅仅基于平滑模型的误差。平滑模型是其输出是输入的平滑函数的模型(诸如神经网络)。平滑函数是具有有界部分一阶和二阶导数的函数。直观地，这意味着跨任何方向的函数的曲线是平滑的并且不形成角度。德尔塔测试不需要平滑模型，但需要连续模型。连续模型是其输出是输入的连续函数的模型。连续函数是一个这样的函数，如果S收敛到P，在一系列S点上的该函数的值趋于其在P点上的值。德尔塔测试在伽马测试之前。它对模型做较弱的假设，但是需要更大的数据集密度来估计具有相似质量的模型的误差。然而，该第一个方法经受缺点。值得注意的是，它适用受限类的模型。德尔塔测试...
训练集的评估

【技术保护点】
一种用于评估由机器学习系统预测的结果的潜在偏差的计算机实现的方法，包括：‑在第一组观测上训练(S10)模型，每个观测与目标值相关联；‑生成第二组观测；‑将训练的模型应用(S20)于所述第二组，从而获得与所述第二组中的每个观测相关联的目标值；‑将所述第一组观测和所述第二组观测及其相关联的目标值索引(S30)到索引中；‑接收(S40)第一查询，所述第一查询允许对所述第一组观测和所述第二组观测的子集的选择；‑生成(S50)第二查询，所述第二查询包括所述第一查询和仅仅返回所述第一组中的一个或多个观测的附加约束；‑生成(S52)第三查询，所述第三查询包括所述第一查询和仅仅返回所述第二组中的一个或多个观测的附加约束；‑使用所述第二查询和所述第三查询来查询所述索引；以及‑返回(S60)对所述第二查询和所述第三查询的响应。

【技术特征摘要】
2015.12.31 EP 15307193.11.一种用于评估由机器学习系统预测的结果的潜在偏差的计算机实现的方法，包括：-在第一组观测上训练(S10)模型，每个观测与目标值相关联；-生成第二组观测；-将训练的模型应用(S20)于所述第二组，从而获得与所述第二组中的每个观测相关联的目标值；-将所述第一组观测和所述第二组观测及其相关联的目标值索引(S30)到索引中；-接收(S40)第一查询，所述第一查询允许对所述第一组观测和所述第二组观测的子集的选择；-生成(S50)第二查询，所述第二查询包括所述第一查询和仅仅返回所述第一组中的一个或多个观测的附加约束；-生成(S52)第三查询，所述第三查询包括所述第一查询和仅仅返回所述第二组中的一个或多个观测的附加约束；-使用所述第二查询和所述第三查询来查询所述索引；以及-返回(S60)对所述第二查询和所述第三查询的响应。2.根据权利要求1所述的计算机实现的方法，其中所述第一组观测中的每个观测与一个或多个变量相关联，每个变量与值相关联。3.根据权利要求2所述的计算机实现的方法，进一步包括：在所述第一组观测上训练模型的步骤之前：-在连续段上或在离散集上定义所述第一组的一个或多个变量。4.根据权利要求3所述的计算机实现的方法，其中所述第二组观测的随机生成包括：-在所述第一组的每个变量上关联概率分布。5.根据权利要求4所述的计算机实现的...

【专利技术属性】
技术研发人员：X·格勒昂，
申请(专利权)人：达索系统公司，
类型：发明
国别省市：法国,FR

全部详细技术资料下载我是这个专利的主人