动态离群值偏倚减少系统和方法技术方案

技术编号:15762954 阅读:75 留言:0更新日期:2017-07-05 23:29
本申请涉及动态离群值偏倚减少系统和方法。这里描述了用于进行数据过滤以减少功能性和趋势线离群值偏倚的系统和方法。通过客观统计方法从数据集合中去除离群值。基于绝对误差、相对误差或两者确定偏倚。根据数据、模型系数或趋势线计算来计算误差值。当误差值大于或等于用户提供的标准时,去除离群数据记录。对于优化方法或其他迭代计算,去除的数据在每次迭代中被重应用到模型以计算新结果。利用完整数据集的模型值,计算新误差值并且重应用离群值偏倚减少过程。以迭代方式对于模型系数和离群值去除数据最小化整体误差,直到达到用户定义的误差改进限度为止。经过滤的数据可用于验证、离群值偏倚减少和数据质量操作。

Dynamic outlier bias reduction system and method

The present application relates to dynamic outlier bias reduction systems and methods. Systems and methods for data filtering to reduce functionality and trend line outlier bias are described here. Outlier removal from a data set by objective statistical methods. Bias based on absolute error, relative error, or both. Calculate the error value based on data, model coefficients, or trend line calculations. When the error value is greater than or equal to the standard provided by the user, the outlier data is removed. For optimization methods or other iterative computations, the removed data is re applied to the model in each iteration to calculate the new results. Using the model value of the complete data set, the new error value is calculated and the bias reduction process is applied again. The overall error is eliminated by iteratively removing the data from the model coefficients and outliers until the user defined error improvement limit is reached. Filtered data can be used for validation, outlier bias reduction, and data quality manipulation.

【技术实现步骤摘要】
动态离群值偏倚减少系统和方法本申请是申请日为2012年8月17日、专利技术名称为“动态离群值偏倚减少系统和方法”的中国专利申请201280048043.6的分案申请。相关申请的交叉引用此国际专利申请要求2011年8月19日递交的标题为“DynamicOutlierBiasReductionSystemandMethod”、序列号为13/213,780的美国非临时专利申请的权益和优先权,这里通过引用将该美国申请全部并入。
本专利技术涉及对数据的分析,其中离群元素被从分析开发中去除(或过滤掉)。分析可与简单统计量的计算或者在其开发中涉及使用数据的数学模型的更复杂操作有关。离群数据过滤的目的可以是执行数据质量和数据验证操作,或者计算能够应用于后续分析、回归分析、时间序列分析中的代表性标准、统计量、数据群组或者用于数学模型开发的合格数据。
技术介绍
在标准或数据驱动模型开发中去除离群数据是分析前工作的一个重要部分,用来确保从底层数据开发出有代表性的且合理的分析。例如,为二氧化碳(CO2)、臭氧(O3)、水蒸气(H2O)、氢氟碳(HFC)、全氟化碳(PFC)、含氯氟烃(CFC)、六氟化硫(SF6)、甲烷(CH4)、一氧化二氮(N2O)、一氧化碳(CO)、氧化氮(NOx)以及非甲烷挥发性有机化合物(NMVOC)排放的温室气体标准开发公正的基准要求在标准开发中使用的所收集的工业数据表现出某些属性。少数几个工业场所的极好或极坏的性能不应当导致为其他场所计算的标准的偏倚。可以判断将这种性能结果包括在标准计算中是不合理或者没有代表性的。过去,经由一种要求主观输入的半定量过程来去除性能离群值(outlier)。本系统和方法是一种数据驱动的方案,该方案把此任务作为模型开发的一个组成部分来执行,而不是在分析前或模型开发前阶段执行。偏倚(bias)的去除可以是一个主观过程,其中以某种形式记录认为恰当的理由以证实数据变化。然而,任何形式的离群值去除都是一种带着改变计算结果的潜在可能性的数据审查。这种数据过滤可能减少或不减少计算中的偏倚或误差,并且本着完全分析公开的精神,严格的数据去除指导方针和去除离群值的证明材料需要与分析结果包括在一起。因此,在现有技术中需要提供一种新的系统和方法,用于利用一种对于数据质量操作、数据验证、统计计算或数学模型开发等等有用的动态统计过程来客观地去除离群数据偏倚。离群值偏倚去除系统和方法还可用于将数据分组成代表性类别,其中数据被应用到为每个群组定制的数学模型开发。在优选实施例中,系数被定义为数学模型中的乘法和加法因子以及在性质上非线性的其他数值参数。例如,在数学模型f(x,y,z)=a*x+b*yc+d*sin(ez)+f中,a、b、c、d、e和f全都被定义为系数。这些项的值可以固定或者是数学模型的开发的一部分。
技术实现思路
优选实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤:选择偏倚标准;提供数据集合;提供模型系数的集合;选择目标值的集合;(1)为完整数据集合生成预测值的集合;(2)为数据集生成误差集合;(3)基于误差集合和偏倚标准生成误差阈值的集合;(4)由处理器基于误差集合和误差阈值的集合生成经审查的数据集合;(5)由处理器生成新模型系数的集合;(6)使用新模型系数的集合,重复步骤(1)-(5),除非满足了审查性能终止标准。在优选实施例中,可基于数据集合和模型系数的集合来生成预测值的集合。在优选实施例中,误差集合可包括基于预测值的集合和目标值的集合生成的绝对误差的集合和相对误差的集合。在另一实施例中,误差集合可包括作为预测值的集合与目标值的集合之间的差异计算出的值。在另一实施例中,生成新系数的集合的步骤还可包括最小化预测值的集合与实际值的集合之间的误差的集合的步骤,这可利用线性或非线性优化模型来实现。在优选实施例中,审查性能终止标准可基于标准误差(standarderror)和确定系数(coefficientofdetermination)。另一实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤:选择误差标准;选择数据集合;选择实际值的集合;选择模型系数的初始集合;基于完整数据集合和模型系数的初始集合生成模型预测值的集合;(1)对于完整数据集,基于模型预测值和实际值的集合生成误差的集合;(2)对于完整数据集合,基于误差的完整集合和误差标准生成误差阈值的集合;(3)生成离群值被去除的数据集合,其中过滤基于完整数据集合和误差阈值的集合;(4)基于经过滤的数据集合和先前系数的集合生成新系数的集合,其中新系数的集合的生成由计算机处理器执行;(5)基于经过滤的数据集合和新模型系数的集合生成离群值偏倚减少模型预测值的集合,其中离群值偏倚减少模型预测值的集合的生成由计算机处理器执行;(6)基于模型预测值和实际值的集合生成模型性能值的集合;在用新系数的集合替代来自先前迭代的系数的集合的同时,重复步骤(1)-(6),除非:满足性能终止标准;并且将模型预测值的集合存储在计算机数据介质中。另一实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤:为设施选择目标变量;选择目标变量的实际值的集合;为设施识别与目标变量有关的多个变量;为设施获得数据集合,该数据集合包括多个变量的值;选择偏倚标准;选择模型系数的集合;(1)基于完整数据集合和模型系数的集合生成预测值的集合;(2)基于预测值的集合和实际值的集合生成审查模型性能值的集合;(3)对于目标变量,基于预测值的集合和实际值的集合生成误差集合;(4)基于误差集合和偏倚标准生成误差阈值的集合;(5)由处理器基于数据集合和误差阈值的集合生成经审查的数据集合;(6)由处理器基于经审查的数据集合和模型系数的集合生成新模型系数的集合;(7)由处理器基于数据集合和新模型系数的集合生成新预测值的集合;(8)基于新预测值的集合和实际值的集合生成新审查模型性能值的集合;使用新系数的集合,重复步骤(1)-(8),除非满足了审查性能终止标准;以及将新模型预测值的集合存储在计算机数据介质中。另一实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤:为设施选择目标变量,其中目标变量是关于工业设施的度量,与其生产、金融性能或排放有关;为设施识别多个变量,其中多个变量包括:设施的影响目标变量的多个直接变量;以及设施的经变换变量的集合,每个经变换变量是影响目标变量的至少一个直接设施变量的函数;选择误差标准,包括:绝对误差,以及相对误差;为设施获得数据集合,其中数据集合包括多个变量的值;选择目标变量的实际值的集合;选择模型系数的初始集合;基于完整数据集合和模型系数的初始集合生成模型预测值的集合;基于模型预测值的集合和实际值的集合生成误差的完整集合,其中相对误差是利用如下公式计算的:相对误差m=((预测值m–实际值m)/实际值m)2,其中“m”是参考编号,并且其中绝对误差是利用如下公式计算的:绝对误差m=(预测值m–实际值m)2;基于模型预测值的集合和实际值的集合生成模型性能值的集合,其中整体模型性能值的集合包括:第一标准误差,以及第一确定系数;(1)对于完整数据集合,基于模型预测值和实际值的集合生成误差的集合;(2)对于完整数据集合,基于误差本文档来自技高网
...
动态离群值偏倚减少系统和方法

【技术保护点】
一种计算机实现的方法,包括以下步骤:由被专门编程的计算系统以电子方式接收至少一个误差阈值标准以及数据集合;由所述被专门编程的计算系统使用包括至少一个系数的模型执行离群值偏倚减少的第一迭代,其中执行离群值偏倚减少的第一迭代包括以下步骤:通过将所述模型应用于所述数据集合,确定预测值的集合;比较所述预测值的集合与所述数据集合,以产生至少一个误差值的集合;从所述数据集合中去除作为数据离群值的一个或多个数据值以形成离群值过滤数据集合,其中该数据离群值是根据所述至少一个误差值的集合以及所述至少一个误差阈值标准确定的;以及使用所述离群值过滤数据集合构建包括至少一个经更新的系数的经更新的模型;以及当至少一个终止标准未得到满足时,由所述被专门编程的计算系统执行离群值偏倚减少的第二迭代,其中执行离群值偏倚减少的第二迭代包括通过将所述经更新的模型应用于所述数据集合来确定第二预测值的集合。

【技术特征摘要】
2011.08.19 US 13/213,7801.一种计算机实现的方法,包括以下步骤:由被专门编程的计算系统以电子方式接收至少一个误差阈值标准以及数据集合;由所述被专门编程的计算系统使用包括至少一个系数的模型执行离群值偏倚减少的第一迭代,其中执行离群值偏倚减少的第一迭代包括以下步骤:通过将所述模型应用于所述数据集合,确定预测值的集合;比较所述预测值的集合与所述数据集合,以产生至少一个误差值的集合;从所述数据集合中去除作为数据离群值的一个或多个数据值以形成离群值过滤数据集合,其中该数据离群值是根据所述至少一个误差值的集合以及所述至少一个误差阈值标准确定的;以及使用所述离群值过滤数据集合构建包括至少一个经更新的系数的经更新的模型;以及当至少一个终止标准未得到满足时,由所述被专门编程的计算系统执行离群值偏倚减少的第二迭代,其中执行离群值偏倚减少的第二迭代包括通过将所述经更新的模型应用于所述数据集合来确定第二预测值的集合。2.如权利要求1所述的计算机实现的方法,由所述被专门编程的计算系统使用包括所述至少一个系数的所述模型执行离群值偏倚减少的第一迭代,其中执行离群值偏倚减少的第一迭代还包括以下步骤:为所述数据集合确定至少一个第一改进误差值的集合;为所述离群值过滤数据集合确定至少一个第二改进误差值的集合;以及比较所述至少一个第一改进误差值的集合与所述至少一个第二改进误差值的集合。3.如权利要求2所述的计算机实现的方法,其中根据对所述至少一个第一改进误差值的集合与所述至少一个第二改进误差值的集合的比较来确定所述至少一个终止标准未得到满足。4.如权利要求3所述的计算机实现的方法,其中根据所述至少一个终止标准是否具有未超过所述至少一个第一改进误差值的集合与所述至少一个第二改进误差值的集合的差异的改进值来确定所述至少一个终止标准未得到满足。5.如权利要求1所述的计算机实现的方法,其中所述至少一个第一改进误差值的集合是标准误差值。6.如权利要求1所述的计算机实现的方法,其中所述至少一个第一改进误差值的集合是确定系数值。7.如权利要求1所述的计算机实现的方法,其中所述至少一个终止标准是规定的迭代次数。8.如权利要求1所述的计算机实现的方法,其中所述至少一个终止标准是收敛标准。9.如权利要求1所述的计算机实现的方法,其中所述至少一个误差值的集合包括相对误差值的集合与绝对误差值的集合。10.如权利要求9所述的计算机实现的方法,其中来自所述数据集合的所述一个或多个数据值为数据离群值是根据针对来自所述数据集合的所述一个或多个数据值的所述相对误差值的集合中的相对误差值以及所述绝对误差值中的绝对误差值是否超过所述至少一个误差阈值标准来确定的。11.如权利要求1所述的计算机实现的方法,其中,当所述至少一个终止标准未得到满足时,由所述被专门编程的计算系统执行离群值偏倚减少的第二迭代还包括以下步骤:比较所述第二预测值的集合与所述数据集合,以产生至少一个第二误差值的集合;从所述数据集合中去除作为数据离群值的一个或多个数据值,以形成第二离群值过滤数据集合,其中该数据离群值是根据所述至少一个第二误差值的集合与所述至少一个误差阈值标准而确定的;以及使用第二离群值过滤数据集合构建第二迭代经更新的模型。12.如权利要求1所述的计算机实现的方法,其中,当所述至少一个终止标准未得到满足时,由所述被专门编程的计算系统执行离群值偏倚减少的第二迭代还包括以下步骤:将所述离群值过滤数据集合与所述数据离群值重新组合,以产生所述数据集合。13.一种专门用于减少离群值偏倚的系统,所述系统包括:服务器,所述服务器包括处理器和非暂态存储子系统;由所述非暂态存储子系统存储的数据库,所述数据库包括与至少一个目标变量相关联的数据集合;由所述非暂态存储子系统存储的计算机程序,所述计算机程序包括指令,所述指令在由所述处理器执行时,使得所述专门用于减少离群值偏倚的系统:经由所述数据库接收至少一个误差阈值标准和所述数据集合;为所述数据集合执行离群值偏倚减少的第一迭代,该离群值偏倚减少的第一迭代包括:通过将包括至少一个系数的模型应用于所述数据集合,确定预测值的集合;比较所述预测值的集合与所述数据集合,以产生至少一个误差值的集合;从所述数据集合中去除多...

【专利技术属性】
技术研发人员:R·B·琼斯
申请(专利权)人:哈佛蒸汽锅炉检验和保险公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1