动态离群值偏倚减少系统和方法技术方案

技术编号:15791869 阅读:67 留言:0更新日期:2017-07-09 22:24
本申请涉及动态离群值偏倚减少系统和方法。这里描述了用于进行数据过滤以减少功能性和趋势线离群值偏倚的系统和方法。通过客观统计方法从数据集合中去除离群值。基于绝对误差、相对误差或两者确定偏倚。根据数据、模型系数或趋势线计算来计算误差值。当误差值大于或等于用户提供的标准时,去除离群数据记录。对于优化方法或其他迭代计算,去除的数据在每次迭代中被重应用到模型以计算新结果。利用完整数据集的模型值,计算新误差值并且重应用离群值偏倚减少过程。以迭代方式对于模型系数和离群值去除数据最小化整体误差,直到达到用户定义的误差改进限度为止。经过滤的数据可用于验证、离群值偏倚减少和数据质量操作。

【技术实现步骤摘要】
动态离群值偏倚减少系统和方法本申请是申请日为2012年8月17日、专利技术名称为“动态离群值偏倚减少系统和方法”的中国专利申请201280048043.6的分案申请。相关申请的交叉引用此国际专利申请要求2011年8月19日递交的标题为“DynamicOutlierBiasReductionSystemandMethod”、序列号为13/213,780的美国非临时专利申请的权益和优先权,这里通过引用将该美国申请全部并入。
本专利技术涉及对数据的分析,其中离群元素被从分析开发中去除(或过滤掉)。分析可与简单统计量的计算或者在其开发中涉及使用数据的数学模型的更复杂操作有关。离群数据过滤的目的可以是执行数据质量和数据验证操作,或者计算能够应用于后续分析、回归分析、时间序列分析中的代表性标准、统计量、数据群组或者用于数学模型开发的合格数据。
技术介绍
在标准或数据驱动模型开发中去除离群数据是分析前工作的一个重要部分,用来确保从底层数据开发出有代表性的且合理的分析。例如,为二氧化碳(CO2)、臭氧(O3)、水蒸气(H2O)、氢氟碳(HFC)、全氟化碳(PFC)、含氯氟烃(CFC)、六氟化硫(SF6)、甲烷(CH4)、一氧化二氮(N2O)、一氧化碳(CO)、氧化氮(NOx)以及非甲烷挥发性有机化合物(NMVOC)排放的温室气体标准开发公正的基准要求在标准开发中使用的所收集的工业数据表现出某些属性。少数几个工业场所的极好或极坏的性能不应当导致为其他场所计算的标准的偏倚。可以判断将这种性能结果包括在标准计算中是不合理或者没有代表性的。过去,经由一种要求主观输入的半定量过程来去除性能离群值(outlier)。本系统和方法是一种数据驱动的方案,该方案把此任务作为模型开发的一个组成部分来执行,而不是在分析前或模型开发前阶段执行。偏倚(bias)的去除可以是一个主观过程,其中以某种形式记录认为恰当的理由以证实数据变化。然而,任何形式的离群值去除都是一种带着改变计算结果的潜在可能性的数据审查。这种数据过滤可能减少或不减少计算中的偏倚或误差,并且本着完全分析公开的精神,严格的数据去除指导方针和去除离群值的证明材料需要与分析结果包括在一起。因此,在现有技术中需要提供一种新的系统和方法,用于利用一种对于数据质量操作、数据验证、统计计算或数学模型开发等等有用的动态统计过程来客观地去除离群数据偏倚。离群值偏倚去除系统和方法还可用于将数据分组成代表性类别,其中数据被应用到为每个群组定制的数学模型开发。在优选实施例中,系数被定义为数学模型中的乘法和加法因子以及在性质上非线性的其他数值参数。例如,在数学模型f(x,y,z)=a*x+b*yc+d*sin(ez)+f中,a、b、c、d、e和f全都被定义为系数。这些项的值可以固定或者是数学模型的开发的一部分。
技术实现思路
优选实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤:选择偏倚标准;提供数据集合;提供模型系数的集合;选择目标值的集合;(1)为完整数据集合生成预测值的集合;(2)为数据集生成误差集合;(3)基于误差集合和偏倚标准生成误差阈值的集合;(4)由处理器基于误差集合和误差阈值的集合生成经审查的数据集合;(5)由处理器生成新模型系数的集合;(6)使用新模型系数的集合,重复步骤(1)-(5),除非满足了审查性能终止标准。在优选实施例中,可基于数据集合和模型系数的集合来生成预测值的集合。在优选实施例中,误差集合可包括基于预测值的集合和目标值的集合生成的绝对误差的集合和相对误差的集合。在另一实施例中,误差集合可包括作为预测值的集合与目标值的集合之间的差异计算出的值。在另一实施例中,生成新系数的集合的步骤还可包括最小化预测值的集合与实际值的集合之间的误差的集合的步骤,这可利用线性或非线性优化模型来实现。在优选实施例中,审查性能终止标准可基于标准误差(standarderror)和确定系数(coefficientofdetermination)。另一实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤:选择误差标准;选择数据集合;选择实际值的集合;选择模型系数的初始集合;基于完整数据集合和模型系数的初始集合生成模型预测值的集合;(1)对于完整数据集,基于模型预测值和实际值的集合生成误差的集合;(2)对于完整数据集合,基于误差的完整集合和误差标准生成误差阈值的集合;(3)生成离群值被去除的数据集合,其中过滤基于完整数据集合和误差阈值的集合;(4)基于经过滤的数据集合和先前系数的集合生成新系数的集合,其中新系数的集合的生成由计算机处理器执行;(5)基于经过滤的数据集合和新模型系数的集合生成离群值偏倚减少模型预测值的集合,其中离群值偏倚减少模型预测值的集合的生成由计算机处理器执行;(6)基于模型预测值和实际值的集合生成模型性能值的集合;在用新系数的集合替代来自先前迭代的系数的集合的同时,重复步骤(1)-(6),除非:满足性能终止标准;并且将模型预测值的集合存储在计算机数据介质中。另一实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤:为设施选择目标变量;选择目标变量的实际值的集合;为设施识别与目标变量有关的多个变量;为设施获得数据集合,该数据集合包括多个变量的值;选择偏倚标准;选择模型系数的集合;(1)基于完整数据集合和模型系数的集合生成预测值的集合;(2)基于预测值的集合和实际值的集合生成审查模型性能值的集合;(3)对于目标变量,基于预测值的集合和实际值的集合生成误差集合;(4)基于误差集合和偏倚标准生成误差阈值的集合;(5)由处理器基于数据集合和误差阈值的集合生成经审查的数据集合;(6)由处理器基于经审查的数据集合和模型系数的集合生成新模型系数的集合;(7)由处理器基于数据集合和新模型系数的集合生成新预测值的集合;(8)基于新预测值的集合和实际值的集合生成新审查模型性能值的集合;使用新系数的集合,重复步骤(1)-(8),除非满足了审查性能终止标准;以及将新模型预测值的集合存储在计算机数据介质中。另一实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤:为设施选择目标变量,其中目标变量是关于工业设施的度量,与其生产、金融性能或排放有关;为设施识别多个变量,其中多个变量包括:设施的影响目标变量的多个直接变量;以及设施的经变换变量的集合,每个经变换变量是影响目标变量的至少一个直接设施变量的函数;选择误差标准,包括:绝对误差,以及相对误差;为设施获得数据集合,其中数据集合包括多个变量的值;选择目标变量的实际值的集合;选择模型系数的初始集合;基于完整数据集合和模型系数的初始集合生成模型预测值的集合;基于模型预测值的集合和实际值的集合生成误差的完整集合,其中相对误差是利用如下公式计算的:相对误差m=((预测值m–实际值m)/实际值m)2,其中“m”是参考编号,并且其中绝对误差是利用如下公式计算的:绝对误差m=(预测值m–实际值m)2;基于模型预测值的集合和实际值的集合生成模型性能值的集合,其中整体模型性能值的集合包括:第一标准误差,以及第一确定系数;(1)对于完整数据集合,基于模型预测值和实际值的集合生成误差的集合;(2)对于完整数据集合,基于误差本文档来自技高网
...
动态离群值偏倚减少系统和方法

【技术保护点】
一种计算机实现的方法,所述方法包括以下步骤:由被专门编程的计算系统以电子方式接收包括针对至少一个目标变量收集的所有实际数据值的目标数据集合;由所述被专门编程的计算系统基于所述目标数据集合生成随机数据集合;由所述被专门编程的计算系统以电子方式接收被用于确定一个或多个离群值的多个偏倚标准值;由所述被专门编程的计算系统使用所述目标数据集合和模型针对所述偏倚标准值中的每个偏倚标准值生成多个离群值偏倚减少目标数据集合;由所述被专门编程的计算系统使用所述随机数据集合和所述模型针对所述偏倚标准值中的每个偏倚标准值生成多个离群值偏倚减少随机数据集合;由所述被专门编程的计算系统计算用于所述离群值偏倚减少目标数据集合中的每一个的至少一个目标误差值以及用于所述离群值偏倚减少随机数据集合中的每一个的至少一个随机误差值;由所述被专门编程的计算系统计算用于所述离群值偏倚减少目标数据集合中的每一个的至少一个目标相关值以及用于所述离群值偏倚减少随机数据集合中的每一个的至少一个随机相关值;由所述被专门编程的计算系统基于用于所述离群值偏倚减少目标数据集合中的每一个的所述至少一个目标误差值和所述至少一个目标相关值来构建第一偏倚标准曲线;由所述被专门编程的计算系统基于用于所述离群值偏倚减少随机数据集合中的每一个的所述至少一个随机误差值和所述至少一个随机相关值来构建第二偏倚标准曲线;以及由所述被专门编程的计算系统比较所述第一偏倚标准曲线和所述第二偏倚标准曲线以确定被用于开发所述模型的所述目标数据集合的可行性。...

【技术特征摘要】
2011.08.19 US 13/213,7801.一种计算机实现的方法,所述方法包括以下步骤:由被专门编程的计算系统以电子方式接收包括针对至少一个目标变量收集的所有实际数据值的目标数据集合;由所述被专门编程的计算系统基于所述目标数据集合生成随机数据集合;由所述被专门编程的计算系统以电子方式接收被用于确定一个或多个离群值的多个偏倚标准值;由所述被专门编程的计算系统使用所述目标数据集合和模型针对所述偏倚标准值中的每个偏倚标准值生成多个离群值偏倚减少目标数据集合;由所述被专门编程的计算系统使用所述随机数据集合和所述模型针对所述偏倚标准值中的每个偏倚标准值生成多个离群值偏倚减少随机数据集合;由所述被专门编程的计算系统计算用于所述离群值偏倚减少目标数据集合中的每一个的至少一个目标误差值以及用于所述离群值偏倚减少随机数据集合中的每一个的至少一个随机误差值;由所述被专门编程的计算系统计算用于所述离群值偏倚减少目标数据集合中的每一个的至少一个目标相关值以及用于所述离群值偏倚减少随机数据集合中的每一个的至少一个随机相关值;由所述被专门编程的计算系统基于用于所述离群值偏倚减少目标数据集合中的每一个的所述至少一个目标误差值和所述至少一个目标相关值来构建第一偏倚标准曲线;由所述被专门编程的计算系统基于用于所述离群值偏倚减少随机数据集合中的每一个的所述至少一个随机误差值和所述至少一个随机相关值来构建第二偏倚标准曲线;以及由所述被专门编程的计算系统比较所述第一偏倚标准曲线和所述第二偏倚标准曲线以确定被用于开发所述模型的所述目标数据集合的可行性。2.如权利要求1所述的计算机实现的方法,其中所述随机数据集合包括在所述模型的多个预测值的范围内生成的多个随机数据值。3.如权利要求1所述的计算机实现的方法,还包括,由所述被专门编程的计算系统将所述第一偏倚标准曲线与所述第二偏倚标准曲线的比较翻译为指示被用于开发所述模型的所述目标数据集合的可行性的自动化建议消息。4.如权利要求1所述的计算机实现的方法,其中所述至少一个目标误差值是标准误差,并且其中所述至少一个目标相关值是确定系数值。5.如权利要求1所述的计算机实现的方法,其中,由所述被专门编程的计算系统使用所述目标数据集合和所述模型针对所述偏倚标准值中的每个偏倚标准值生成多个离群值偏倚减少目标数据集合包括:针对所述偏倚标准值中的每个偏倚标准值:由所述被专门编程的计算系统通过将所述模型应用到所述目标数据集合来生成用于所述目标数据集合的多个模型预测值;由所述被专门编程的计算系统使用所述目标数据集合和所述模型预测值来计算多个误差值;由所述被专门编程的计算系统将所述误差值与对应的偏倚标准值进行比较;由所述被专门编程的计算系统移除所述目标数据集合内的离群值以形成从所述误差值与所述对应的偏倚标准值的比较确定的对应的离群值偏倚减少目标数据集合;以及由所述被专门编程的计算系统优化所述模型以基于所述对应的离群值偏倚减少目标数据集合来形成更新的模型。6.如权利要求5所述的计算机实现的方法,其中所述误差值包括多个相对误差值和多个绝对误差值。7.如权利要求5所述的计算机实现的方法,其中所述被专门编程的计算系统使用所述目标数据集合针对所述偏倚标准值中的每个偏倚标准值生成多个离群值偏倚减少目标数据集合还包括:针对所述偏倚标准值中的每个偏倚标准值:由所述被专门编程的计算系统将所述误差值与预定义的终止标准进行比较以确定优化所述模型的终止;以及当所述误差值与所述预定义的终止标准的比较不表示优化所述模型的终止时,由所述被专门编程的计算系统通过将所述更新的模型应用到所述目标数据集合来生成用于所述目标数据集合的多个第二模型预测值。8.如权利要求1所述的计算机实现的方法,其中,由所述被专门编程的计算系统比较所述第一偏倚标准曲线和所述第二偏倚标准曲线以确定被用于开发所述模型的所述目标数据集合的可行性包括:由所述被专门编程的计算系统基于所述至少一个目标误差值确定所述第一偏倚标准曲线上的第一偏倚标准值;由所述被专门编程的计算系统基于所述至少一个随机误差值确定所述第二偏倚标准曲线上的第二偏倚标准值;以及由所述被专门编程的计算系统将所述第一偏倚标准值与所述第二偏倚标准值进行比较,其中所述至少一个目标误差值和所述至少一个随机误差值是相同的。9.如权利要求1所述的计算机实现的方法,还包括:通过比较若干迭代来确定所述离群值偏倚减少对每个偏倚标准值的影响以优化用于所述偏倚标准值中的每个偏倚标准值的所述更新的模型;以及比较用于所述偏倚标准值中的每个偏倚标准值的所述至少一个目标相关值的差别。10.如权利要求1所述的计算机实现的方法,其中所述随机数据集合包括基于所述目标数据集合的所有随机数据值,并且其中由所述被专门编程的计算系统使用所述随机数据集合和所述模型针对所述偏倚标准值中的每个偏倚标准值生成多个离群值偏倚减少随机数据集合包括:对于所述偏倚标准值中的每个偏倚标准值:由所述被专门编程的计算系统通过将所述模型应用到所述随机数据集合来生成用于所述随机数据集合的多个模型预测值;由所述被专门编程的计算系统使用所述随机数据集合和所述模型预测值来计算多个误差值;由所述被专门编程的计算系统将所述误差值与对应的偏倚标准值进行比较;由所述被专门编程的计算系统移除所述随机数据集合内的离群值以形成从所述误差值与所述对应的偏倚标准值的比较确定的对应的离群值偏倚减少随机数据集合;以及由所述被专门编程的计算系统优化所述模型以基于所述对应的离群值偏倚减少随机数据集合来形成更新的模型。11.一种对于评估开发模型中使用的数据集合的可行性而被专门化的系统,所述系统包括:服务器,所述服务器包括处理器和非暂态存储子系统;由所述非暂态存储子系统存储的数据库,所述数据库包括目标数据集合,所述目标数据集合包括针对至少一个目标变量收集的所有实际数据值;由所述非暂态存储子系统存储的计算程序,所述计算程序包括指令,所述指令当由所述处理器执行时,使得所述系统对于评估用于开发所述模型的所述目标数据集合的可行性而被专门化以至少执行以下操作:从所述目标数据集合生成随机数据集合;获得被用于确定一个或多个离群值的偏倚标准值集合;针对所述偏倚标准值集合中的一个或多个偏倚标准值执行对所述目标数据集合的动态离群值偏倚减少以生成一个或多个离群值偏倚减少目标数据集合;针对所述偏倚标准值集合中的一个或多个偏倚标准值执行对所述随机数据集合的动态离群值偏倚减少以生成一个或多个离群值偏倚减少随机数据集合;计算用于所述一个或多个离群值偏倚减少目标数据集合的目标误差值集合以及用于所述一个或多个离群值偏倚减少随机数据集合的随机误差值集合;计算用于所述离群值偏倚减少目标数据集合的目标相关系数集合以及用于所述离群值偏倚减少随机数据集合中的随机相关系数集合;从所述一个或多个偏倚标准值...

【专利技术属性】
技术研发人员:R·B·琼斯
申请(专利权)人:哈佛蒸汽锅炉检验和保险公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1