动态离群值偏倚减少系统和方法技术方案

技术编号：15791869 阅读：67 留言：0更新日期：2017-07-09 22:24

本申请涉及动态离群值偏倚减少系统和方法。这里描述了用于进行数据过滤以减少功能性和趋势线离群值偏倚的系统和方法。通过客观统计方法从数据集合中去除离群值。基于绝对误差、相对误差或两者确定偏倚。根据数据、模型系数或趋势线计算来计算误差值。当误差值大于或等于用户提供的标准时，去除离群数据记录。对于优化方法或其他迭代计算，去除的数据在每次迭代中被重应用到模型以计算新结果。利用完整数据集的模型值，计算新误差值并且重应用离群值偏倚减少过程。以迭代方式对于模型系数和离群值去除数据最小化整体误差，直到达到用户定义的误差改进限度为止。经过滤的数据可用于验证、离群值偏倚减少和数据质量操作。

全部详细技术资料下载

【技术实现步骤摘要】
动态离群值偏倚减少系统和方法本申请是申请日为2012年8月17日、专利技术名称为“动态离群值偏倚减少系统和方法”的中国专利申请201280048043.6的分案申请。相关申请的交叉引用此国际专利申请要求2011年8月19日递交的标题为“DynamicOutlierBiasReductionSystemandMethod”、序列号为13/213,780的美国非临时专利申请的权益和优先权，这里通过引用将该美国申请全部并入。
本专利技术涉及对数据的分析，其中离群元素被从分析开发中去除(或过滤掉)。分析可与简单统计量的计算或者在其开发中涉及使用数据的数学模型的更复杂操作有关。离群数据过滤的目的可以是执行数据质量和数据验证操作，或者计算能够应用于后续分析、回归分析、时间序列分析中的代表性标准、统计量、数据群组或者用于数学模型开发的合格数据。
技术介绍
在标准或数据驱动模型开发中去除离群数据是分析前工作的一个重要部分，用来确保从底层数据开发出有代表性的且合理的分析。例如，为二氧化碳(CO2)、臭氧(O3)、水蒸气(H2O)、氢氟碳(HFC)、全氟化碳(PFC)、含氯氟烃(CFC)、六氟化硫(SF6)、甲烷(CH4)、一氧化二氮(N2O)、一氧化碳(CO)、氧化氮(NOx)以及非甲烷挥发性有机化合物(NMVOC)排放的温室气体标准开发公正的基准要求在标准开发中使用的所收集的工业数据表现出某些属性。少数几个工业场所的极好或极坏的性能不应当导致为其他场所计算的标准的偏倚。可以判断将这种性能结果包括在标准计算中是不合理或者没有代表性的。过去，经由一种要求主观输入的半定量过程来...
动态离群值偏倚减少系统和方法

【技术保护点】
一种计算机实现的方法，所述方法包括以下步骤：由被专门编程的计算系统以电子方式接收包括针对至少一个目标变量收集的所有实际数据值的目标数据集合；由所述被专门编程的计算系统基于所述目标数据集合生成随机数据集合；由所述被专门编程的计算系统以电子方式接收被用于确定一个或多个离群值的多个偏倚标准值；由所述被专门编程的计算系统使用所述目标数据集合和模型针对所述偏倚标准值中的每个偏倚标准值生成多个离群值偏倚减少目标数据集合；由所述被专门编程的计算系统使用所述随机数据集合和所述模型针对所述偏倚标准值中的每个偏倚标准值生成多个离群值偏倚减少随机数据集合；由所述被专门编程的计算系统计算用于所述离群值偏倚减少目标数据集合中的每一个的至少一个目标误差值以及用于所述离群值偏倚减少随机数据集合中的每一个的至少一个随机误差值；由所述被专门编程的计算系统计算用于所述离群值偏倚减少目标数据集合中的每一个的至少一个目标相关值以及用于所述离群值偏倚减少随机数据集合中的每一个的至少一个随机相关值；由所述被专门编程的计算系统基于用于所述离群值偏倚减少目标数据集合中的每一个的所述至少一个目标误差值和所述至少一个目标相关值来构建第一...

【技术特征摘要】
2011.08.19 US 13/213,7801.一种计算机实现的方法，所述方法包括以下步骤：由被专门编程的计算系统以电子方式接收包括针对至少一个目标变量收集的所有实际数据值的目标数据集合；由所述被专门编程的计算系统基于所述目标数据集合生成随机数据集合；由所述被专门编程的计算系统以电子方式接收被用于确定一个或多个离群值的多个偏倚标准值；由所述被专门编程的计算系统使用所述目标数据集合和模型针对所述偏倚标准值中的每个偏倚标准值生成多个离群值偏倚减少目标数据集合；由所述被专门编程的计算系统使用所述随机数据集合和所述模型针对所述偏倚标准值中的每个偏倚标准值生成多个离群值偏倚减少随机数据集合；由所述被专门编程的计算系统计算用于所述离群值偏倚减少目标数据集合中的每一个的至少一个目标误差值以及用于所述离群值偏倚减少随机数据集合中的每一个的至少一个随机误差值；由所述被专门编程的计算系统计算用于所述离群值偏倚减少目标数据集合中的每一个的至少一个目标相关值以及用于所述离群值偏倚减少随机数据集合中的每一个的至少一个随机相关值；由所述被专门编程的计算系统基于用于所述离群值偏倚减少目标数据集合中的每一个的所述至少一个目标误差值和所述至少一个目标相关值来构建第一偏倚标准曲线；由所述被专门编程的计算系统基于用于所述离群值偏倚减少随机数据集合中的每一个的所述至少一个随机误差值和所述至少一个随机相关值来构建第二偏倚标准曲线；以及由所述被专门编程的计算系统比较所述第一偏倚标准曲线和所述第二偏倚标准曲线以确定被用于开发所述模型的所述目标数据集合的可行性。2.如权利要求1所述的计算机实现的方法，其中所述随机数据集合包括在所述模型的多个预测值的范围内生成的多个随机数据值。3.如权利要求1所述的计算机实现的方法，还包括，由所述被专门编程的计算系统将所述第一偏倚标准曲线与所述第二偏倚标准曲线的比较翻译为指示被用于开发所述模型的所述目标数据集合的可行性的自动化建议消息。4.如权利要求1所述的计算机实现的方法，其中所述至少一个目标误差值是标准误差，并且其中所述至少一个目标相关值是确定系数值。5.如权利要求1所述的计算机实现的方法，其中，由所述被专门编程的计算系统使用所述目标数据集合和所述模型针对所述偏倚标准值中的每个偏倚标准值生成多个离群值偏倚减少目标数据集合包括：针对所述偏倚标准值中的每个偏倚标准值：由所述被专门编程的计算系统通过将所述模型应用到所述目标数据集合来生成用于所述目标数据集合的多个模型预测值；由所述被专门编程的计算系统使用所述目标数据集合和所述模型预测值来计算多个误差值；由所述被专门编程的计算系统将所述误差值与对应的偏倚标准值进行比较；由所述被专门编程的计算系统移除所述目标数据集合内的离群值以形成从所述误差值与所述对应的偏倚标准值的比较确定的对应的离群值偏倚减少目标数据集合；以及由所述被专门编程的计算系统优化所述模型以基于所述对应的离群值偏倚减少目标数据集合来形成更新的模型。6.如权利要求5所述的计算机实现的方法，其中所述误差值包括多个相对误差值和多个绝对误差值。7.如权利要求5所述的计算机实现的方法，其中所述被专门编程的计算系统使用所述目标数据集合针对所述偏倚标准值中的每个偏倚标准值生成多个离群值偏倚减少目标数据集合还包括：针对所述偏倚标准值中的每个偏倚标准值：由所述被专门编程的计算系统将所述误差值与预定义的终止标准进行比较以确定优化所述模型的终止；以及当所述误差值与所述预定义的终止标准的比较不表示优化所述模型的终止时，由所述被专门编程的计算系统通过将所述更新的模型应用到所述目标数据集合来生成用于所述目标数据集合的多个第二模型预测值。8.如权利要求1所述的计算机实现的方法，其中，由所述被专门编程的计算系统比较所述第一偏倚标准曲线和所述第二偏倚标准曲线以确定被用于开发所述模型的所述目标数据集合的可行性包括：由所述被专门编程的计算系统基于所述至少一个目标误差值确定所述第一偏倚标准曲线上的第一偏倚标准值；由所述被专门编程的计算系统基于所述至少一个随机误差值确定所述第二偏倚标准曲线上的第二偏倚标准值；以及由所述被专门编程的计算系统将所述第一偏倚标准值与所述第二偏倚标准值进行比较，其中所述至少一个目标误差值和所述至少一个随机误差值是相同的。9.如权利要求1所述的计算机实现的方法，还包括：通过比较若干迭代来确定所述离群值偏倚减少对每个偏倚标准值的影响以优化用于所述偏倚标准值中的每个偏倚标准值的所述更新的模型；以及比较用于所述偏倚标准值中的每个偏倚标准值的所述至少一个目标相关值的差别。10.如权利要求1所述的计算机实现的方法，其中所述随机数据集合包括基于所述目标数据集合的所有随机数据值，并且其中由所述被专门编程的计算系统使用所述随机数据集合和所述模型针对所述偏倚标准值中的每个偏倚标准值生成多个离群值偏倚减少随机数据集合包括：对于所述偏倚标准值中的每个偏倚标准值：由所述被专门编程的计算系统通过将所述模型应用到所述随机数据集合来生成用于所述随机数据集合的多个模型预测值；由所述被专门编程的计算系统使用所述随机数据集合和所述模型预测值来计算多个误差值；由所述被专门编程的计算系统将所述误差值与对应的偏倚标准值进行比较；由所述被专门编程的计算系统移除所述随机数据集合内的离群值以形成从所述误差值与所述对应的偏倚标准值的比较确定的对应的离群值偏倚减少随机数据集合；以及由所述被专门编程的计算系统优化所述模型以基于所述对应的离群值偏倚减少随机数据集合来形成更新的模型。11.一种对于评估开发模型中使用的数据集合的可行性而被专门化的系统，所述系统包括：服务器，所述服务器包括处理器和非暂态存储子系统；由所述非暂态存储子系统存储的数据库，所述数据库包括目标数据集合，所述目标数据集合包括针对至少一个目标变量收集的所有实际数据值；由所述非暂态存储子系统存储的计算程序，所述计算程序包括指令，所述指令当由所述处理器执行时，使得所述系统对于评估用于开发所述模型的所述目标数据集合的可行性而被专门化以至少执行以下操作：从所述目标数据集合生成随机数据集合；获得被用于确定一个或多个离群值的偏倚标准值集合；针对所述偏倚标准值集合中的一个或多个偏倚标准值执行对所述目标数据集合的动态离群值偏倚减少以生成一个或多个离群值偏倚减少目标数据集合；针对所述偏倚标准值集合中的一个或多个偏倚标准值执行对所述随机数据集合的动态离群值偏倚减少以生成一个或多个离群值偏倚减少随机数据集合；计算用于所述一个或多个离群值偏倚减少目标数据集合的目标误差值集合以及用于所述一个或多个离群值偏倚减少随机数据集合的随机误差值集合；计算用于所述离群值偏倚减少目标数据集合的目标相关系数集合以及用于所述离群值偏倚减少随机数据集合中的随机相关系数集合；从所述一个或多个偏倚标准值...

【专利技术属性】
技术研发人员：R·B·琼斯，
申请(专利权)人：哈佛蒸汽锅炉检验和保险公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人