The present application relates to dynamic outlier bias reduction systems and methods. Systems and methods for data filtering to reduce functionality and trend line outlier bias are described here. Outlier removal from a data set by objective statistical methods. Bias based on absolute error, relative error, or both. Calculate the error value based on data, model coefficients, or trend line calculations. When the error value is greater than or equal to the standard provided by the user, the outlier data is removed. For optimization methods or other iterative computations, the removed data is re applied to the model in each iteration to calculate the new results. Using the model value of the complete data set, the new error value is calculated and the bias reduction process is applied again. The overall error is eliminated by iteratively removing the data from the model coefficients and outliers until the user defined error improvement limit is reached. Filtered data can be used for validation, outlier bias reduction, and data quality manipulation.
【技术实现步骤摘要】
动态离群值偏倚减少系统和方法本申请是申请日为2012年8月17日、专利技术名称为“动态离群值偏倚减少系统和方法”的中国专利申请201280048043.6的分案申请。相关申请的交叉引用此国际专利申请要求2011年8月19日递交的标题为“DynamicOutlierBiasReductionSystemandMethod”、序列号为13/213,780的美国非临时专利申请的权益和优先权,这里通过引用将该美国申请全部并入。
本专利技术涉及对数据的分析,其中离群元素被从分析开发中去除(或过滤掉)。分析可与简单统计量的计算或者在其开发中涉及使用数据的数学模型的更复杂操作有关。离群数据过滤的目的可以是执行数据质量和数据验证操作,或者计算能够应用于后续分析、回归分析、时间序列分析中的代表性标准、统计量、数据群组或者用于数学模型开发的合格数据。
技术介绍
在标准或数据驱动模型开发中去除离群数据是分析前工作的一个重要部分,用来确保从底层数据开发出有代表性的且合理的分析。例如,为二氧化碳(CO2)、臭氧(O3)、水蒸气(H2O)、氢氟碳(HFC)、全氟化碳(PFC)、含氯氟烃(CFC)、六氟化硫(SF6)、甲烷(CH4)、一氧化二氮(N2O)、一氧化碳(CO)、氧化氮(NOx)以及非甲烷挥发性有机化合物(NMVOC)排放的温室气体标准开发公正的基准要求在标准开发中使用的所收集的工业数据表现出某些属性。少数几个工业场所的极好或极坏的性能不应当导致为其他场所计算的标准的偏倚。可以判断将这种性能结果包括在标准计算中是不合理或者没有代表性的。过去,经由一种要求主观输入的半定量过程来 ...
【技术保护点】
一种计算机实现的方法,包括以下步骤:由被专门编程的计算系统以电子方式接收至少一个误差阈值标准以及数据集合;由所述被专门编程的计算系统使用包括至少一个系数的模型执行离群值偏倚减少的第一迭代,其中执行离群值偏倚减少的第一迭代包括以下步骤:通过将所述模型应用于所述数据集合,确定预测值的集合;比较所述预测值的集合与所述数据集合,以产生至少一个误差值的集合;从所述数据集合中去除作为数据离群值的一个或多个数据值以形成离群值过滤数据集合,其中该数据离群值是根据所述至少一个误差值的集合以及所述至少一个误差阈值标准确定的;以及使用所述离群值过滤数据集合构建包括至少一个经更新的系数的经更新的模型;以及当至少一个终止标准未得到满足时,由所述被专门编程的计算系统执行离群值偏倚减少的第二迭代,其中执行离群值偏倚减少的第二迭代包括通过将所述经更新的模型应用于所述数据集合来确定第二预测值的集合。
【技术特征摘要】
2011.08.19 US 13/213,7801.一种计算机实现的方法,包括以下步骤:由被专门编程的计算系统以电子方式接收至少一个误差阈值标准以及数据集合;由所述被专门编程的计算系统使用包括至少一个系数的模型执行离群值偏倚减少的第一迭代,其中执行离群值偏倚减少的第一迭代包括以下步骤:通过将所述模型应用于所述数据集合,确定预测值的集合;比较所述预测值的集合与所述数据集合,以产生至少一个误差值的集合;从所述数据集合中去除作为数据离群值的一个或多个数据值以形成离群值过滤数据集合,其中该数据离群值是根据所述至少一个误差值的集合以及所述至少一个误差阈值标准确定的;以及使用所述离群值过滤数据集合构建包括至少一个经更新的系数的经更新的模型;以及当至少一个终止标准未得到满足时,由所述被专门编程的计算系统执行离群值偏倚减少的第二迭代,其中执行离群值偏倚减少的第二迭代包括通过将所述经更新的模型应用于所述数据集合来确定第二预测值的集合。2.如权利要求1所述的计算机实现的方法,由所述被专门编程的计算系统使用包括所述至少一个系数的所述模型执行离群值偏倚减少的第一迭代,其中执行离群值偏倚减少的第一迭代还包括以下步骤:为所述数据集合确定至少一个第一改进误差值的集合;为所述离群值过滤数据集合确定至少一个第二改进误差值的集合;以及比较所述至少一个第一改进误差值的集合与所述至少一个第二改进误差值的集合。3.如权利要求2所述的计算机实现的方法,其中根据对所述至少一个第一改进误差值的集合与所述至少一个第二改进误差值的集合的比较来确定所述至少一个终止标准未得到满足。4.如权利要求3所述的计算机实现的方法,其中根据所述至少一个终止标准是否具有未超过所述至少一个第一改进误差值的集合与所述至少一个第二改进误差值的集合的差异的改进值来确定所述至少一个终止标准未得到满足。5.如权利要求1所述的计算机实现的方法,其中所述至少一个第一改进误差值的集合是标准误差值。6.如权利要求1所述的计算机实现的方法,其中所述至少一个第一改进误差值的集合是确定系数值。7.如权利要求1所述的计算机实现的方法,其中所述至少一个终止标准是规定的迭代次数。8.如权利要求1所述的计算机实现的方法,其中所述至少一个终止标准是收敛标准。9.如权利要求1所述的计算机实现的方法,其中所述至少一个误差值的集合包括相对误差值的集合与绝对误差值的集合。10.如权利要求9所述的计算机实现的方法,其中来自所述数据集合的所述一个或多个数据值为数据离群值是根据针对来自所述数据集合的所述一个或多个数据值的所述相对误差值的集合中的相对误差值以及所述绝对误差值中的绝对误差值是否超过所述至少一个误差阈值标准来确定的。11.如权利要求1所述的计算机实现的方法,其中,当所述至少一个终止标准未得到满足时,由所述被专门编程的计算系统执行离群值偏倚减少的第二迭代还包括以下步骤:比较所述第二预测值的集合与所述数据集合,以产生至少一个第二误差值的集合;从所述数据集合中去除作为数据离群值的一个或多个数据值,以形成第二离群值过滤数据集合,其中该数据离群值是根据所述至少一个第二误差值的集合与所述至少一个误差阈值标准而确定的;以及使用第二离群值过滤数据集合构建第二迭代经更新的模型。12.如权利要求1所述的计算机实现的方法,其中,当所述至少一个终止标准未得到满足时,由所述被专门编程的计算系统执行离群值偏倚减少的第二迭代还包括以下步骤:将所述离群值过滤数据集合与所述数据离群值重新组合,以产生所述数据集合。13.一种专门用于减少离群值偏倚的系统,所述系统包括:服务器,所述服务器包括处理器和非暂态存储子系统;由所述非暂态存储子系统存储的数据库,所述数据库包括与至少一个目标变量相关联的数据集合;由所述非暂态存储子系统存储的计算机程序,所述计算机程序包括指令,所述指令在由所述处理器执行时,使得所述专门用于减少离群值偏倚的系统:经由所述数据库接收至少一个误差阈值标准和所述数据集合;为所述数据集合执行离群值偏倚减少的第一迭代,该离群值偏倚减少的第一迭代包括:通过将包括至少一个系数的模型应用于所述数据集合,确定预测值的集合;比较所述预测值的集合与所述数据集合,以产生至少一个误差值的集合;从所述数据集合中去除多...
【专利技术属性】
技术研发人员:R·B·琼斯,
申请(专利权)人:哈佛蒸汽锅炉检验和保险公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。