【技术实现步骤摘要】
大数据平台上的自动回归诊断方法
本专利技术涉及一种对大数据平台上的线性回归模型进行自动模型诊断的方法。
技术介绍
无论是在应用统计、数据分析,还是在现在比较热门的大数据分析等领域,线性回归模型由于其建模过程简单、解释方便,成为了最经典、最普遍和最常用的模型之一。然而,在进行线性回归建模时,人们难免需要对线性回归模型进行模型诊断。所谓回归模型是指:利用历史数据中的自变量与对应的因变量,建立形如Y=a(1)*X(1)+a(2)*X(2)+a(3)*X(3)+...+b的模型,其中,Y是因变量,各X(1),X(2),X(3),...是自变量,不同的X代表不同的数据维度,并利用该模型在给定自变量的情况下,预测对应的因变量的值。这样的建模方法得到的数学模型称为回归模型。在进行线性回归建模时,在回归模型中,构建最终模型需要经过一个所谓回归诊断的过程。在这个过程中,需要对模型、数据和记录进行方方面面的修正,从而使得最终的模型不但可靠而且具有较强的解释性。现有的线性回归模型诊断工作需要手动完成,专业的统计工程师与大量数据之间要进行交互,意味着大量的时间和较为专业的统计工程师的成本 ...
【技术保护点】
1.一种大数据平台上的自动回归诊断方法,其特征在于,包括以下步骤:步骤1、将数据源导入到大数据平台上,大数据平台中每台用于计算的服务器为一个节点;步骤2、确定数据抽样个数和每份样本大小后,对导入大数据平台的数据进行放回样本的随机抽样;步骤3、在各个节点上,分别利用核心算法对随机抽样得到的每份样本进行计算,得到每份样本所对应的回归模型;步骤4、对步骤3得到的各回归模型进行交叉验证,计算得到最终的回归模型,其中,步骤3中所述的核心算法包括以下步骤:步骤301、设定迭代停止条件;步骤302、对当前样本的数据进行线性模型的拟合;步骤303、计算步骤302得到的模型的指标,判断指标是 ...
【技术特征摘要】
1.一种大数据平台上的自动回归诊断方法,其特征在于,包括以下步骤:步骤1、将数据源导入到大数据平台上,大数据平台中每台用于计算的服务器为一个节点;步骤2、确定数据抽样个数和每份样本大小后,对导入大数据平台的数据进行放回样本的随机抽样;步骤3、在各个节点上,分别利用核心算法对随机抽样得到的每份样本进行计算,得到每份样本所对应的回归模型;步骤4、对步骤3得到的各回归模型进行交叉验证,计算得到最终的回归模型,其中,步骤3中所述的核心算法包括以下步骤:步骤301、设定迭代停止条件;步骤302、对当前样本的数据进行线性模型的拟合;步骤303、计算步骤302得到的模型的指标,判断指标是否满足步骤301所设的迭代停止条件,若满足,则将模型作为当前样本对应的回归模型输出,若不满足,则进入步骤304;步骤304、对每个自变量单独求取当前自变量对因变量对应的Box-Cox转换的转换系数,利用转换系数的均值,对因变量进行Box-Cox转换;步骤305、计算方差膨胀系数,删除自变量中方差膨胀系数大于等于设定阈值的自变量;步骤306、计算AIC指标的中位数,删除自变量中AIC指...
【专利技术属性】
技术研发人员:张毅骏,张瑞瑞,陈远猷,张瀚潇,
申请(专利权)人:上海明析数据科技有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。