当前位置: 首页 > 专利查询>清华大学专利>正文

线性模型稳定学习方法和装置制造方法及图纸

技术编号:22532521 阅读:40 留言:0更新日期:2019-11-13 09:39
本发明专利技术提出一种线性模型稳定学习方法和装置,其中,方法包括:对自变量的初始矩阵的每一列数据进行随机重采样,并根据采样结果生成最终矩阵;将第一样本标签赋予初始矩阵,并将第二样本标签赋予最终矩阵,生成概率二分类器;以及通过概率二分类器并应用概率密度比估计算法得到新的样本权重,并根据新的样本权重调整样本权重,以消除自变量之间的共线性,生成最终线性回归模型。本发明专利技术实施例的方法,通过线性模型稳定方法学习,实现消除自变量之间的共线性的目的,提高了模型的拟合精度,进而能够在多变的数据分布下保持稳定的预测性能。

Stable learning method and device of linear model

The invention proposes a linear model stable learning method and device, wherein, the method comprises: random resampling of each column of data of the initial matrix of independent variable, and generating the final matrix according to the sampling result; assigning the first sample label to the initial matrix, and assigning the second sample label to the final matrix, and generating the probability two classifier; and applying the probability two classifier to generate the probability two classifier The new sample weight is obtained by using the probability density ratio estimation algorithm, and the sample weight is adjusted according to the new sample weight to eliminate the collinearity between independent variables and generate the final linear regression model. The method of the embodiment of the invention realizes the goal of eliminating the collinearity between independent variables through the learning of the linear model stability method, improves the fitting accuracy of the model, and can maintain the stable prediction performance under the changeable data distribution.

【技术实现步骤摘要】
线性模型稳定学习方法和装置
本专利技术涉及回归分析和稳定学习
,尤其涉及一种线性模型稳定学习方法和装置。
技术介绍
目前,回归分析是一种经典的统计机器学习方法,其中线性回归模型又因其简洁的数学表达和高效的求解过程至今被广泛应用于刻画因变量于自变量之间的关系。然而,线性回归在模型假设与真实数据产生机制不符的情况下会引入系统性的偏差,这种偏差会被自变量之间的共线性无限制地放大,极大地影响模型的拟合精度。此外,传统的机器学习方法高度依赖数据产生的独立同分布假设,而真实场景下由于数据来源的不可知性,此假设不容易满足,因此在真实环境下的预测性能不稳定。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种线性模型稳定学习方法,该方法通过线性模型稳定方法学习,实现消除自变量之间的共线性的目的,提高了模型的拟合精度,进而能够在多变的数据分布下保持稳定的预测性能。本专利技术的第二个目的在于提出一种线性模型稳定学习装置。本专利技术的第三个目的在于提出一种计算机设备。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。为达上述目的,本专利技术第一方面实施例提出了一种线性模型稳定学习方法,包括:对自变量的初始矩阵的每一列数据进行随机重采样,并根据采样结果生成最终矩阵;将第一样本标签赋予所述初始矩阵,并将第二样本标签赋予所述最终矩阵,生成概率二分类器;以及通过所述概率二分类器并应用概率密度比估计算法得到新的样本权重,并根据所述新的样本权重调整样本权重,以消除自变量之间的共线性,生成最终线性回归模型。本专利技术实施例的线性模型稳定学习方法,在给定自变量初始矩阵之后,重新采样生成最终矩阵,然后通过概率二分类器以及应用概率密度比估计算法调整样本权重,实现消除自变量之间的共线性的目的,提高了模型的拟合精度,进而能够在多变的数据分布下保持稳定的预测性能。其中,在本专利技术的一个实施例中,所述最终矩阵的任意两列不相关,且所述最终矩阵的每一列数据的边际分布与所述初始矩阵的每一列数据的边际分布不相同。进一步地,在本专利技术的一个实施例中,所述第一样本标签为正样本标签,所述第二样本标签为负样本标签。为达上述目的,本专利技术第二方面实施例提出了一种线性模型稳定学习装置,包括:采样模块,用于对自变量的初始矩阵的每一列数据进行随机重采样,并根据采样结果生成最终矩阵;生成模块,用于将第一样本标签赋予所述初始矩阵,并将第二样本标签赋予所述最终矩阵,生成概率二分类器;处理模块,用于通过所述概率二分类器并应用概率密度比估计算法得到新的样本权重,并根据所述新的样本权重调整样本权重,以消除自变量之间的共线性,生成最终线性回归模型。本专利技术实施例的线性模型稳定学习装置,在给定自变量初始矩阵之后,重新采样生成最终矩阵,然后通过概率二分类器以及应用概率密度比估计算法调整样本权重,实现消除自变量之间的共线性的目的,提高了模型的拟合精度,进而能够在多变的数据分布下保持稳定的预测性能。其中,在本专利技术的一个实施例中,所述最终矩阵的任意两列不相关,且所述最终矩阵的每一列数据的边际分布与所述初始矩阵的每一列数据的边际分布不相同。进一步地,在本专利技术的一个实施例中,所述第一样本标签为正样本标签,所述第二样本标签为负样本标签。为达上述目的,本专利技术第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如第一方面实施例所述的线性模型稳定学习方法。为达上述目的,本专利技术第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面实施例所述的线性模型稳定学习方法。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术实施例所提供的一种线性模型稳定学习方法的流程图;图2为本专利技术实施例所提供的一种由自变量初始矩阵生成最终矩阵的示意图;图3为本专利技术实施例所提供的一种赋予初始矩阵样本和最终矩阵样本的示意图;图4为本专利技术实施例提供的一种线性模型稳定学习装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参考附图描述本专利技术实施例的线性模型稳定学习方法和装置,首先将参照附图描述根据本专利技术实施例提出的线性模型稳定学习方法。图1为本专利技术实施例所提供的一种线性模型稳定学习方法的流程图。如图1所示,本专利技术实施例的线性模型稳定学习方法包括以下步骤:步骤101,对自变量的初始矩阵的每一列数据进行随机重采样,并根据采样结果生成最终矩阵。在本专利技术的一个实施例中,最终矩阵的任意两列不相关,且最终矩阵的每一列数据的边际分布与初始矩阵的每一列数据的边际分布不相同。具体的,作为本专利技术可能实现的一种方式,如图2所示,矩阵为自变量初始矩阵,n代表样本数量,p代表变量数量。本专利技术对初始矩阵的每一列数据(即每一个特定变量在不同样本下的取值)进行独立的有放回的随机抽样;如原始第1列数据(第1个变量)的n个取值x11,x21,…,xn1经重采样后变为xi1,xj1,…,xk1,原始第l列数据(第l个变量)x1l,x2l,…,xnl经重采样后变为xrl,xsl,…,xtl,重复p次这样的采样过程后最终生成矩阵需要说明的是,由于独立采样的性质,自变量初始矩阵中变量之间的相关性在最终矩阵中被完全消除。步骤102,将第一样本标签赋予初始矩阵,并将第二样本标签赋予最终矩阵,生成概率二分类器。在本专利技术的一个实施例中,第一样本标签为正样本标签,第二样本标签为负样本标签。具体的,作为本专利技术可能实现的一种方式,如图3所示,记为初始矩阵中的样本,并赋予正样本标签y=′de′,又记为最终矩阵中的样本,并赋予负样本标签y=′nu′,将两类带标签的样本混合可以得到一个典型的二分类任务数据集通过使用梯度下降法拟合概率二分类器逻辑回归,我们可以对数据集中的点进行分类,并且得到每一个点属于正样本的概率其中逻辑回归的损失函数如下公式(1)所示:其中,k表示混合数据集中的样本编号,βT表示逻辑回归的参数向量,也即分类超平面的参数,表示混合数据集中第k个样本的自变量取值,表示混合数据集中第k个样本的标签(正或负)。步骤103,通过概率二分类器并应用概率密度比估计算法得到新的样本权重,并根据新的样本权重调整样本权重,以消除自变量之间的共线性,生成最终线性回归模型。在本专利技术的一个实施例中,完成二分类器的拟合后,我们可以通过概率密度比估计算法得到新的样本权重;具体地,假设原始矩阵中的样本为则新的样本权重可以通过进行估计。进而通过应用估计得到的样本权重可以写出新的加权线性回归的目标函数,如公式(2)所示:最后应用梯度下降法可以得到最终的系数估计β。其中,n表示原始数据集的样本大小,j表示原始数据集中的样本编号,xj表示原始数据集中第j个样本的本文档来自技高网...

【技术保护点】
1.一种线性模型稳定学习方法,其特征在于,包括以下步骤:对自变量的初始矩阵的每一列数据进行随机重采样,并根据采样结果生成最终矩阵;将第一样本标签赋予所述初始矩阵,并将第二样本标签赋予所述最终矩阵,生成概率二分类器;以及通过所述概率二分类器并应用概率密度比估计算法得到新的样本权重,并根据所述新的样本权重调整样本权重,以消除自变量之间的共线性,生成最终线性回归模型。

【技术特征摘要】
1.一种线性模型稳定学习方法,其特征在于,包括以下步骤:对自变量的初始矩阵的每一列数据进行随机重采样,并根据采样结果生成最终矩阵;将第一样本标签赋予所述初始矩阵,并将第二样本标签赋予所述最终矩阵,生成概率二分类器;以及通过所述概率二分类器并应用概率密度比估计算法得到新的样本权重,并根据所述新的样本权重调整样本权重,以消除自变量之间的共线性,生成最终线性回归模型。2.根据权利要求1所述的方法,其特征在于,所述最终矩阵的任意两列不相关,且所述最终矩阵的每一列数据的边际分布与所述初始矩阵的每一列数据的边际分布不相同。3.根据权利要求1所述的方法,其特征在于,所述第一样本标签为正样本标签,所述第二样本标签为负样本标签。4.一种线性模型稳定学习装置,其特征在于,所述装置包括:采样模块,用于对自变量的初始矩阵的每一列数据进行随机重采样,并根据采样结果生成最终矩阵;生成模块,用于将第一样本标签赋予所述初始矩阵...

【专利技术属性】
技术研发人员:崔鹏沈哲言
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1