非正态纵向高维数据下基于伪估计量的快速变量选择方法技术

技术编号：40029300 阅读：9 留言：0更新日期：2024-01-16 17:59

本发明专利技术公开了一种非正态纵向高维数据下基于伪估计量的快速变量选择方法，基于获取的样本数据中的数据和相应的广义线性混合模型，建立非正态响应变量的数学期望、方差和固定效应、随机效应中高维协变量的关系，在此基础上引入伪估计量，并基于伪估计量进行两步正则算法最小化估计的多次迭代运算，由此对固定效应、随机效应进行变量选择。本发明专利技术方法不仅便于计算机实现，计算效率更高，而且能够更具稳定性和计算精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及非正态数据处理方法领域，具体是一种非正态纵向高维数据下基于伪估计量的快速变量选择方法。

技术介绍

1、大数据分析是数据科学重要研究方向，通过对海量数据进行分析，可充分挖掘出高价值的数据，能够为决策、结果预测等提供数据支持，特别是在临床医学、流行病学、社会学等领域具有重要意义。

2、临床医学、流行病学、社会学等领域中纵向观测数据的响应变量往往是非正态分布的，数据分析师们常使用广义线性混合模型对其进行拟合分析。广义线性混合模型由固定效应和随机效应两部分组成，综合了线性模型、线性混合模型和广义线性模型的特性，可以分析满足指数分布族的数据，同时有效处理纵向数据中的簇内异质性，具有广泛的应用。

3、而随着数据收集与存储技术的发展，广义线性混合模型的固定和随机效应中常出现高维预测因子。高维数据存在大量的冗余信息，因此需要有效且快速的变量选择方法，对数据进行一定程度的降维。高维随机效应的存在，会导致基于广义线性混合模型的变量选择法的目标函数涉及复杂的高维积分。由于存在这样的计算难度，传统的算法通常只考虑低维的随机效应，对高维固定效应进行变量选择。然而，改变一组效应的结构可能会对另一组效应的变量选择结果产生影响，因此，固定和随机效应中重要协变量的同时选择就变得尤为重要。

4、在正态数据的广义线性混合模型下，固定效应和随机效应中重要协变量的同时选择已经得到了深入研究。但是在非正态数据的广义线性混合模型下，由于似然函数中存在对随机效应的积分，随着纵向数据中的随机效应维度的增加，现有的基于蒙特卡洛、h

技术实现思路

1、本专利技术提供了一种非正态纵向高维数据下基于伪估计量的快速变量选择方法，以解决现有技术正侧化方法用于非正态数据的广义线性混合模型时，对于固定效应和随机效应中变量选择精度差、计算效率低的问题。

2、为了达到上述目的，本专利技术所采用的技术方案为：

3、非正态纵向高维数据下基于伪估计量的快速变量选择方法，包括以下步骤：

4、步骤1、获取样本数据，所述样本数据中包含n个观测个体，每个观测个体有mi个观测数据，每个观测数据在广义线性混合模型中的响应变量均为非正态分布，并记第i个观测个体的第j个观测数据的非正态分布响应变量为yij；

5、步骤2、设第i个观测个体的第j个观测数据在广义线性混合模型的固定效应中的高维协变量为xij，xij为p维向量；设第i个观测个体的第j个观测数据在广义线性混合模型的随机效应中的高维协变量为zij，zij为q维向量；建立广义线性混合模型中非正态分布响应变量yij的期望、方差及固定效应、随机效应中高维协变量的关系模型，如公式(1)、(2)所示：

6、

7、var(yij|bi)＝φv(μij) (2)，

8、公式(1)、(2)中：

9、μij表示非正态分布响应变量yij的数学期望，记作μij＝e(yij|bi)；

10、var(yij|bi)表示非正态分布响应变量yij的方差；

11、g()和v()是分别作用于数学期望和方差的已知的连接函数；

12、表示固定效应中高维协变量xij的转置矩阵；

13、表示随机效应中高维协变量zij的转置矩阵；

14、φ为待估的离散度参数；

15、β为固定效应中的待估参数；

16、bi为随机效应中服从一个零均值的多元正态分布的随机项，bi的协方差矩阵d为随机效应中的待估参数，且d为q×q的对称矩阵；

17、步骤3、将第i个观测个体所有观测数据的非正态分布响应变量，按照次序排列成向量的形式yi，则有

18、引入伪估计量yi作为向量yi经线性变换后的近似，如公式(3)所示：

19、yi＝vi-1(yi-μi)+xiβ+zibi (3)；

20、引入加权矩阵w如公式(4)所示：

21、

22、公式(3)-(4)中：μi为根据非正态分布响应变量yij的数学期望建立的向量，并有

23、xi为根据第i个观测个体所有观测数据在固定效应中的高维协变量，按照先后次序建立的mi×p维矩阵，并有

24、zi为根据第i个观测个体所有观测数据在随机效应中的高维协变量，按照先后次序建立的mi×q维矩阵，并有

25、vi-1为对角矩阵vi的逆矩阵，对角矩阵g-1表示连接函数g()的逆函数；(g-1)′表示逆函数的一阶导数；为第i个观测个体的第j个观测数据在固定效应中的高维协变量xij的转置矩阵；为第i个观测个体的第j个观测数据随机效应中的高维协变量zij的转置矩阵；diag{}表示对角矩阵，其对角元素为{}内的值；

26、步骤4、采用多次迭代的两步正则算法，在每次迭代中更新伪估计量的估计值，基于伪估计量新的估计值，进行正则化运算，多次迭代运算过程如下：

27、(4.1)首先，为固定效应中的待估参数β、随机效应中的待估参数d、待估的离散度参数φ、随机效应中的随机项bi分别设置初始估计值，分别记为这些初始值代入公式(3)，可得到伪估计量yi的初始值；

28、(4.2)然后，在第s步迭代中，s＝1,…,s，将固定效应中的待估参数β、随机效应中的随机项bi以及离散度参数φ在s-1步迭代中得到的估计值代入公式(3)和(4)，得到伪估计量yi的当前估计值yi(s)和加权矩阵w的估计矩阵w(s)，其中第0步迭代的估计值为步骤(4.1)中设置的初始值；

29、(4.3)接着，基于加权矩阵w的估计矩阵w(s)，计算权矩阵p(s)、q(s)，如公式(5)、(6)所示：

30、

31、q(s)＝w(s)-w(s)x(xtw(s)x)-1xtw(s) (6)；

32、公式(5)、(6)中：(w(s))-1表示加权矩阵w的估计矩阵w(s)的逆矩阵；

33、表示在s-1步迭代中得到的随机效应中的待估参数d估计值；

34、x为样本的所有观测个体在固定效应中的高维协变量组成的n×p维的矩阵，并有x＝(x1t,…,xnt)t；

35、z为样本的所有观测个体在随机效应中的高维协变量组成的n×nq维的分块矩阵，并有z＝diag{z1,…,zn}；

36、

37、(4.4)基于伪估计量的当前估计值yi(s)和权矩阵p(s)、q(s)，建立施加惩罚项的目标函数如公式(7)、(8)所示：

38、

39、

40、公式(7)、(8)中：βj表示待估向量β中第j个元素；

41、b★k表示随机效应中第k个随机项的样本标准差，并有bik表示向量bi中第k个元素；

42、b为所有观测个体在随机效应中的随机项建立的向量，并有b＝(b1t本文档来自技高网...

【技术保护点】

1.非正态纵向高维数据下基于伪估计量的快速变量选择方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的非正态纵向高维数据下基于伪估计量的快速变量选择方法，其特征在于，步骤2中公式(1)、(2)的连接函数g()和v()，分别是根据样本数据响应变量观测值的特征在广义线性混合模型中确定的作用于期望和方差的连接函数。

3.根据权利要求1所述的非正态纵向高维数据下基于伪估计量的快速变量选择方法，其特征在于，步骤4中，固定效应中的待估参数β的初始估计值设为零向量，随机效应中待估参数D的初始估计值设为单位对角矩阵，离散度参数φ的初始估计值设为1，随机效应中,随机项bi的初始估计值设为零向量。

4.根据权利要求1所述的非正态纵向高维数据下基于伪估计量的快速变量选择方法，其特征在于，步骤4中，惩罚函数采用SCAD惩罚函数。

5.根据权利要求1所述的非正态纵向高维数据下基于伪估计量的快速变量选择方法，其特征在于，步骤4中，惩罚函数采用LASSO惩罚函数。

6.根据权利要求1所述的非正态纵向高维数据下基于伪估计量的快速变量选择方法，其特

7.根据权利要求1所述的非正态纵向高维数据下基于伪估计量的快速变量选择方法，其特征在于，步骤4中，迭代的两步正则算法的收敛条件为最新一次迭代与其相邻的上一次迭代得到的待估参数β、D的近似最大似然估计值的差值的2范数小于预设阈值。

...

【技术特征摘要】

1.非正态纵向高维数据下基于伪估计量的快速变量选择方法，其特征在于，包括以下步骤：

3.根据权利要求1所述的非正态纵向高维数据下基于伪估计量的快速变量选择方法，其特征在于，步骤4中，固定效应中的待估参数β的初始估计值设为零向量，随机效应中待估参数d的初始估计值设为单位对角矩阵，离散度参数φ的初始估计值设为1，随机效应中,随机项bi的初始估计值设为零向量。

4.根据权利要求1所述的非...

【专利技术属性】
技术研发人员：俞童慧，向黎明，王青山，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人