System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及大数据,具体涉及一种异质性分布模型的构建方法及装置。
技术介绍
1、分布式统计方法面对着一些中心化存储方式未曾遇见过的问题。
2、其一,分布式存储方式意味着由于单个节点机器的存储容量有限,无法将所有数据放在单节点上面在进行计算;其二,分布式场景意味着节点间需要进行数据交换,在节点间进行数据交换时,出于通信效率和算法效率的考虑,能够交换的数据量相较于原始数据量是有限的;其三,在现实场景中,各数据所有方出于对自身数据安全的考虑,可能只同意交换统计数据,而非基础数据。在异质性银行联盟分布式数据的建模方面,原始数据来源于多个银行中心。银行中心为了保护数据隐私以及自身的数据安全,不能将原始数据分享到其他银行中心,只能考虑分享部分统计性质的数据。
3、由于上述原因,在大数据分布式背景下传统的统计方法无法直接使用。
技术实现思路
1、针对现有技术中的问题,本申请实施例提供一种异质性分布模型的构建方法及装置,能够至少部分地解决现有技术中存在的问题。
2、一方面,本申请提出一种异质性分布模型的构建方法,包括:
3、根据本地的异质性银行联盟分布式数据计算共同参数的初始估计值;
4、将所述共同参数的初始估计值发送给主节点,所述主节点用于根据各所述子节点发送的共同参数的初始值,计算所述共同参数的平均值;
5、根据所述共同参数的平均值对有效得分函数进行求解,得到所述共同参数的第一更新值;
6、将所述共同参数的第一更
7、根据所述共同参数的第二更新值计算近似海森矩阵的值;
8、将所述近似海森矩阵的值发送给主节点,所述主节点用于根据各所述子节点发送的近似海森矩阵的值,对近似全局海森矩阵进行求解,得到所述共同参数的第三更新值;
9、根据所述共同参数的第三更新值,利用替代有效得分函数更新异质性参数的值;
10、根据异质性参数的值和所述共同参数的第三更新值,构建本节点的异质性分布模型。
11、在一些实施例中,根据以下公式计算共同参数的初始估计值:
12、
13、式中,
14、在一些实施例中,所述有效得分函数的表达式如下:
15、
16、式中,sj(y;β,γj)表示第j个节点的有效得分函数,y是第j个节点的异质性银行联盟分布式数据中的响应变量,β是第j个节点上的共同参数,γj是第j个节点的冗余参数,和是第j个节点上的信息矩阵i(j)的对应位置的子矩阵,信息矩阵是指在给定模型下数据集合中每个变量的方差的倒数构成的矩阵,可以用于估计模型参数的标准误差和置信空间,f函数为给定参数下的联合密度函数。
17、在一些实施例中,所述近似海森矩阵的表达式如下:
18、at,jtat,j;
19、at,jtat,j;
20、式中,at,j包含了第t次迭代的矩阵at的数据子集κj对应行,其中l″i表示对似然函数求两次导数,表示第i个节点第t行的参数θ的对应向量的转置,xi是第i个节点的解释变量,θ=(β,γ)表示未知参数。
21、在一些实施例中,所述替代有效得分函数的表达式如下:
22、
23、其中,g*(y;β)表示替代有效得分函数,sj是第j个节点上的有效得分函数,k为节点数,y是第j个节点的响应变量,yij第i个节点的第j个响应变量的值,β*是共同参数的估计值集合,是第1个节点的冗余参数估计值,第j个节点的冗余参数估计值集合,f函数为给定参数下的联合密度函数。
24、另一方面,本申请提出一种异质性分布模型的构建方法,包括:
25、获取各子节点发送的共同参数的初始估计值;
26、根据各所述子节点发送的共同参数的初始值,计算所述共同参数的平均值;
27、将所述共同参数的平均值发送给各所述子节点,其中,每个所述子节点用于根据所述共同参数的平均值对有效得分函数进行求解,得到所述共同参数的第一更新值;
28、根据各所述子节点发送的所述共同参数的第一更新值,对总体替代有效得分函数进行求解,得到所述共同参数的第二更新值;
29、将所述共同参数的第二更新值发送给各所述子节点,各所述子节点用于根据所述共同参数的第二更新值计算近似海森矩阵的值;
30、根据各所述子节点发送的近似海森矩阵的值,对近似全局海森矩阵进行求解,得到所述共同参数的第三更新值;
31、将所述共同参数的第三更新值发送给各所述子节点,各所述子节点用于根据所述共同参数的第三更新值更新异质性参数的值,并根据该子节点更新得到的异质性参数的值和所述共同参数的第三更新值,构建该子节点的逻辑回归模型。
32、在一些实施例中,所述总体替代有效得分函数的表达式如下:
33、
34、其中,表示总体替代有效得分函数,表示第一个节点上的替代有效得分函数,β代表需要估计的共同参数的真实值,表示第一次所有节点估计出来的共同参数估计值的平均值,γ代表需要估计的冗余参数的真实值,表示第j个节点上的冗余参数的估计值,代表各子节点上的冗余参数向量估计值的平均值矩阵,lj代表第j个节点上的全局经验似然函数;
35、
36、其中,yi1代表第1个节点的第i个响应变量的值,n表示第j个节点的异质性银行联盟分布式数据中的响应变量/解释变量的个数;
37、
38、
39、其中,k为节点数,y是响应变量的真实值,β代表需要估计的共同参数的真实值,表示第一次所有节点估计出来的共同参数估计值的平均值,表示第j个节点上的冗余参数的估计值,表示第1个节点上的冗余参数的估计值,f函数为给定参数下的联合密度函数,lj代表第j个节点上的全局经验似然函数。
40、在一些实施例中,所述近似全局海森矩阵的表达式如下:
41、
42、式中,n表示第j个节点的异质性银行联盟分布式数据中的响应变量/解释变量的个数,k为节点数,
43、
44、
45、
46、
47、mβγ是先对β求偏导,再对γ求偏导,
48、mγγ是对γ求两次偏导,
49、
50、
51、
52、其中,l″i表示对似然函数l求两次导数,xij表示第j个节点上第i个共同参数部分对应的解释变量,zij表示第j个节点上第i个冗余参数部分对应的解释变量,βt表示第t次迭代共同参数的估计值,γt,j表示第j个节点上第t行的冗余参数的真实值,xij表示所有的解释变量的矩阵,aj=at,j,at,j包含了第t次迭代的矩阵at的数据子集κj对应行,其中l″i本文档来自技高网...
【技术保护点】
1.一种异质性分布模型的构建方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,根据以下公式计算共同参数的初始估计值:
3.根据权利要求2所述的方法,其特征在于,所述有效得分函数的表达式如下:
4.根据权利要求3所述的方法,其特征在于,所述近似海森矩阵的表达式如下:
5.根据权利要求4所述的方法,其特征在于,所述替代有效得分函数的表达式如下:
6.一种异质性分布模型的构建方法,其特征在于,包括:
7.根据权利要求6所述的方法,其特征在于,所述总体替代有效得分函数的表达式如下:
8.根据权利要求6所述的方法,其特征在于,所述近似全局海森矩阵的表达式如下:
9.一种异质性分布模型的构建装置,其特征在于,包括:
10.一种异质性分布模型的构建装置,其特征在于,包括:
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5或6至8中任一项所述方法的步骤。
< ...【技术特征摘要】
1.一种异质性分布模型的构建方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,根据以下公式计算共同参数的初始估计值:
3.根据权利要求2所述的方法,其特征在于,所述有效得分函数的表达式如下:
4.根据权利要求3所述的方法,其特征在于,所述近似海森矩阵的表达式如下:
5.根据权利要求4所述的方法,其特征在于,所述替代有效得分函数的表达式如下:
6.一种异质性分布模型的构建方法,其特征在于,包括:
7.根据权利要求6所述的方法,其特征在于,所述总体替代有效得分函数的表达式如下:<...
【专利技术属性】
技术研发人员:胡玉汶,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。