System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于数据补齐,具体涉及一种基于隐私计算的数据补齐方法、装置及存储介质。
技术介绍
1、联邦学习(federated machine learning/federated learning)是一种分布式机器学习的方法,在联邦学习过程中,多个数据源可共同对模型进行学习得到模型参数,然后将模型参数发送给服务器并由服务器根据数据源返回的参数整合成一个全局参数。在此过程中,为防止隐私泄露,数据源仅将学习得到的模型参数发给服务器而不会将训练数据发送给服务器,从而实现数据的隐私计算。
2、在隐私计算过程中,由于各种原因,一些数据表中的数据可能存在缺失,而目前对于缺失数据的补齐大多是根据数据表中与缺失数据相邻的数据进行推断和补齐,如通过均值化求与缺失数据相邻的几个数据的平均值来进行补齐。然而,采用这样的补齐方式所补齐的数据可能与实际缺失的数据之间存在较大差异,从而导致隐私计算存在较大的误差。
3、因此,如何提供一种有效的方案以便对数据表中缺失的数据更加合理和准确的进行数据补齐,已成为现有技术中一亟待解决的问题。
技术实现思路
1、本专利技术的目的是提供一种基于隐私计算的数据补齐方法、装置及存储介质,用以解决现有技术中存在的上述问题。
2、为了实现上述目的,本专利技术采用以下技术方案:
3、第一方面,本专利技术提供了一种基于隐私计算的数据补齐方法,包括:
4、对待补齐数据表中的每行数据进行归一化处理得到第一标准数据表,并对待补齐数
5、计算所述第一标准数据表中的行数据离散度以及所述第二标准数据表中的列数据离散度;
6、如果所述行数据离散度与所述列数据离散度的差值超过预设阈值,则将所述行数据离散度与所述列数据离散度中数值最小的离散度所对应的标准数据表作为待补齐标准数据表,并依据所述待补齐标准数据表中与缺失数据所对应的行数据或列数据对所述待补齐标准数据表中缺失的数据进行补齐;
7、将补齐后的待补齐标准数据表进行还原,得到补齐后的数据表;
8、如果所述行数据离散度与所述列数据离散度的差值未超过预设阈值,则依据第一标准数据表中与缺失数据所在行的行数据对第一标准数据表中的缺失数据进行补齐,得到补齐后的第一标准数据表,并依据第二标准数据表中与缺失数据所在列的列数据对第二标准数据表中的缺失数据进行补齐,得到补齐后的第二标准数据表;
9、分别对补齐后的第一标准数据表和补齐后的第二标准数据表进行还原,得到第一还原数据表和第二还原数据表;
10、基于第一还原数据表中与所述缺失数据所对应的第一数据以及所述第二还原数据表中与所述缺失数据所对应的第二数据进行加权运算,得到所述缺失数据的补齐数据,并基于所述补齐数据对所述待补齐数据表进行数据补齐,得到补齐后的数据表。
11、在一个可能的设计中,所述计算所述第一标准数据表中的行数据离散度以及所述第二标准数据表中的列数据离散度,包括:
12、统计所述第一标准数据表中每行数据与其余行数据的差异度系数,以及所述第二标准数据表中每列数据与其余列数据的差异度系数;
13、对所述第一标准数据表中每行数据所对应的差异度系数求均值运算,得到所述第一标准数据表中的行数据离散度;
14、对所述第二标准数据表中每列数据所对应的差异度系数求均值运算,得到所述第二标准数据表中的列数据离散度。
15、在一个可能的设计中,所述第一标准数据表中任一行数据与其余行数据的差异度系数为:
16、,其中,hi表示第一标准数据表中第i行数据与其余行数据的差异度系数,m为第一标准数据表中数据的总行数,maxhi表示第一标准数据表中第i行数据中的最大数据,minhi表示第一标准数据表中第i行数据中的最小数据,hj表示第一标准数据表中第j行数据所构成的取值区间与第i行数据所构成的取值区间的非交叉区域的区间宽度;
17、所述第二标准数据表中任一列数据与其余列数据的差异度系数为:
18、,其中,li表示第二标准数据表中第i列数据与其余列数据的差异度系数,n为第二标准数据表中数据的总列数,maxli表示第二标准数据表中第i列数据中的最大数据,minli表示第二标准数据表中第i列数据中的最小数据,lj表示第二标准数据表中第j列数据所构成的取值区间与第i列数据所构成的取值区间的非交叉区域的区间宽度。
19、在一个可能的设计中,所述依据第一标准数据表中与缺失数据所在行的行数据对第一标准数据表中的缺失数据进行补齐,包括:
20、依据第一标准数据表中与缺失数据所在行的行数据,通过回归预测算法或极大似然估计算法对第一标准数据表中的缺失数据进行补齐;
21、所述依据第二标准数据表中与缺失数据所在列的列数据对第二标准数据表中的缺失数据进行补齐,包括:
22、依据第二标准数据表中与缺失数据所在列的列数据,通过回归预测算法或极大似然估计算法对第二标准数据表中的缺失数据进行补齐。
23、在一个可能的设计中,所述缺失数据的补齐数据为a1×d1+a2×d2,其中d1为第一还原数据表中与所述缺失数据所对应的第一数据,d2为第二还原数据表中与所述缺失数据所对应的第二数据,a1+a2=1,且a1与a2的比值等于所述列数据离散度与所述行数据离散度的比值。
24、在一个可能的设计中,所述计算所述第一标准数据表中的行数据离散度以及所述第二标准数据表中的列数据离散度,包括:
25、剔除所述第一标准数据表中缺失数据所在行的行数据,得到处理后的第一标准数据表;
26、剔除所述第二标准数据表中缺失数据所在列的列数据,得到处理后的第二标准数据表;
27、计算处理后的第一标准数据表中的行数据离散度以及处理后的第二标准数据表中的列数据离散度。
28、第二方面,本专利技术提供了一种基于隐私计算的数据补齐装置,包括:
29、归一化单元,用于对待补齐数据表中的每行数据进行归一化处理得到第一标准数据表,并对待补齐数据表中的每列数据进行归一化处理得到第二标准数据表;
30、第一运算单元,用于计算所述第一标准数据表中的行数据离散度以及所述第二标准数据表中的列数据离散度;
31、判断单元,用于判断所述行数据离散度与所述列数据离散度的差值是否超过预设阈值;
32、第一补齐单元,用于如果所述行数据离散度与所述列数据离散度的差值超过预设阈值,则将所述行数据离散度与所述列数据离散度中数值最小的离散度所对应的标准数据表作为待补齐标准数据表,并依据所述待补齐标准数据表中与缺失数据所对应的行数据或列数据对所述待补齐标准数据表中缺失的数据进行补齐;
33、第一还原单元,用于将补齐后的待补齐标准数据表进行还原,得到补齐后的数据表;
34、第二补齐单元,用于如果所述行数据离散度与所述列数据离散本文档来自技高网...
【技术保护点】
1.一种基于隐私计算的数据补齐方法,其特征在于,包括:
2.根据权利要求1所述的基于隐私计算的数据补齐方法,其特征在于,所述计算所述第一标准数据表中的行数据离散度以及所述第二标准数据表中的列数据离散度,包括:
3.根据权利要求2所述的基于隐私计算的数据补齐方法,其特征在于,所述第一标准数据表中任一行数据与其余行数据的差异度系数为:
4.根据权利要求1所述的基于隐私计算的数据补齐方法,其特征在于,所述依据第一标准数据表中与缺失数据所在行的行数据对第一标准数据表中的缺失数据进行补齐,包括:
5.根据权利要求1所述的基于隐私计算的数据补齐方法,其特征在于,所述缺失数据的补齐数据为a1×d1+a2×d2,其中d1为第一还原数据表中与所述缺失数据所对应的第一数据,d2为第二还原数据表中与所述缺失数据所对应的第二数据,a1+a2=1,且a1与a2的比值等于所述列数据离散度与所述行数据离散度的比值。
6.根据权利要求1所述的基于隐私计算的数据补齐方法,其特征在于,所述计算所述第一标准数据表中的行数据离散度以及所述第二标准数据表中的列数
7.一种基于隐私计算的数据补齐装置,其特征在于,包括:
8.根据权利要求7所述的基于隐私计算的数据补齐装置,其特征在于,第一运算单元在用于计算所述第一标准数据表中的行数据离散度以及所述第二标准数据表中的列数据离散度时,具体用于:
9.一种基于隐私计算的数据补齐装置,其特征在于,包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如权利要求1~6任意一项所述的基于隐私计算的数据补齐方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如权利要求1~6任意一项所述的基于隐私计算的数据补齐方法。
...【技术特征摘要】
1.一种基于隐私计算的数据补齐方法,其特征在于,包括:
2.根据权利要求1所述的基于隐私计算的数据补齐方法,其特征在于,所述计算所述第一标准数据表中的行数据离散度以及所述第二标准数据表中的列数据离散度,包括:
3.根据权利要求2所述的基于隐私计算的数据补齐方法,其特征在于,所述第一标准数据表中任一行数据与其余行数据的差异度系数为:
4.根据权利要求1所述的基于隐私计算的数据补齐方法,其特征在于,所述依据第一标准数据表中与缺失数据所在行的行数据对第一标准数据表中的缺失数据进行补齐,包括:
5.根据权利要求1所述的基于隐私计算的数据补齐方法,其特征在于,所述缺失数据的补齐数据为a1×d1+a2×d2,其中d1为第一还原数据表中与所述缺失数据所对应的第一数据,d2为第二还原数据表中与所述缺失数据所对应的第二数据,a1+a2=1,且a1与a2的比值等于所述列数据离散度与所述行数据离散度的比值。
<...【专利技术属性】
技术研发人员:史汉青,杨圣坤,石峰,黄营,
申请(专利权)人:金网络北京数字科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。