System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于隐私保护的表格数据的生成方法及评估方法技术_技高网

基于隐私保护的表格数据的生成方法及评估方法技术

技术编号:40739963 阅读:3 留言:0更新日期:2024-03-25 20:00
本公开提供了一种基于隐私保护的分布不平衡表格数据的生成方法、合成表格数据的评估方法、装置、设备、存储介质,可以应用于人工智能、大数据以及隐私保护技术领域。该方法包括:将预设时刻的标准高斯分布输入去噪概率扩散模型的逆向去噪模块,输出去噪后的编码表格数据,其中,去噪概率扩散模型包括逆向去噪模块和前向扩散模块,去噪概率扩散模型是基于对样本编码表格数据在初始前向扩散模块中添加高斯噪声,在初始逆向去噪模块中预测高斯噪声并去除预测得到的预测高斯噪声的训练预先得到的,去噪概率扩散模型在训练的过程中是基于差分隐私梯度下降更新参数的;以及将去噪后的编码表格数据进行解码,得到合成表格数据。

【技术实现步骤摘要】

本公开涉及人工智能、大数据以及隐私保护,尤其涉及基于隐私保护的分布不平衡表格数据的生成方法、合成表格数据的评估方法、装置、设备、介质和程序产品。


技术介绍

1、随着大数据和数据挖掘技术的发展,数据处理与分析的能力提高,通过数据共享能更充分地发挥数据的价值。但是在数据共享的过程中,涉及的敏感信息会为数据主体带来隐私风险。针对隐私风险的问题,可以通过对数据进行匿名化处理来解决。具体地,在匿名化处理中,先通过删除原始数据中的显式标识符,其中,显示标识符表示能够唯一地确定一条记录的标识符,再对原始数据中其它可识别具体记录的属性信息进行泛化,其中,属性信息如年龄、住址等准标识符的属性值,泛化可以将原始数据的属性值替换为合理的更大范围,如将年龄35岁替换为年龄段30-40岁等。由于泛化的精度会随着数据维数的增加而严重下降,导致数据的准确性下降。

2、此外,由于在匿名化处理中,对于不同数据集有不同的隐私保护需求,例如,对于数据集中一些似乎并不敏感的信息如年龄、性别、家乡等,不采取保护措施,使得攻击者可以轻易获取数据成员的部分准标识符的属性值,甚至攻击者可能不需要确定数据成员的具体敏感属性,只需要确定是否在敏感的数据集中,导致无法提供好的隐私保护,泄露敏感的属性值的相关信息,或者使匿名化处理后的数据损失更多的有效信息。


技术实现思路

1、鉴于上述问题,本公开提供了一种基于隐私保护的分布不平衡表格数据的生成方法、合成表格数据的评估方法、装置、设备、介质和程序产品。

2、根据本公开的第一个方面,提供了一种基于隐私保护的分布不平衡表格数据的生成方法,包括:将预设时刻的标准高斯分布输入去噪概率扩散模型的逆向去噪模块,输出去噪后的编码表格数据,其中,去噪概率扩散模型包括逆向去噪模块和前向扩散模块,去噪概率扩散模型是基于对样本编码表格数据在初始前向扩散模块中添加第一高斯噪声,在初始逆向去噪模块中预测高斯噪声并去除预测得到的预测高斯噪声的训练预先得到的,去噪概率扩散模型在训练的过程中是基于差分隐私梯度下降更新参数的;以及将去噪后的编码表格数据进行解码,得到合成表格数据。

3、根据本公开的实施例,基于隐私保护的分布不平衡表格数据的生成方法还包括:将样本编码表格数据输入初始前向扩散模块;按照预设步数将第一高斯噪声,逐步添加至样本编码表格数据,以使输出样本标准高斯分布;将样本标准高斯分布输入初始逆向去噪模块,以使根据样本标准高斯分布得到预测高斯噪声;基于预测高斯噪声和样本标准高斯分布,输出样本去噪后的编码表格数据;基于第一高斯噪声、预测高斯噪声以及样本编码表格数据和损失函数,确定损失值;基于损失值,利用差分隐私梯度下降更新初始去噪概率扩散模型的参数,得到经训练的去噪概率扩散模型。

4、根据本公开的实施例,样本编码表格数据包括第一样本编码表格数据和第二样本编码表格数据;基于隐私保护的分布不平衡表格数据的生成方法还包括:获取样本表格数据,其中,样本表格数据包括连续数据、离散数据和混合数据,连续数据用于表征连续的实数数据,离散数据用于表征类别数据,混合数据包括具有类别标签的连续数据和不具有类别标签的连续数据;对连续数据和混合数据进行编码,得到第一样本编码表格数据;对离散数据进行编码,得到第二样本编码表格数据。

5、根据本公开的实施例,对连续数据和混合数据进行编码,得到第一样本编码表格数据,包括:分别对连续数据和混合数据进行拟合,得到连续数据和混合数据各自一一对应的高斯分布;对每个高斯分布进行独热编码,得到每个高斯分布一一对应的中间编码;基于每个高斯分布和预设标准化规则,确定每个高斯分布一一对应的标准编码;将每个高斯分布一一对应的中间编码和标准编码级联,得到第一样本编码表格数据。

6、根据本公开的实施例,对离散数据进行编码,得到第二样本编码表格数据,包括:对离散数据进行独热编码,得到第二样本编码表格数据。

7、本公开的第二方面提供了一种合成表格数据的评估方法,包括:将目标表格数据分别输入第一分类模型和第二分类模型,得到第一分类结果和第二分类结果,其中,第一分类模型是基于合成表格数据训练第一初始分类模型得到的,第二分类模型是基于原始表格数据训练第二初始分类模型得到的,原始表格数据是与预设时刻的标准高斯分布匹配的表格数据;基于第一分类结果和第二分类结果,确定第一分类模型的第一评估结果,其中,第一评估结果用于表征第一分类模型的准确程度;确定针对合成表格数据与原始表格数据的预设指标的评估值,其中,预设指标包括以下至少之一:基本统计量分数、相关性分数、主成分分数、机器学习一致性比率、支持覆盖率;基于评估值和第一评估结果,确定合成表格数据的第二评估结果,其中,第二评估结果用于表征合成表格数据的准确程度。

8、根据本公开的实施例,合成表格数据包括多个列,原始表格数据包括多个列。

9、根据本公开的实施例,确定针对合成表格数据与原始表格数据的预设指标的评估值,包括:分别基于每列合成表格数据与每列原始表格数据的平均值、中位数和标准差,确定平均值差异值、中位数差异值和标准差差异值;根据平均值差异值、中位数差异值和标准差差异值,确定基本统计量分数;和/或

10、基于合成表格数据、原始表格数据以及列之间的相关性确定相关性分数;和/或

11、根据主成分分析法,分别对合成表格数据与原始表格数据进行降维,得到降维后的合成表格数据与降维后的原始表格数据;根据降维后的合成表格数据与降维后的原始表格数据,分别确定合成表格数据与原始表格数据的可解释方差值;基于可解释方差值,确定主成分分数;和/或

12、分别从合成表格数据与原始表格数据中,确定合成测试集和原始测试集;确定合成测试集和原始测试集在第一分类模型中输出相同分类结果的第一比例值;确定合成测试集和原始测试集在第二分类模型中输出相同分类结果的第二比例值;根据第一比例值和第二比例值,确定机器学习一致性比率;和/或

13、分别根据每列合成表格数据与每列原始表格数据,确定合成表格数据的合成直方图和原始表格数据的原始直方图;基于合成直方图和原始直方图,确定每列的列支持覆盖率;根据每列的列支持覆盖率,确定支持覆盖率。

14、根据本公开的实施例,相关性分数包括列与列之间的第一相关性分数和每列中数据之间的第二相关性分数。

15、根据本公开的实施例,基于合成表格数据、原始表格数据以及列之间的相关性确定相关性分数,包括:确定每列合成表格数据与对应的每列原始表格数据之间的列相关性;根据列相关性,确定列与列之间的第一相关性分数;分别确定每列合成表格数据的第一相关比值与每列原始表格数据的相关矩阵的第二相关比值;基于第一相关比值和第二相关比值,确定每列中数据之间的第二相关性分数。

16、本公开的第三方面提供了一种基于隐私保护的分布不平衡表格数据的生成装置,包括:处理模块,用于将预设时刻的标准高斯分布输入去噪概率扩散模型的逆向去噪模块,输出去噪后的编码表格数据,其中,去噪概率扩本文档来自技高网...

【技术保护点】

1.一种基于隐私保护的分布不平衡表格数据的生成方法,包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求1所述的方法,其中,所述样本编码表格数据包括第一样本编码表格数据和第二样本编码表格数据;

4.根据权利要求3所述的方法,其中,所述对所述连续数据和所述混合数据进行编码,得到所述第一样本编码表格数据,包括:

5.根据权利要求3所述的方法,其中,所述对所述离散数据进行编码,得到所述第二样本编码表格数据,包括:

6.一种利用如权利要求1~5任一项所述的方法得到的合成表格数据的评估方法,包括:

7.根据权利要求6所述的方法,其中,所述合成表格数据包括多个列,所述原始表格数据包括多个列;

8.根据权利要求7所述的方法,其中,所述相关性分数包括列与列之间的第一相关性分数和每列中数据之间的第二相关性分数;

9.一种基于隐私保护的分布不平衡表格数据的生成装置,包括:

10.一种合成表格数据的评估装置,包括:

【技术特征摘要】

1.一种基于隐私保护的分布不平衡表格数据的生成方法,包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求1所述的方法,其中,所述样本编码表格数据包括第一样本编码表格数据和第二样本编码表格数据;

4.根据权利要求3所述的方法,其中,所述对所述连续数据和所述混合数据进行编码,得到所述第一样本编码表格数据,包括:

5.根据权利要求3所述的方法,其中,所述对所述离散数据进行编码,得到所述第二样本编码表格数据...

【专利技术属性】
技术研发人员:周英华赵赟珂孙广中贾龙鑫
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1