一种表数据泛化方法及装置制造方法及图纸

技术编号:33639919 阅读:20 留言:0更新日期:2022-06-02 01:58
本申请公开了一种表数据泛化方法及装置,用以提升表数据泛化的效率。该方法包括:确定待泛化的表中多个表数据分别包括的各类型的子数据,其中子数据的类型包括数值型、包含语义的第一文本型以及不包含语义的第二文本型;根据任一表数据包括的各类型的子数据的距离参数,确定其与各中心点的距离;其中数值型子数据与各中心点的数值型变量的相似程度为其距离参数;第一文本型子数据与各中心点的第一文本型变量的相似程度为其距离参数;第二文本型子数据的距离参数指示其与各中心点的第二文本型变量是否相同;根据各表数据与各中心点的距离,将多个表数据划分为至少一个类别簇;采用设定的数据泛化算法对至少一个类别簇分别进行泛化处理。别进行泛化处理。别进行泛化处理。

【技术实现步骤摘要】
一种表数据泛化方法及装置


[0001]本申请涉及数据安全
,尤其涉及一种表数据泛化方法及装置。

技术介绍

[0002]相关技术中,为了保证数据的安全性,会对脱离生产环境的数据进行脱敏处理,例如可以对数据进行泛化,将数据中的准标识符进行泛化处理,也即是对数据中包括的既不唯一也不是敏感信息的内容进行泛化,从而实现保护数据中的敏感信息的目的。目前常见的数据泛化算法有k

匿名(k

anonymity)算法以及其改进版的基于局域泛化的k

匿名(K

Anonymity by Clustering in Attribute Hierarchies Algorithm,KACA)算法。其中,KACA算法首先是基于聚类的思想将数据划分为若干个簇,并使每一个簇中包括的数据元组的数目大于或者等于预先设定的K值。进一步地,对每一个簇采用不同的泛化值进行泛化,以此实现数据泛化。KACA算法虽然能够较好的泛化数据,保护数据中的隐私信息,但是在处理的数据比较大时,采用KACA算法进行数据泛化的效率会降低。

技术实现思路

[0003]本申请示例性的实施方式中提供一种表数据泛化方法及装置,提出在对表数据进行泛化处理之前先对表数据进行聚类,并且在聚类时考虑到了包含语义的场景,提升了聚类的准确性,从而提升了表数据泛化的效率以及泛化后的表数据的可用性。
[0004]第一方面,本申请实施例提供了一种表数据泛化方法,包括:
[0005]将待泛化的表拆分成多个表数据,并确定各表数据包括的各类型的子数据,其中子数据的类型包括数值型、包含语义的第一文本型以及不包含语义的第二文本型;
[0006]针对任意一个表数据,根据所述表数据包括的各类型的子数据的距离参数,确定所述任意一个表数据与各中心点的距离,其中数值型子数据的距离参数为数值型子数据与各中心点包括的数值型变量的相似程度;第一文本型子数据的距离参数为第一文本型子数据与各中心点包括的第一文本型变量的相似程度;第二文本型子数据的距离参数用于指示第二文本型子数据与各中心点包括的第二文本型变量是否相同;
[0007]根据确定的各表数据与各中心点的距离,将所述多个表数据划分为至少一个类别簇;
[0008]针对任一类别簇,采用设定的数据泛化算法对所述任一类别簇进行泛化处理。
[0009]基于上述方案,本申请提出了在进行泛化处理之前先对表数据进行聚类,再针对每一个聚类结果进行数据泛化处理。较好的解决了现有的泛化算法中存在的泛化效率低的问题。另外,在进行聚类时,本申请的方案中还考虑到了存在语义的场景,在聚类时将包含语义和不包含语义的文本型数据区分开来,分别计算距离,从而可以提升聚类结果的准确性。
[0010]在一些实施例中,在确定各表数据包括的各类型的子数据之后,所述方法还包括:
[0011]将各表数据包括的第一文本型子数据输入到预先训练好的语言模型中,以得到所
述第一文本型子数据对应的语义向量。
[0012]在一些实施例中,针对任意一个表数据,确定所述表数据包括的各类型的子数据的距离参数,具体包括:
[0013]将数值型子数据与各中心点包括的数值型变量之间的欧氏距离,作为所述数值型子数据的距离参数;
[0014]将所述语义向量与各中心点包括的第一文本型变量之间的欧氏距离,作为所述第一文本型子数据的距离参数;
[0015]将所述第二文本型子数据与各中心点包括的第二文本型变量之间的汉明距离,作为所述第二文本型子数据的距离参数。
[0016]在一些实施例中,所述针对任意一个表数据,根据所述表数据包括的各类型的子数据的距离参数,确定所述任意一个表数据与各中心点的距离,包括:
[0017]将所述任意一个表数据包括的各类型的子数据的距离参数的加权和,作为所述任意一个表数据与各中心点的距离。
[0018]在一些实施例中,所述针对任一类别簇,采用设定的数据泛化算法对所述任一类别簇进行泛化处理,包括:
[0019]针对任一类别簇,根据所述任一类别簇中各表数据所包含的准标识符,将所述任一类别簇划分为至少一个等价类;其中所述等价类包括的任意两个表数据的准标识符的相似程度小于设定阈值;
[0020]采用任一等价类对应的泛化值对所述任一等价类包括的数据进行泛化处理。
[0021]在一些实施例中,根据所述任一类别簇中各表数据所包含的准标识符,将所述任一类别簇划分为至少一个等价类,包括:
[0022]将所述任一类别簇划分为多个数据集合,其中每一个数据集合包括的表数据的准标识符相同;
[0023]判断所述多个数据集合中是否存在目标数据集合;其中所述目标数据集合为包含表数据的数量小于预设值的数据集合;
[0024]若所述多个数据集合中不存在所述目标数据集合,则将每一个数据集合均作为一个等价类;
[0025]若所述多个数据集合中存在所述目标数据集合,则选取任意一个所述目标数据集合,将所述任意一个目标数据集合与距离所述任意一个目标数据集合最近的数据集合组成新的集合,并返回判断所述多个数据集合中是否存在所述目标数据集合的步骤。
[0026]在一些实施例中,通过下列方式确定数据集合之间的距离:
[0027]根据第一数据集合所包含的各表数据的敏感隐私保护度确定所述第一数据集合对应的标准差,以及根据第二数据集合所包含的各表数据的敏感隐私保护度确定所述第二数据集合对应的标准差;其中各表数据的敏感保护度用于表征表数据的重要程度;所述第一数据集合为所述多个数据集合中的任意一个,所述第二数据集合为所述多个数据集合中除所述第一数据集合外的数据集合中的任意一个;
[0028]将所述第一数据集合对应的标准差和所述第二数据集合对应的标准差的差值,作为所述第一数据集合和所述第二数据集合之间的距离。
[0029]在一些实施例中,采用任一等价类对应的泛化值对所述任一等价类包括的数据进
行泛化处理,包括:
[0030]将所述任一等价类包括的各表数据中的准标识符替换为所述任一等价类对应的泛化值。
[0031]第二方面,本申请实施例提供了一种表数据的泛化装置,包括:
[0032]聚类模块,被配置为执行:
[0033]将待泛化的表拆分成多个表数据,并确定各表数据包括的各类型的子数据,其中子数据的类型包括数值型、包含语义的第一文本型以及不包含语义的第二文本型;
[0034]针对任意一个表数据,根据所述表数据包括的各类型的子数据的距离参数,确定所述任意一个表数据与各中心点的距离,其中数值型子数据的距离参数为数值型子数据与各中心点包括的数值型变量的相似程度;第一文本型子数据的距离参数为第一文本型子数据与各中心点包括的第一文本型变量的相似程度;第二文本型子数据的距离参数用于指示第二文本型子数据与各中心点包括的第二文本型变量是否相同;
[0035]根据确定的各表数据与各中心点本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表数据泛化方法,其特征在于,包括:将待泛化的表拆分成多个表数据,并确定各表数据包括的各类型的子数据,其中子数据的类型包括数值型、包含语义的第一文本型以及不包含语义的第二文本型;针对任意一个表数据,根据所述表数据包括的各类型的子数据的距离参数,确定所述任意一个表数据与各中心点的距离,其中数值型子数据的距离参数为数值型子数据与各中心点包括的数值型变量的相似程度;第一文本型子数据的距离参数为第一文本型子数据与各中心点包括的第一文本型变量的相似程度;第二文本型子数据的距离参数用于指示第二文本型子数据与各中心点包括的第二文本型变量是否相同;根据确定的各表数据与各中心点的距离,将所述多个表数据划分为至少一个类别簇;针对任一类别簇,采用设定的数据泛化算法对所述任一类别簇进行泛化处理。2.如权利要求1所述的方法,其特征在于,在确定各表数据包括的各类型的子数据之后,所述方法还包括:将各表数据包括的第一文本型子数据输入到预先训练好的语言模型中,以得到所述第一文本型子数据对应的语义向量。3.如权利要求2所述的方法,其特征在于,针对任意一个表数据,确定所述表数据包括的各类型的子数据的距离参数,具体包括:将数值型子数据与各中心点包括的数值型变量之间的欧氏距离,作为所述数值型子数据的距离参数;将所述语义向量与各中心点包括的第一文本型变量之间的欧氏距离,作为所述第一文本型子数据的距离参数;将所述第二文本型子数据与各中心点包括的第二文本型变量之间的汉明距离,作为所述第二文本型子数据的距离参数。4.如权利要求1

3任一项所述的方法,其特征在于,所述针对任意一个表数据,根据所述表数据包括的各类型的子数据的距离参数,确定所述任意一个表数据与各中心点的距离,包括:将所述任意一个表数据包括的各类型的子数据的距离参数的加权和,作为所述任意一个表数据与各中心点的距离。5.如权利要求1

3任一项所述的方法,其特征在于,所述针对任一类别簇,采用设定的数据泛化算法对所述任一类别簇进行泛化处理,包括:针对任一类别簇,根据所述任一类别簇中各表数据所包含的准标识符,将所述任一类别簇划分为至少一个等价类;其中所述等价类包括的任意两个表数据的准标识符的相似程度小于设定阈值;采用任一等价类对应的泛化值对所述任一等价类包括的数据进行泛化处理。6.如权利要求5所述的方法,其特征在于,根据所述任一类别簇中各表数据所包含的准标识符,将所述任一类别簇划分为至少一个等价类,包括:将所述任一类别簇划分为多个数据集合,其中...

【专利技术属性】
技术研发人员:张正欣牟黎明王豪肖春亮张宏何坤
申请(专利权)人:神州绿盟成都科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1