一种表数据泛化方法及装置制造方法及图纸

技术编号：33639919 阅读：20 留言：0更新日期：2022-06-02 01:58

本申请公开了一种表数据泛化方法及装置，用以提升表数据泛化的效率。该方法包括：确定待泛化的表中多个表数据分别包括的各类型的子数据，其中子数据的类型包括数值型、包含语义的第一文本型以及不包含语义的第二文本型；根据任一表数据包括的各类型的子数据的距离参数，确定其与各中心点的距离；其中数值型子数据与各中心点的数值型变量的相似程度为其距离参数；第一文本型子数据与各中心点的第一文本型变量的相似程度为其距离参数；第二文本型子数据的距离参数指示其与各中心点的第二文本型变量是否相同；根据各表数据与各中心点的距离，将多个表数据划分为至少一个类别簇；采用设定的数据泛化算法对至少一个类别簇分别进行泛化处理。别进行泛化处理。别进行泛化处理。

全部详细技术资料下载

【技术实现步骤摘要】
一种表数据泛化方法及装置

[0001]本申请涉及数据安全
，尤其涉及一种表数据泛化方法及装置。

技术介绍

[0002]相关技术中，为了保证数据的安全性，会对脱离生产环境的数据进行脱敏处理，例如可以对数据进行泛化，将数据中的准标识符进行泛化处理，也即是对数据中包括的既不唯一也不是敏感信息的内容进行泛化，从而实现保护数据中的敏感信息的目的。目前常见的数据泛化算法有k
‑
匿名(k
‑
anonymity)算法以及其改进版的基于局域泛化的k
‑
匿名(K
‑
Anonymity by Clustering in Attribute Hierarchies Algorithm，KACA)算法。其中，KACA算法首先是基于聚类的思想将数据划分为若干个簇，并使每一个簇中包括的数据元组的数目大于或者等于预先设定的K值。进一步地，对每一个簇采用不同的泛化值进行泛化，以此实现数据泛化。KACA算法虽然能够较好的泛化数据，保护数据中的隐私信息，但是在处理的数据比较大时，采用KACA算法进行数据泛化的效率会降低。

技术实现思路

[0003]本申请示例性的实施方式中提供一种表数据泛化方法及装置，提出在对表数据进行泛化处理之前先对表数据进行聚类，并且在聚类时考虑到了包含语义的场景，提升了聚类的准确性，从而提升了表数据泛化的效率以及泛化后的表数据的可用性。
[0004]第一方面，本申请实施例提供了一种表数据泛化方法，包括：
[0005]将待泛化...

【技术保护点】

【技术特征摘要】
1.一种表数据泛化方法，其特征在于，包括：将待泛化的表拆分成多个表数据，并确定各表数据包括的各类型的子数据，其中子数据的类型包括数值型、包含语义的第一文本型以及不包含语义的第二文本型；针对任意一个表数据，根据所述表数据包括的各类型的子数据的距离参数，确定所述任意一个表数据与各中心点的距离，其中数值型子数据的距离参数为数值型子数据与各中心点包括的数值型变量的相似程度；第一文本型子数据的距离参数为第一文本型子数据与各中心点包括的第一文本型变量的相似程度；第二文本型子数据的距离参数用于指示第二文本型子数据与各中心点包括的第二文本型变量是否相同；根据确定的各表数据与各中心点的距离，将所述多个表数据划分为至少一个类别簇；针对任一类别簇，采用设定的数据泛化算法对所述任一类别簇进行泛化处理。2.如权利要求1所述的方法，其特征在于，在确定各表数据包括的各类型的子数据之后，所述方法还包括：将各表数据包括的第一文本型子数据输入到预先训练好的语言模型中，以得到所述第一文本型子数据对应的语义向量。3.如权利要求2所述的方法，其特征在于，针对任意一个表数据，确定所述表数据包括的各类型的子数据的距离参数，具体包括：将数值型子数据与各中心点包括的数值型变量之间的欧氏距离，作为所述数值型子数据的距离参数；将所述语义向量与各中心点包括的第一文本型变量之间的欧氏距离，作为所述第一文本型子数据的距离参数；将所述第二文本型子数据与各中心点包括的第二文本型变量之间的汉明距离，作为所述第二文本型子数据的距离参数。4.如权利要求1
‑
3任一项所述的方法，其特征在于，所述针对任意一个表数据，根据所述表数据包括的各类型的子数据的距离参数，确定所述任意一个表数据与各中心点的距离，包括：将所述任意一个表数据包括的各类型的子数据的距离参数的加权和，作为所述任意一个表数据与各中心点的距离。5.如权利要求1
‑
3任一项所述的方法，其特征在于，所述针对任一类别簇，采用设定的数据泛化算法对所述任一类别簇进行泛化处理，包括：针对任一类别簇，根据所述任一类别簇中各表数据所包含的准标识符，将所述任一类别簇划分为至少一个等价类；其中所述等价类包括的任意两个表数据的准标识符的相似程度小于设定阈值；采用任一等价类对应的泛化值对所述任一等价类包括的数据进行泛化处理。6.如权利要求5所述的方法，其特征在于，根据所述任一类别簇中各表数据所包含的准标识符，将所述任一类别簇划分为至少一个等价类，包括：将所述任一类别簇划分为多个数据集合，其中...

【专利技术属性】
技术研发人员：张正欣，牟黎明，王豪，肖春亮，张宏，何坤，
申请(专利权)人：神州绿盟成都科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人