一种结合知识图谱的个人敏感信息分类分级方法技术

技术编号:37571569 阅读:10 留言:0更新日期:2023-05-15 07:49
本发明专利技术涉及信息化技术领域,提供了一种结合知识图谱的个人敏感信息分类分级方法。目的在于解决现有的个人敏感信息分类分级方法往往仅考虑了单个场景的实现,忽略了多场景数据分类分级的实现的问题。主要方案包括对包含个人信息的文本数据进行实体抽取和关系抽取,得到实体的集合与关系的集合;根据实体与关系的集合先构建个人信息知识图谱;对每个实体进行特征提取,得到每个实体对应的一个特征向量;对特征向量进行聚类,得到实体的聚类结果;将聚类结果的每一类别进行安全级别分级,得到敏感级别信息;将敏感级别信息与个人信息知识图谱相关联,得到个人敏感信息分类分级知识图谱。当新场景到来时,利用多知识图谱融合技术进行增量地更新。进行增量地更新。进行增量地更新。

【技术实现步骤摘要】
一种结合知识图谱的个人敏感信息分类分级方法


[0001]本专利技术涉及信息化
,提供了一种结合知识图谱的个人敏感信息分类分级方法。

技术介绍

[0002]近年来,随着互联网、大数据、人工智能等技术的不断发展,人们在分享海量信息所带来的红利的同时,也饱受个人敏感信息泄露带来的困扰。为了保护个人敏感信息的安全,相关法律纷纷颁布实施,来加强个人数据资源安全保护,建立大数据安全管理制度,实行数据资源分类分级管理,保障安全高效可信应用。例如,《个人信息保护法》制定了严格的个人信息使用标准,对个人敏感数据的采集、使用、存储等均做出了明确要求,并规定建立个人敏感数据保护合规制度体系,成立特定机构进行监督、监管和治理,保证公开、公平、公正的规则。《中华人民共和国数据安全法》第二十一条明确指出,国家建立数据分类分级保护制度,根据数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,对数据实行分类分级保护。
[0003]然而,尽管国家颁布了相关法律,分类分级方法的具体实施仍遇到多个问题。
[0004](1)如今各种网络应用,如社交平台、电商平台以及网约车平台等充斥着大量的个人敏感信息,个人敏感信息涉及场景较广,如何在多场景下完成分类分级是一个尚未解决的难题。2022年10月14日颁布的14项网安国家标准仅针对单个场景进行保护,例如,人脸信息场景、声纹信息场景、基因信息场景等,并没有考虑多场景情形。这是因为个人敏感信息涉及场景较广,不可能简单地将所有的场景数据汇集在一起进行分类分级,往往需要根据当前现实情况,选择部分场景数据进行分类分级。但是当原有场景分类分级实现完成后,如果有新场景出现,则难以将后续新场景数据加入到原有场景的分类分级结构中。因此,如何通过增量方式将新场景数据扩展到原有场景分类分级结构中去,这是一个首先需要解决的挑战。
[0005](2)在多场景情况下,需要考虑多场景之间的关联性。例如,同一个人在多个场景出现,需要将其在不同场景出现时的属性关联到这同一个人上。因此,多场景的关联性也是需要解决的挑战。
[0006](3)随着大数据、人工智能以及物联网的迅速发展,如何对海量异构数据进行有效的存储,并保证数据检索效率也是一个难题。
[0007](4)一般的分类分级方法采用关系数据库保存结果(这个也是没有与知识图谱结合的必然),针对单个场景进行分类分级,如果在A场景下已经完成了分类分级,又单独在B场景下完成了分类分级,那么就有2个数据库表来存储两个场景的分类分级结果,然后现如今需要结合在A、B两个场景下的分类分级,因为A、B场景不同,考虑的实体的属性自然不同,那么同时存储两个场景的分类分级结果时,需要重新对数据库表进行设计,然后重新对数据进行存储。重新设计数据库表和重新将数据整合到一张表中耗时耗力,当场景较多时或
者当个人数据较多时,效率开销会更大。然后知识图谱的多知识图谱融合技术,存储结构无需改变,扩展即可,简单高效,所以具有分类分级的可扩展性。
[0008]针对第一个问题,现有的个人敏感信息分类分级方法往往仅考虑了单个场景的实现,忽略了多场景数据分类分级的实现。针对第二个问题,现有方法没有考虑多场景关联性。针对第三、四个问题,现有数据规模大、增长速度快,而许多分类分级方案仍然使用关系型数据库。如今关系型数据库难以承担海量非结构化数据的存储,并且当数据库较大时,关系运算如笛卡尔积将导致大量的时间开销,使得数据检索的效率急剧降低。言而总之,还没有能很好解决如上四个问题的方案,虽然有部分研究一定程度上触及了上述问题,但考虑仍然不完善,很难给出一个整体的解决方法。
[0009]因此,我们提出了一种新的结合知识图谱的个人敏感信息分类分级方法。该方法考虑了现实多场景的分类分级,当新场景出现时,利用多知识图谱组合技术完成新场景融合,实现多场景的可扩展性;它利用多知识图谱融合与知识推理技术解决多场景关联性问题;同时该方法也能够更好地适用于大规模数据的分类分级结果的存储与检索,利用知识图谱的图数据库来存储海量异构数据,并实现高效查询。

技术实现思路

[0010]本专利技术的目的在于解决现有的个人敏感信息分类分级方法往往仅考虑了单个场景的实现,忽略了多场景数据分类分级的实现的问题。
[0011]为了解决上述技术问题,本专利技术采用以下技术手段:
[0012]一种结合知识图谱的个人敏感信息分类分级方法,包括以下步骤:
[0013]步骤1、对包含个人信息的文本数据进行实体抽取和关系抽取,得到一般实体的集合与关系的集合;
[0014]步骤2、根据一般实体与关系的集合先构建个人信息知识图谱;
[0015]步骤3、对步骤1中的每个一般实体进行特征提取,得到每个一般实体对应的一个特征向量;
[0016]步骤4、对特征向量进行聚类,得到一般实体的聚类结果;
[0017]步骤5、将步骤4的聚类结果的每一类别进行安全级别分级,得到敏感级别信息,敏感级别信息中的每一个级别对应一个级别实体;
[0018]步骤6、将敏感级别信息与个人信息知识图谱相关联,得到个人敏感信息分类分级知识图谱。
[0019]步骤7、当新场景到来时,利用多知识图谱融合技术进行增量地更新。
[0020]上述技术方案中,步骤7具体包括以下步骤:
[0021]步骤1、新场景使用步骤1

6进行个人敏感信息分类分级知识图谱的构建,得到新场景的个人敏感信息分类分级知识图谱;
[0022]步骤2、进行实体对齐,找到新场景中与原有场景中指代相同的实体,所述实体包括一般实体和级别实体;
[0023]步骤3、进行知识图谱融合,
[0024]若新场景中的实体a已存在于原有场景中,则在新场景中找到与a直接关联的实体A
n
得到实体集合A,选择实体集合A中的存在于新场景而没有存在于原有场景的实体A

n
,将
实体A

n
创建于原有场景中并与实体a进行直接关联;
[0025]若新场景中实体b未存在原有场景中,则在原有场景中创建新实体b,并在新场景中找到与b直接关联的实体B
n
得到集合B,选择实体集合B中仅存在于新场景而没有存在于原有场景的实体B

n
,将实体B

n
创建于原有场景中并与实体b进行直接关联,完成了增量更新,在原有个人敏感信息分类分级场景中融合了新场景的信息。
[0026]上述技术方案中,还包括知识推理步骤,当完成增量的更新后,采用知识推理技术,对知识图谱中的实体进行关联,判断关联后的实体是否具有属性值,如没有属性值,将相关联的实体的属性值赋值给没有属性值的实体。
[0027]上述技术方案中,知识推理步骤具体包括如下步骤:
[0028]在图谱中利用路径进行训练,得到一个多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合知识图谱的个人敏感信息分类分级方法,其特征在于,包括以下步骤:步骤1、对包含个人信息的文本数据进行实体抽取和关系抽取,得到一般实体的集合与关系的集合;步骤2、根据一般实体与关系的集合先构建个人信息知识图谱;步骤3、对步骤1中的每个一般实体进行特征提取,得到每个一般实体对应的一个特征向量;步骤4、对特征向量进行聚类,得到一般实体的聚类结果;步骤5、将步骤4的聚类结果的每一类别进行安全级别分级,得到敏感级别信息,敏感级别信息中的每一个级别对应一个级别实体;步骤6、将敏感级别信息与个人信息知识图谱相关联,得到个人敏感信息分类分级知识图谱。步骤7、当新场景到来时,利用多知识图谱融合技术进行增量地更新。2.根据权利要求1所述的一种结合知识图谱的个人敏感信息分类分级方法,其特征在于,步骤7具体包括以下步骤:步骤1、新场景使用步骤1

6进行个人敏感信息分类分级知识图谱的构建,得到新场景的个人敏感信息分类分级知识图谱;步骤2、进行实体对齐,找到新场景中与原有场景中指代相同的实体,所述实体包括一般实体和级别实体;步骤3、进行知识图谱融合,若新场景中的实体a已存在于原有场景中,则在新场景中找到与a直接关联的实体An得到实体集合A,选择实体集合A中的存在于新场景而没有存在于原有场景的实体A

n,将实体A

n创建于原有场景中并与实体a进行直接关联;若新场景中实体b未存在原有场景中,则在原有场景中创建新实体b,并在新场景中找到与b直接关联的实体Bn得到集合B,选择实体集合B中仅存在于新场景而没有存在于原有场景的实体B

n,将实体B

n创建于原有场景中并与...

【专利技术属性】
技术研发人员:杨浩淼卢锐恒白雪珺汪小芬李经纬薛冬昀葛孟雨李佳晟王宇张晓磊向坤兰黄大彬陈沫
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1