数据资产风险发现方法和装置制造方法及图纸

技术编号:34727566 阅读:12 留言:0更新日期:2022-08-31 18:15
本说明书实施例提供一种数据资产风险发现方法和装置,方法包括:获取目标数据资产中针对元数据和操作数据的新增数据;元数据包括数据存储单元的描述数据,操作数据为针对数据存储单元的访问行为数据;获取预先建立的目标数据资产对应的数据血缘图谱;数据血缘图谱基于元数据和操作数据的历史数据建立;数据血缘图谱包括节点和连接边,节点基于元数据确定,连接边基于操作数据确定,其体现了节点之间的关联关系;节点的属性值标识了相应元数据对应的数据存储单元的风险信息;根据新增数据,更新数据血缘图谱;根据更新后的数据血缘图谱,确定与新增数据相关的节点的属性值,根据属性值确定新增数据的风险信息。能够提升风险发现的效率。的效率。的效率。

【技术实现步骤摘要】
数据资产风险发现方法和装置


[0001]本说明书一个或多个实施例涉及计算机领域,尤其涉及数据资产风险发现方法和装置。

技术介绍

[0002]随着企业对数据安全理念的认知提升,急需针对数据资产风险发现的解决方案。上述风险发现通常包括识别数据资产中的敏感数据,以便针对识别出的敏感数据进行处理,防止敏感数据的泄露风险。
[0003]敏感数据又称为隐私数据(private data),即秘密数据,是指不想被他人或无关人等获知的信息,从隐私的所有者的角度,可以将隐私数据分为个人隐私数据和共同隐私数据,其中个人隐私数据包括可以用来定位或者识别个人的信息(如电话号码、地址、信用卡号等)和敏感信息(如个人健康情况、财务信息、公司重要文件等)。共同隐私数据主要以家庭隐私为主,如家庭经济情况等。隐私数据的泄露和滥用极易引起各种个人和公共安全问题。
[0004]传统的数据资产风险发现技术方案,大多在一定判定规则下,由服务器对数据资产做全遍历,以发现或者说识别出数据资产中的敏感数据。随着数据量级膨胀,为了保证一定的发现效率,就需要增加服务器的数量,通常地服务器的数量与数据资产量级将以正相关的关系协同增长,服务器的数量的增加会导致成本增长,成本增长的同时,发现效率并未得到相同程度的增长,而是呈现缓增长趋势。

技术实现思路

[0005]本说明书一个或多个实施例描述了一种数据资产风险发现方法和装置,不再由服务器对数据资产做全遍历,而是根据数据之间的关联关系来进行风险发现,从而在不依赖服务器的数量增长的前提下,能够提升风险发现的效率。
[0006]第一方面,提供了一种数据资产风险发现方法,方法包括:
[0007]获取目标数据资产中针对元数据和操作数据的新增数据;所述元数据包括针对所述目标数据资产的数据存储单元的描述数据,所述操作数据为针对所述数据存储单元的访问行为数据;
[0008]获取预先建立的所述目标数据资产对应的数据血缘图谱;所述数据血缘图谱基于所述元数据和操作数据的历史数据而建立;所述数据血缘图谱包括节点和连接边,节点基于元数据而确定,连接边基于操作数据而确定,其体现了节点之间的关联关系;节点的属性值标识了相应元数据对应的数据存储单元的风险信息;
[0009]根据所述新增数据,更新所述数据血缘图谱;
[0010]根据更新后的数据血缘图谱,确定与所述新增数据相关的节点的属性值,根据所述属性值确定所述新增数据的风险信息。
[0011]在一种可能的实施方式中,所述目标数据资产属于结构化数据,其数据存储单元
通过数据库、数据表和数据列来标识。
[0012]进一步地,所述节点对应于数据列。
[0013]进一步地,所述关联关系包括节点之间的生成关系,所述生成关系为第一节点基于第二节点而生成。
[0014]在一种可能的实施方式中,所述元数据的风险信息包括风险分类信息和/或风险分级信息,所述风险分类信息用于指示对应的数据存储单元中数据是否属于敏感数据,所述风险分级信息用于指示敏感数据的级别。
[0015]在一种可能的实施方式中,所述获取目标数据资产中针对元数据和操作数据的新增数据,包括:
[0016]获取针对目标数据资产进行操作的结构化查询语言(structured query language,SQL)语句;
[0017]解析所述SQL语句,根据其中涉及的元数据和操作数据确定所述新增数据。
[0018]在一种可能的实施方式中,所述新增数据包括,针对第一存储单元的第一元数据和第一操作数据;所述更新所述数据血缘图谱包括:
[0019]若所述数据血缘图谱中不包含对应于所述第一元数据的节点,则在所述数据血缘图谱中添加对应于所述第一元数据的第一节点;
[0020]根据所述第一操作数据确定与所述第一元数据具有关联关系的第二元数据,以及所述关联关系的第一类型;
[0021]在第一节点和所述第二元数据对应的第二节点之间建立第一类型的连接边。
[0022]在一种可能的实施方式中,所述新增数据中包括针对新增的第一存储单元的第一元数据;所述根据更新后的数据血缘图谱,确定与所述新增数据相关的节点的属性值,包括:
[0023]在更新后的数据血缘图谱中,将所述第一元数据对应的节点作为初始节点,从该初始节点出发,查找与该初始节点具有预设关联关系的目标节点;
[0024]若查找到所述目标节点,则将所述目标节点的属性值作为所述初始节点的属性值。
[0025]进一步地,所述预设关联关系包括节点之间的生成关系,且所述初始节点基于所述目标节点而生成。
[0026]进一步地,所述根据更新后的数据血缘图谱,确定与所述新增数据相关的节点的属性值,还包括:
[0027]若未查找到所述目标节点,则获取风险信息的判定规则;
[0028]根据所述新增数据,从所述目标数据资产中进行抽样,得到若干抽样数据;
[0029]对所述若干抽样数据分别利用所述判定规则,识别其风险信息,以综合确定所述新增数据的风险信息;
[0030]根据所述新增数据的风险信息,确定所述初始节点的属性值。
[0031]第二方面,提供了一种数据资产风险发现装置,装置包括:
[0032]第一获取单元,用于获取目标数据资产中针对元数据和操作数据的新增数据;所述元数据包括针对所述目标数据资产的数据存储单元的描述数据,所述操作数据为针对所述数据存储单元的访问行为数据;
[0033]第二获取单元,用于获取预先建立的所述目标数据资产对应的数据血缘图谱;所述数据血缘图谱基于所述元数据和操作数据的历史数据而建立;所述数据血缘图谱包括节点和连接边,节点基于元数据而确定,连接边基于操作数据而确定,其体现了节点之间的关联关系;节点的属性值标识了相应元数据对应的数据存储单元的风险信息;
[0034]更新单元,用于根据所述第一获取单元获取的新增数据,更新所述第二获取单元获取的数据血缘图谱;
[0035]确定单元,用于根据所述更新单元得到的更新后的数据血缘图谱,确定与所述新增数据相关的节点的属性值,根据所述属性值确定所述新增数据的风险信息。
[0036]第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
[0037]第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
[0038]通过本说明书实施例提供的方法和装置,首先获取目标数据资产中针对元数据和操作数据的新增数据;所述元数据包括针对所述目标数据资产的数据存储单元的描述数据,所述操作数据为针对所述数据存储单元的访问行为数据;然后获取预先建立的所述目标数据资产对应的数据血缘图谱;所述数据血缘图谱基于所述元数据和操作数据的历史数据而建立;所述数据血缘图谱包括节点和连接边,节点基于元数据而确定,连接边基于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据资产风险发现方法,所述方法包括:获取目标数据资产中针对元数据和操作数据的新增数据;所述元数据包括针对所述目标数据资产的数据存储单元的描述数据,所述操作数据为针对所述数据存储单元的访问行为数据;获取预先建立的所述目标数据资产对应的数据血缘图谱;所述数据血缘图谱基于所述元数据和操作数据的历史数据而建立;所述数据血缘图谱包括节点和连接边,节点基于元数据而确定,连接边基于操作数据而确定,其体现了节点之间的关联关系;节点的属性值标识了相应元数据对应的数据存储单元的风险信息;根据所述新增数据,更新所述数据血缘图谱;根据更新后的数据血缘图谱,确定与所述新增数据相关的节点的属性值,根据所述属性值确定所述新增数据的风险信息。2.如权利要求1所述的方法,其中,所述目标数据资产属于结构化数据,其数据存储单元通过数据库、数据表和数据列来标识。3.如权利要求2所述的方法,其中,所述节点对应于数据列。4.如权利要求3所述的方法,其中,所述关联关系包括节点之间的生成关系,所述生成关系为第一节点基于第二节点而生成。5.如权利要求1所述的方法,其中,所述元数据的风险信息包括风险分类信息和/或风险分级信息,所述风险分类信息用于指示对应的数据存储单元中数据是否属于敏感数据,所述风险分级信息用于指示敏感数据的级别。6.如权利要求1所述的方法,其中,所述获取目标数据资产中针对元数据和操作数据的新增数据,包括:获取针对目标数据资产进行操作的结构化查询语言SQL语句;解析所述SQL语句,根据其中涉及的元数据和操作数据确定所述新增数据。7.如权利要求1所述的方法,其中,所述新增数据包括,针对第一存储单元的第一元数据和第一操作数据;所述更新所述数据血缘图谱包括:若所述数据血缘图谱中不包含对应于所述第一元数据的节点,则在所述数据血缘图谱中添加对应于所述第一元数据的第一节点;根据所述第一操作数据确定与所述第一元数据具有关联关系的第二元数据,以及所述关联关系的第一类型;在第一节点和所述第二元数据对应的第二节点之间建立第一类型的连接边。8.如权利要求1所述的方法,其中,所述新增数据中包括针对新增的第一存储单元的第一元数据;所述根据更新后的数据血缘图谱,确定与所述新增数据相关的节点的属性值,包括:在更新后的数据血缘图谱中,将所述第一元数据对应的节点作为初始节点,从该初始节点出发,查找与该初始节点具有预设关联关系的目标节点;若查找到所述目标节点,则将所述目标节点的属性值作为所述初始节点的属性值。9.如权利要求8所述的方法,其中,所述预设关联关系包括节点之间的生成关系,且所述初始节点基于所述目标节点而生成。10.如权利要求8所述的方法,其中,所述根据更新后的数据血缘图谱,确定与所述新增
数据相关的节点的属性值,还包括:若未查找到所述目标节点,则获取风险信息的判定规则;根据所述新增数据,从所述目标数据资产中进行抽样,得到若干抽样数据;对所述若干抽样数据分别利用所述判定规则,识别其风险信息,以综合确定所述新增数据的风险信息;根据所述新增数据的风险信息,确定所述初始节点的属性值。11.一种数据资产风险发现装置,所述装置包括:第一获取单元,用于获取目标数据资产中针对元数据和操作数据的新增数据;所述元数据包括针对所述目标数据资产的数据存储单元的描述数据,所述操作数据为针对所述数据存储单元的访问行为数据;第二获取单元,用于获取预先建立的所述目标数据资产对应的数据血缘图谱;所述数据血缘图谱基于所述元数据和操作数据...

【专利技术属性】
技术研发人员:郝泳栋
申请(专利权)人:蚂蚁区块链科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1