【技术实现步骤摘要】
识别数据库中的隐私数据的方法和装置
[0001]本说明书一个或多个实施例涉及计算机领域,尤其涉及识别数据库中的隐私数据的方法和装置。
技术介绍
[0002]隐私数据(private data)即秘密数据,是指不想被他人或无关人等获知的信息,从隐私的所有者的角度,可以将隐私数据分为个人隐私数据和共同隐私数据,其中个人隐私数据包括可以用来定位或者识别个人的信息(如电话号码、地址、信用卡号等)和敏感信息(如个人健康情况、财务信息、公司重要文件等)。共同隐私数据主要以家庭隐私为主,如家庭年收入情况等。隐私数据的泄露和滥用极易引起各种个人和公共安全问题。针对隐私数据的保护,需要从数据库中识别出属于隐私数据的字段,通常地,数据库包括海量的数据表,平均每个数据表中又有数十个字段。
[0003]现有技术中,在识别数据库中的隐私数据时,基本是逐个识别各个数据表的各个字段是否属于隐私数据,在小数据量的情况下性能问题不明显,但当用于海量数据(例如,几亿张表,几十亿个字段)的情况下,会有明显的性能问题,主要表现为在规定时间扫不完全量表,从而 ...
【技术保护点】
【技术特征摘要】
1.一种识别数据库中的隐私数据的方法,所述数据库包括多个数据表,每个数据表包括多个字段,所述方法包括:将所述数据库包括的各个数据表中的各个字段,形成队列;按照所述队列中各个字段的排序,依次针对当前的第一字段进行处理操作,所述处理操作包括:在所述第一字段不具有识别结果标签的情况下,识别所述第一字段是否属于隐私数据,得到第一识别结果,将第一识别结果作为所述第一字段的识别结果标签;若所述第一识别结果指示所述第一字段属于隐私数据,则查找与所述第一字段具有预设关系的第二字段;利用与所述预设关系对应的方式,识别所述第二字段是否属于隐私数据,得到第二识别结果,并将第二识别结果作为所述第二字段的识别结果标签。2.如权利要求1所述的方法,其中,所述将所述数据库包括的各个数据表中的各个字段,形成队列,包括:从所述数据库中的元数据表解析出各个字段的字段名,将各字段名排序后形成所述队列。3.如权利要求2所述的方法,其中,所述识别所述第一字段是否属于隐私数据,包括:从所述数据库中获取所述第一字段的字段名对应的样本数据;将所述样本数据输入隐私数据识别模型,得到所述第一识别结果。4.如权利要求3所述的方法,其中,所述隐私数据识别模型包含如下至少一种识别逻辑:正则表达式、语言模型、校验规则、多分类模型。5.如权利要求1所述的方法,其中,所述查找与所述第一字段具有预设关系的第二字段,包括:从预先建立的数据关系图谱中查找与所述第一字段具有预设关系的第二字段;所述数据关系图谱中包括对应于字段的节点,节点之间的连接边对应于字段之间的关系。6.如权利要求5所述的方法,其中,所述数据关系图谱中还包括对应于数据表的节点,节点之间的连接边还对应于数据表与字段之间的关系,以及数据表与数据表之间的关系。7.如权利要求5或6所述的方法,其中,所述数据关系图谱根据解析所述数据库对应的结构化查询语言SQL语句而得到。8.如权利要求5所述的方法,其中,所述从预先建立的数据关系图谱中查找与所述第一字段具有预设关系的第二字段,包括:从所述第一字段对应的节点开始,查找连接边对应的关系为所述预设关系的节点,直到连接边的关系不是所述预设关系为止,将查找到的节点对应的字段作为所述第二字段。9.如权利要求1所述的方法,其中,所述预设关系为复制;所述利用与所述预设关系对应的方式,识别所述第二字段是否属于隐私数据,包括:直接确定所述第二识别结果为所述第二字段属于隐私数据。10.如权利要求1所述的方法,其中,所述预设关系为截断;所述识别所述第一字段是否属于隐私数据,包括:利用第一识别模型集合中的各识别模型,分别识别所述第一字段是否属于隐私数据,
得到各第一识别子结果,根据各第一识别子结果,综合确定所述第一识别结果;所述利用与所述预设关系对应的方式,识别所述第二字段是否属于隐私数据,包括:利用第二识别模型集合中的至少一个识别模型,识别所述第二字段是否属于隐私数据,得到所述第二识别结果;所述第二识别模型集合为所述第一识别模型集合的子集。11.如权利要求1所述的方法,其中,所述第一识别结果和/或所述第二识别结果,包括:字段是否属于隐私数据,以及属于隐私数据时的隐私数据类型。12.一种识别数据库中的隐私数据的装置,所述数据库包括多个数据表,每个数据表包括多个字段,所述装置包括:队列形成单元,用于将所述数据库包括的各个数据表...
【专利技术属性】
技术研发人员:刘佳伟,鲍梦瑶,章鹏,张谦,殷雪梅,刘新源,
申请(专利权)人:蚂蚁区块链科技上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。