【技术实现步骤摘要】
基于敏感度识别模型的数据敏感度识别方法及装置
[0001]本申请涉及人工智能及互联网技术,尤其涉及一种基于敏感度识别模型的数据敏感度识别方法、敏感度识别模型的训练方法、装置、设备及计算机可读存储介质。
技术介绍
[0002]在互联网企业的数据资产管理中,随着业务的发展和用户活跃度的提升,大量有价值的数据会沉淀在数据库表或文本中。数据敏感度作为元数据中的一部分,从泄露风险归类数据,便于开发人员使用和保密。然而,若一些有价值的数据缺少具体的数据敏感度或风险等级,并且没有被开发人员管理维护起来,那么这部分数据在使用时就有可能被泄露出去,这将对业务造成很大的影响。
[0003]相关技术中,通过人工方式识别数据敏感度,即由数据库管理员根据个人经验对待识别数据的数据敏感度进行识别和确定,但该方式费时费力,且出现漏查敏感数据的概率较高。
技术实现思路
[0004]本申请实施例提供一种基于敏感度识别模型的数据敏感度识别方法、敏感度识别模型的训练方法、装置、设备及计算机可读存储介质,能够提高数据敏感度的识别效率,并降低 ...
【技术保护点】
【技术特征摘要】
1.一种基于敏感度识别模型的数据敏感度识别方法,其特征在于,所述敏感度识别模型包括特征提取层和敏感度识别层,所述方法包括:获取待识别数据的元数据,所述元数据用于描述所述待识别数据;通过所述特征提取层,对所述待识别数据的元数据进行特征提取,得到所述元数据的数据特征;通过所述敏感度识别层,基于所述元数据的数据特征,对所述待识别数据进行敏感度识别,得到敏感度识别结果;其中,所述敏感度识别结果,用于指示所述待识别数据对应的数据敏感度。2.如权利要求1所述的方法,其特征在于,所述获取待识别数据的元数据,包括:当所述待识别数据的存储形式为数据表时,从所述数据表中获取以下表元素至少之一:数据表名、数据表中对应所述待识别数据的表描述、数据表中对应所述待识别数据的属性字段;将获取的表元素确定为所述待识别数据的元数据。3.如权利要求1所述的方法,其特征在于,所述获取待识别数据的元数据,包括:当所述待识别数据的存储形式为文档时,从所述文档中获取以下文档内容至少之一:文档标题、文档摘要、文档关键词;将获取的文档内容确定为所述待识别数据的元数据。4.如权利要求1所述的方法,其特征在于,所述对所述待识别数据的元数据进行特征提取,得到所述元数据的数据特征,包括:对所述待识别数据的元数据进行分词处理,得到所述元数据对应的多个词语;分别对各个所述词语进行特征编码,得到各个所述词语对应的词语特征;对各个所述词语对应的词语特征进行特征拼接,得到所述元数据对应的数据特征。5.如权利要求4所述的方法,其特征在于,所述对各个所述词语对应的词语特征进行特征拼接,得到所述元数据对应的数据特征,包括:分别对各个词语的词语特征进行双向编码处理,得到各所述词语对应的上文编码特征和下文编码特征;分别对各所述词语的上文编码特征和下文编码特征进行特征拼接,得到相应的拼接编码特征;将各所述词语对应的拼接编码特征进行特征拼接,得到所述元数据对应的数据特征。6.如权利要求1所述的方法,其特征在于,所述通过所述敏感度识别层,基于所述元数据的数据特征,对所述待识别数据进行敏感度识别,得到敏感度识别结果,包括:通过所述敏感度识别层,对所述元数据的数据特征进行对应至少两个敏感等级的分类预测,得到所述元数据对应各所述敏感等级的概率;选取概率最大的敏感等级,作为对所述待识别数据的敏感度识别结果。7.如权利要求1所述的方法,其特征在于,所述通过所述特征提取层,对所述待识别数据的元数据进行特征提取,得到所述元数据的数据特征,包括:当所述元数据包括至少两个关键词时,通过所述特征提取层,分别对各所述关键词进行特征提取,得到各所述关键词对应的特征作为所述元数据的数据特征;所述通过所述敏感度识别层,基于所述元数据的数据特征,对所述待识别数据进行敏
感度识别,得到敏感度识别结果,包括:通过所述敏感度识别层,分别将各所述关键词对应的特征与至少两个敏感词对应的特征进行匹配,得到相应的匹配度;选取匹配度最高的敏感词对应的数据敏感度,作为对所述待识别数据的敏感度识别结果。8.如权利要求1所述的方法,其特征在于,所述方法还包括:建立所述敏感度识别结果与所述待识别数据的关联关系,并存储所述关联关系;其中,所述关联关系,用于供基于所述待识别数据查找对应所述待识别数据的数据敏感...
【专利技术属性】
技术研发人员:赵文,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。