敏感数据识别模型的生成方法、装置、设备及存储介质制造方法及图纸

技术编号:41407121 阅读:23 留言:0更新日期:2024-05-20 19:33
本申请公开了一种敏感数据识别模型的生成方法、装置、设备及存储介质,属于数据安全领域。所述方法包括:获取目标敏感词;确定目标敏感词对应的敏感数据识别模型,敏感数据识别模型包括目标敏感词的敏感词集以及敏感词集对应的敏感等级和/或敏感类别;其中,敏感词集包括目标敏感词和目标敏感词的同义词,敏感词集是基于目标敏感词所属的行业确定的。本申请通过目标敏感词能够自动确定敏感词集、敏感词集对应的敏感类别和/或敏感等级,无需用户按照法律法规中的数据分级分类原则来自行设置敏感类别和敏感等级,降低了模型的生成难度。此外,本申请还可以扩充敏感词,提高了敏感数据的识别效果,适用范围较广。

【技术实现步骤摘要】

本申请涉及数据安全领域,特别涉及一种敏感数据识别模型的生成方法、装置、设备及存储介质


技术介绍

1、随着各个行业的业务向线上迁移,个人资产及信息安全的泄露风险逐步加剧。而且,按照法律规定,需要对数据进行分级分类,从而全面保障数据的安全以及合法合规。但是,由于各个行业产生的数据特别庞大,全部依赖人工进行分级分类难以实现,不利于敏感数据的识别。因此,如何生成敏感数据的识别模型成为目前亟待解决的问题。

2、在相关技术中,按照不同的行业规范来针对性定制每个行业的敏感数据分级分类模板并内置敏感数据识别模型。当内置的敏感数据识别模型无法满足需求时,用户可以通过定制的敏感数据分级分类模板来自定义添加敏感数据识别模型。其中,用户需要自定义配置的数据包括模型名称、敏感等级、识别规则和描述信息。其中,识别规则用于设定敏感数据的识别方式,比如正则表达式、不包含某个关键字、包含某个关键字等。

3、然而,上述方法的使用难度较大,依赖于用户对法律法规中的数据分级分类的原则的理解程度。此外,上述方法仅适用于简单场景,在涉及敏感数据复杂且繁多的场景下,用户需要考本文档来自技高网...

【技术保护点】

1.一种敏感数据识别模型的生成方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述方法还包括:

3.如权利要求2所述的方法,其特征在于,所述基于所述目标敏感词所属的行业,确定所述敏感词集对应的敏感类别,包括:

4.如权利要求2或3所述的方法,其特征在于,所述基于所述敏感词集对应的敏感类别,确定所述敏感词集对应的敏感等级,包括:

5.如权利要求1-4任一所述的方法,其特征在于,所述敏感数据识别模型还包括识别规则。

6.如权利要求5所述的方法,其特征在于,所述方法还包括:

7.如权利要求1-6任...

【技术特征摘要】

1.一种敏感数据识别模型的生成方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述方法还包括:

3.如权利要求2所述的方法,其特征在于,所述基于所述目标敏感词所属的行业,确定所述敏感词集对应的敏感类别,包括:

4.如权利要求2或3所述的方法,其特征在于,所述基于所述敏感词集对应的敏感类别,确定所述敏感词集对应的敏感等级,包括:

5.如权利要求1-4任一所述的方法,其特征在于,所述敏感数据识别模型还包括识别规则。

6.如权利要求5所述的方法,其特征在于,所述方法还包括:

7.如权利要求1-6任一所述的方法,其特征在于,所述获取目标敏感词,包括:

8.如权利要求1-7任一所述的方法,其特征在于,所述方法还包括:

9.如权利要求8所述的方法,其特征在于,所述基于所述目标敏感词和所述目标敏感词所属的行业进行同义词挖掘,以得到所述目标敏感词的同义词,包括:

10.如权利要求9所述的方法,其特征在于,所述基于所述目标敏感词的词向量和所述多个候选词的词向量,确定所述目标敏感词的同义词,包括:

11.如权利要求10所述的方法,其特征在于,所述基于所述目标敏感词的候选同义词,确定所述目标敏感词的同义词,包括:

12.如权利要求11所述的方法,其特征在于,所述目标敏感词包括多个敏感词;

13.一种敏感数据识别模型的生成装置,其特征在于,所述装置包括:

14.如权利要求13所述的装置,其特征在于,所述装置还包括:

15.如权利要...

【专利技术属性】
技术研发人员:岐文钰包德伟魏启坤曹雅琳侯雨佳
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1