【技术实现步骤摘要】
敏感数据识别方法、装置、设备以及存储介质
[0001]本申请涉及数据安全
,尤其涉及一种敏感数据识别方法
、
装置
、
设备以及存储介质
。
技术介绍
[0002]在相关技术中,通常会将敏感数据识别问题转化为文本分类问题,针对特定场景制定语法规则,并通过语法规则对文本进行匹配识别
。
[0003]虽然此类识别方法对于诸如电话号码
、IP
地址和邮箱地址等的简单文本具有较好的识别效果,但对于诸如姓名
、
地址和公司名称等的复杂文本,却难以设计出覆盖率较高的语法规则,导致敏感数据的识别效果较差
。
技术实现思路
[0004]本申请的主要目的在于提供一种敏感数据识别方法
、
装置
、
设备以及存储介质,旨在解决敏感数据的识别效果较差的问题
。
[0005]为实现上述目的,本申请提供一种敏感数据识别方法,所述方法包括:
[0006]获取待识别数据;
[0 ...
【技术保护点】
【技术特征摘要】
1.
一种敏感数据识别方法,其特征在于,所述方法包括:获取待识别数据;基于所述待识别数据,获得非汉字待识别数据和汉字待识别数据;通过预设规则识别器对所述非汉字待识别数据进行敏感数据识别,获得第一识别结果;通过预训练的敏感识别模型对所述汉字待识别数据进行敏感数据识别,获得第二识别结果;基于所述第一识别结果和所述第二识别结果,获得敏感数据识别结果
。2.
根据权利要求1所述的敏感数据识别方法,其特征在于,所述通过预设规则识别器对所述非汉字待识别数据进行敏感数据识别,获得第一识别结果,包括:将所述非汉字待识别数据与所述预设规则识别器中多个正则表达式进行匹配,获得匹配结果;基于所述匹配结果,获得所述第一识别结果
。3.
根据权利要求2所述的敏感数据识别方法,其特征在于,所述基于所述匹配结果,获得所述第一识别结果,包括:若所述非汉字待识别数据与所述正则表达式匹配,则将所述非汉字待识别数据识别为所述正则表达式对应种类的敏感数据;若所述非汉字待识别数据与所述正则表达式不匹配,则将所述非汉字待识别数据作为非敏感数据
。4.
根据权利要求2所述的敏感数据识别方法,其特征在于,所述正则表达式包括手机号正则表达式
、
邮箱地址正则表达式
、IP
地址正则表达式和银行卡号正则表达式中的至少一种
。5.
根据权利要求1所述的敏感数据识别方法,其特征在于,所述通过预训练的敏感识别模型对所述汉字待识别数据进行敏感数据识别,获得第二识别结果之前,还包括:获取语料数据集;其中,所述语料数据集包括公司名称
、
...
【专利技术属性】
技术研发人员:邹修箭,陈翔,夏宇声,
申请(专利权)人:招商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。