一种基于命名实体的敏感数据持续识别方法及系统技术方案

技术编号：40746219 阅读：20 留言：0更新日期：2024-03-25 20:04

本发明专利技术属于数据安全技术领域，具体涉及一种基于命名实体的敏感数据持续识别方法及系统；该方法包括：获取带标签的文本数据并对其进行预处理，得到待识别向量；将待识别向量输入到初始敏感数据持续识别模型中进行处理，得到敏感实体概率矩阵；根据敏感实体概率矩阵识别出敏感实体并存储未识别出的实体对应的文本数据；将足量的存储文本数据作为新训练数据集并采用蒸馏学习训练得到新的敏感数据持续识别模型即训练好的敏感数据持续识别模型可以不断完善模型的识别能力，有效提高敏感实体识别的召回率可以不断完善模型的识别能力，有效提高敏感实体识别的召回率，在实际业务中达到针对敏感数据的持续识别效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据安全，具体涉及一种基于命名实体的敏感数据持续识别方法及系统。

技术介绍

1、伴随互联网技术的快速发展与社会所产生数据量的爆发式增长，人类正逐步进入大数据时代。大数据技术为各行各业创造价值、为民众生活带来便利的同时，也无可避免地提高了数据泄漏的风险。包括用户身份信息、医疗信息等在内的敏感数据一旦泄露，极有可能会给个人用户带来精神损失或经济损失，对企业声誉也会造成严重的负面影响。

2、有效的敏感数据保护措施离不开准确、高效的敏感数据识别技术。目前国内外针对敏感数据识别已经有不少研究。传统的识别方法主要有基于元数据的识别和基于内容的识别，本质上是模式匹配，十分依赖相关人员的经验知识，通过经验指定敏感关键词或者匹配规则，因此这种方式误报率高、漏报率高，现阶段已无法满足业务的要求。而基于机器学习的敏感数据识别可以挖掘敏感数据潜在的特征，识别准确率在模式识别的基础上有一定的提高，但泛化性不够强，在数据量激增的大数据时代存在一定的局限性。近年来随着深度学习的不断发展，凭借着其泛化性强、适应性好的特点，在图像处理、自然语言...

【技术保护点】

1.一种基于命名实体的敏感数据持续识别方法，其特征在于，包括：获取待识别的文本数据，将其输入到训练好的敏感数据持续识别模型中，得到敏感数据识别结果；

2.根据权利要求1所述的一种基于命名实体的敏感数据持续识别方法，其特征在于，对文本数据进行预处理的过程包括：删除文本数据中的特殊字符，得到初始文本数据；对初始文本数据进行编码处理，得到待识别向量。

3.根据权利要求1所述的一种基于命名实体的敏感数据持续识别方法，其特征在于，所述敏感数据持续识别模型包括Bert层、LSTM层、全连接层和CRF层。

4.根据权利要求1所述的一种基于命名实体的敏感数据持续识别方...

【技术特征摘要】

3.根据权利要求1所述的一种基于命名实体的敏感数据持续识别方法，其特征在于，所述敏感数据持续识别模型包括bert层、lstm层、全连接层和c...

【专利技术属性】
技术研发人员：苏贞，孙宏炜，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人