敏感数据识别方法、系统及其装置制造方法及图纸

技术编号:24251823 阅读:48 留言:0更新日期:2020-05-22 23:43
本发明专利技术实施例提供一种敏感数据识别方法、系统及其装置,包括:对非结构化数据进行解析,获取非结构化数据对应的文本数据,文本数据包括多个词;将文本数据输入敏感数据识别模型,得到针对每个词的敏感实体属性的联合分布概率最大的第一标注序列,敏感数据识别模型包括基于深度学习的语言模型、全连接层和CRF;根据第一标注序列确定文本数据中敏感数据所处的位置。在本发明专利技术实施例中,基于深度学习的语言模型可以更好地学习表征文本数据中的每一个词,同时结合CRF求得针对文本数据中每个词的敏感实体属性的联合分布概率最大的标注序列,从而确定非结构化数据中的敏感数据的位置,提高了识别准确率。

Sensitive data identification method, system and device

【技术实现步骤摘要】
敏感数据识别方法、系统及其装置
本专利技术涉及信息安全
,尤其涉及一种敏感数据识别方法、系统及其装置。
技术介绍
随着数据安全的重要性日益增强,如何保护企业内部的数据不被泄露,逐渐引起社会各层的关注,许多公司对内部的敏感数据的安全性提出了更高的要求。非结构化数据(包括文本、图片等)占企业数据的80%以上,并且以每年55%至65%的速度增长。然而,现有技术更多的是对结构化数据进行识别和脱敏的处理。如何针对大规模、多样化的非结构化数据中的敏感数据进行识别和脱敏是亟待解决的问题。
技术实现思路
有鉴于此,本专利技术实施例提供一种敏感数据识别方法,旨在解决现有技术中针对非结构化数据中的敏感数据进行识别的问题。本专利技术解决上述技术问题所采用的技术方案如下。第一方面,提供了一种敏感数据识别方法,包括:对非结构化数据进行解析,获取非结构化数据对应的文本数据,文本数据包括多个词;将文本数据输入敏感数据识别模型,得到针对每个词的敏感实体属性的联合分布概率最大的第一标注序列,敏感数据识别模型包括基于深度学习的语言模型、全连接层和条件随机场CRF;根据第一标注序列确定文本数据中敏感数据所处的位置。第二方面,提供了一种敏感数据识别系统,包括存储器和处理器,其中,存储器用于存储可执行程序代码;处理器与存储器连接,通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行上述敏感数据识别方法。第三方面,提供了一种敏感数据识别装置,包括:解析单元,用于对非结构化数据进行解析,获取非结构化数据对应的文本数据,文本数据包括多个词;识别单元,用于将文本数据输入敏感数据识别模型,得到针对每个词的敏感实体属性的联合分布概率最大的第一标注序列,敏感数据识别模型包括基于深度学习的语言模型、全连接层和条件随机场CRF;确定单元,用于根据第一标注序列确定文本数据中敏感数据所处的位置。本专利技术实施例中,基于深度学习的语言模型可以更好地学习表征文本数据中的每一个词,同时结合条件随机场(conditionalrandomfield,CRF)求得针对文本数据中每个词的敏感实体属性的联合分布概率最大的标注序列,从而确定非结构化数据中的敏感数据的位置,提高了识别准确率。附图说明图1是本专利技术实施例一提供的敏感数据识别方法的流程图;图2是本专利技术实施例提供的SDK嵌入应用程序的示意图;图3是本专利技术实施例二提供的敏感数据识别模型训练的流程图;图4是本专利技术实施例提供的敏感数据识别模型的示意图;图5是本专利技术实施例提供的在识别阶段文本数据经过敏感数据识别模型时的处理过程的流程图;图6是本专利技术实施例三提供的对非结构化数据进行解析的流程图;图7是本专利技术实施例四提供的敏感数据识别装置的结构示意图;图8是本专利技术实施例五提供的敏感数据识别系统的结构框图。具体实施方式为了使本专利技术所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。在本专利技术实施例中,基于深度学习的语言模型可以更好地表征文本数据中的每一个词,同时结合CRF求得针对文本数据中每个词的敏感实体属性的联合分布概率最大的标注序列,从而确定非结构化数据中的敏感数据的位置,提高了识别准确率。实施例一图1是本专利技术实施例一提供的敏感数据识别方法的流程图。如图1所示,该方法包括:步骤S101:对非结构化数据进行解析,获取非结构化数据对应的文本数据,文本数据包括多个词。在本专利技术实施例中,对非结构化数据进行解析,抽取得到其对应的文本数据,非结构化数据包括但不限于WORD、EXCEL、PPT、TXT、PDF、XML、数据库文本字段、图片等。该文本数据包括多个词,可切分到词粒度(Token粒度)级别。步骤S102:将文本数据输入敏感数据识别模型,得到针对每个词的敏感实体属性的联合分布概率最大的第一标注序列,敏感数据识别模型包括基于深度学习的语言模型、全连接层和CRF。在本专利技术实施例中,敏感数据识别模型包括基于深度学习的无监督预训练的双向语言模型,如BERT、ELMo、GPT等,文本数据通过该语言模型获得带有上下文信息的词向量;还包括全连接层和CRF,词向量先后通过全连接层和CRF,分别得到每个词属于各敏感实体属性的概率、针对每个词的敏感实体属性的联合分布概率最大的第一标注序列,该第一标注序列是句子级别的标注序列。对于CRF的输出,还可以进行Viterbi解码和softmax归一化等优化处理。步骤S103:根据第一标注序列确定文本数据中敏感数据所处的位置。根据第一标注序列里的敏感实体属性可分辨出敏感数据所处的位置。步骤104:根据文本数据中敏感数据所处的位置,对敏感数据进行脱敏处理。在本专利技术实施例中,识别出敏感数据所处的位置后,对识别出的敏感数据进行遮蔽、替换、擦除、格式保全加密、对称加密、日期泛化、数值泛化、短语泛化等脱敏处理。在本专利技术实施例中,基于深度学习的语言模型可以更好地表征文本数据中的每一个词,同时结合CRF求得针对文本数据中每个词的敏感实体属性的联合分布概率最大的标注序列,从而确定非结构化数据中的敏感数据的位置,提高了识别准确率。优选地,将步骤S101-S104描述的敏感数据识别与脱敏方法集成到软件开发工具包(softwaredevelopmentkit,SDK),并以Restful或grpc等应用编程接口(applicationprogramminginterface,API)方式开放。SDK嵌入到应用程序中,应用程序根据需求调用SDK中对应的API,然后由对应的服务返回结果。图2为SDK嵌入应用程序的示意图。API如下:上述方式的开发周期短,嵌入应用程序简单方便,能够帮助企业更简单方便地将敏感数据识别与脱敏方法集成到企业产品中,从而提升企业数据保护的能力。实施例二作为本专利技术的一个实施例,在对文本数据进行敏感数据识别之前需训练出敏感数据识别模型。图3是本专利技术实施例二提供的敏感数据识别模型训练的流程图。如图3所示,在对非结构化数据进行解析之前,包括:步骤S301:将训练数据切分为多个词。通过大量的训练数据对敏感数据识别模型进行训练。训练数据包括多个词,均可切分到词粒度(Token粒度)级别。步骤S302:采用预设的标识符对训练数据进行敏感实体属性标注,得到第二标注序列。在本专利技术实施例中,首先定义敏感实体属性及其标识符。敏感实体属性,如姓名、年龄、籍贯、身份证号、手机号、邮箱和机构名等。采用BIO或者BIOES等标注法,标识符包括直接标识符和准标识符。直接标识符可直接定位个人的属性,比如姓名、身份证、手机号等;单个准标识符不能直接定位个人本文档来自技高网...

【技术保护点】
1.敏感数据识别方法,其特征在于,所述方法包括:/n对非结构化数据进行解析,获取所述非结构化数据对应的文本数据,所述文本数据包括多个词;/n将所述文本数据输入敏感数据识别模型,得到针对每个词的敏感实体属性的联合分布概率最大的第一标注序列,所述敏感数据识别模型包括基于深度学习的语言模型、全连接层和条件随机场CRF;/n根据所述第一标注序列确定所述文本数据中敏感数据所处的位置。/n

【技术特征摘要】
1.敏感数据识别方法,其特征在于,所述方法包括:
对非结构化数据进行解析,获取所述非结构化数据对应的文本数据,所述文本数据包括多个词;
将所述文本数据输入敏感数据识别模型,得到针对每个词的敏感实体属性的联合分布概率最大的第一标注序列,所述敏感数据识别模型包括基于深度学习的语言模型、全连接层和条件随机场CRF;
根据所述第一标注序列确定所述文本数据中敏感数据所处的位置。


2.如权利要求1所述的方法,其特征在于,在所述对非结构化数据进行解析之前,所述方法还包括:
将训练数据切分为多个词;
采用预设的标识符对所述训练数据进行敏感实体属性标注,得到第二标注序列;
将所述训练数据输入敏感数据识别模型,得到针对每个词的敏感实体属性的联合分布概率最大的第三标注序列,所述敏感数据识别模型包括基于深度学习的语言模型、全连接层和条件随机场CRF;
将所述第三标注序列与所述第二标注序列进行比较,当准确率大于预设阈值时,停止训练、获得训练后的敏感数据识别模型;
所述将所述文本数据输入敏感数据识别模型,得到针对每个词的敏感实体属性的联合分布概率最大的第一标注序列,所述敏感数据识别模型包括基于深度学习的语言模型、全连接层和条件随机场CRF包括:
将所述文本数据输入基于深度学习的语言模型,对应每个词得到带有上下文信息的词向量;
将所述词向量输入全连接层和条件随机场CRF得到针对每个词的敏感实体属性的联合分布概率最大的第一标注序列。


3.如权利要求2所述的方法,其特征在于,所述预设的标识符包括直接标识符和准标识符。


4.如权利要求1所述的方法,其特征在于,所述非结构化数据为图片时,所述对非结构化数据进行解析,获取所述非结构化数据对应的文本数据包括:
通过第一神经网络确定待脱敏图片中的文字区域;
通过第二神经网络获取所述文字区域中的文本数据。


5.如权利要求1-4任一项所述的方法,其特征在于,在所述根据所述第一标注序列确定所述文本数据中敏感数据所处的位置之后,所述方法还包括:
根据所述文本数据中敏感数据所处的位置,对敏感数据进行脱敏处理。


6.敏感数据识别系统,其特征在于,所述系统包括:
存储器和处理器,
其中,所述存储器用于存储可执行程序代码;所述处理器与所述存储器连接,通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程...

【专利技术属性】
技术研发人员:刘川意方滨兴韩培义段少明
申请(专利权)人:深圳云安宝科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1