System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于NER算法的敏感数据发现方法技术_技高网

一种基于NER算法的敏感数据发现方法技术

技术编号:41205795 阅读:6 留言:0更新日期:2024-05-07 22:31
本发明专利技术公开一种基于NER算法的敏感数据发现方法,涉及数据安全领域,基于NER算法训练敏感数据识别模型;利用敏感数据识别模型进行敏感数据发现:利用敏感数据识别模型根据命名实体库和标签知识库中数据对已定义绑定关系的敏感数据进行识别,也对未定义绑定关系的敏感数据进行识别,其中根据敏感数据识别模型利用神经网络学习并抽取未知敏感数据的特征,生成对应的命名实体,将未知敏感数据的命名实体和与命名实体对应的标签进行绑定,扩容命名实体库和标签知识库,根据扩容后命名实体库和标签知识库中数据识别敏感数据。

【技术实现步骤摘要】

本专利技术公开一种方法,涉及数据安全领域,具体地说是一种基于ner算法的敏感数据发现方法。


技术介绍

1、大数据背景下,数据类型繁多,内容繁杂、巨大,且处理速度比较快,这是传统信息化数据所不具备的特征。特别是随着互联网等信息技术的发展,大数据已经在各行各业中得到了广泛的应用,并充分发挥着自己的优势。然而,随着数据价值的深入挖掘,数据中的敏感信息也面临着被泄露和滥用的风险。敏感数据包括身份信息、位置信息、联系方式等,这些信息涉及到个人信息,因此如果能够在海量的大数据背景下对其中包含的敏感信息进行精确识别,对大数据构建数据安全防护盾具有重要的意义。但目前还没有较完善方法能够精确识别大数据背景下的敏感数据。


技术实现思路

1、本专利技术针对现有技术的问题,提供一种基于ner算法的敏感数据发现方法,基于ner算法模型实现敏感数据高效识别发现,及时发现数据信息中的敏感信息,使敏感数据得到保护。

2、本专利技术提出的具体方案是:

3、本专利技术提供一种基于ner算法的敏感数据发现方法,基于ner算法训练敏感数据识别模型:使敏感数据识别模型通过神经网络的学习和特征抽取,定义敏感数据的绑定关系,将每一种敏感数据的命名实体和与命名实体对应的标签进行绑定,并形成命名实体库和标签知识库;

4、利用敏感数据识别模型进行敏感数据发现:利用敏感数据识别模型根据命名实体库和标签知识库中数据对已定义绑定关系的敏感数据进行识别,

5、也对未定义绑定关系的敏感数据进行识别,其中根据敏感数据识别模型利用神经网络学习并抽取未知敏感数据的特征,生成对应的命名实体,将未知敏感数据的命名实体和与命名实体对应的标签进行绑定,扩容命名实体库和标签知识库,根据扩容后命名实体库和标签知识库中数据识别敏感数据。

6、进一步,所述的一种基于ner算法的敏感数据发现方法中所述基于ner算法训练敏感数据识别模型,包括:

7、进行模型预训练,将含有敏感数据的数据文本经过双向lstm神经网络进行特征提取,根据提取的特征和相应的标签利用条件随机场算法计算损失,并根据损失优化敏感数据识别模型。

8、进一步,所述的一种基于ner算法的敏感数据发现方法中所述利用条件随机场算法计算损失,包括:

9、定义一个矩阵,所述矩阵的shape为[batchsize,numsteps,numtags],batchsize为数据批量数,numsteps为数据文本中句子长度,numtags为命名实体识别标签的个数,

10、根据数据文本中句子标签和矩阵计算损失,

11、计算出的损失包括一元损失和二元损失,所述一元损失表示输入句子中,第i个词,取某个标签的概率,所述二元损失表示整个序列从一个标签转化到下一个标签的损失值。

12、进一步,所述的一种基于ner算法的敏感数据发现方法中进行模型预训练时,利用bioes方式进行数据文本的标签标记,其中b-begin,表示开始;i-intermediate,表示中间;e-end,表示结尾;s-single,表示单个字符;o-other,表示其他,标记无关字符。

13、本专利技术提供一种基于ner算法的敏感数据发现装置,包括训练模块和识别模块,

14、训练模块基于ner算法训练敏感数据识别模型:使敏感数据识别模型通过神经网络的学习和特征抽取,定义敏感数据的绑定关系,将每一种敏感数据的命名实体和与命名实体对应的标签进行绑定,并形成命名实体库和标签知识库;

15、识别模块利用敏感数据识别模型进行敏感数据发现:利用敏感数据识别模型根据命名实体库和标签知识库中数据对已定义绑定关系的敏感数据进行识别,

16、也对未定义绑定关系的敏感数据进行识别,其中根据敏感数据识别模型利用神经网络学习并抽取未知敏感数据的特征,生成对应的命名实体,将未知敏感数据的命名实体和与命名实体对应的标签进行绑定,扩容命名实体库和标签知识库,根据扩容后命名实体库和标签知识库中数据识别敏感数据。

17、进一步,所述的一种基于ner算法的敏感数据发现装置中所述基于ner算法训练敏感数据识别模型,包括:

18、进行模型预训练,将含有敏感数据的数据文本经过双向lstm神经网络进行特征提取,根据提取的特征和相应的标签利用条件随机场算法计算损失,并根据损失优化敏感数据识别模型。

19、进一步,所述的一种基于ner算法的敏感数据发现装置中所述利用条件随机场算法计算损失,包括:

20、定义一个矩阵,所述矩阵的shape为[batchsize,numsteps,numtags],batchsize为数据批量数,numsteps为数据文本中句子长度,numtags为命名实体识别标签的个数,

21、根据数据文本中句子标签和矩阵计算损失,

22、计算出的损失包括一元损失和二元损失,所述一元损失表示输入句子中,第i个词,取某个标签的概率,所述二元损失表示整个序列从一个标签转化到下一个标签的损失值。

23、进一步,所述的一种基于ner算法的敏感数据发现装置中进行模型预训练时,利用bioes方式进行数据文本的标签标记,其中b-begin,表示开始;i-intermediate,表示中间;e-end,表示结尾;s-single,表示单个字符;o-other,表示其他,标记无关字符。

24、本专利技术的有益之处是:

25、本专利技术提供一种基于ner算法的敏感数据发现方法,基于crf命名实体算法高效精准识别敏感数据,通过机器学习训练扩展敏感数据实体,扩展敏感数据识别类型。

本文档来自技高网...

【技术保护点】

1.一种基于NER算法的敏感数据发现方法,其特征是基于NER算法训练敏感数据识别模型:使敏感数据识别模型通过神经网络的学习和特征抽取,定义敏感数据的绑定关系,将每一种敏感数据的命名实体和与命名实体对应的标签进行绑定,并形成命名实体库和标签知识库;

2.根据权利要求1所述的一种基于NER算法的敏感数据发现方法,其特征是所述基于NER算法训练敏感数据识别模型,包括:

3.根据权利要求1或2所述的一种基于NER算法的敏感数据发现方法,其特征是所述利用条件随机场算法计算损失,包括:

4.根据权利要求2或3所述的一种基于NER算法的敏感数据发现方法,其特征是进行模型预训练时,利用BIOES方式进行数据文本的标签标记,其中B-Begin,表示开始;I-Intermediate,表示中间;E-End,表示结尾;S-Single,表示单个字符;O-Other,表示其他,标记无关字符。

5.一种基于NER算法的敏感数据发现装置,其特征是包括训练模块和识别模块,

6.根据权利要求5所述的一种基于NER算法的敏感数据发现装置,其特征是所述基于NER算法训练敏感数据识别模型,包括:

7.根据权利要求5所述的一种基于NER算法的敏感数据发现装置,其特征是所述利用条件随机场算法计算损失,包括:

8.根据权利要求6或7所述的一种基于NER算法的敏感数据发现装置,其特征是进行模型预训练时,利用BIOES方式进行数据文本的标签标记,其中B-Begin,表示开始;I-Intermediate,表示中间;E-End,表示结尾;S-Single,表示单个字符;O-Other,表示其他,标记无关字符。

...

【技术特征摘要】

1.一种基于ner算法的敏感数据发现方法,其特征是基于ner算法训练敏感数据识别模型:使敏感数据识别模型通过神经网络的学习和特征抽取,定义敏感数据的绑定关系,将每一种敏感数据的命名实体和与命名实体对应的标签进行绑定,并形成命名实体库和标签知识库;

2.根据权利要求1所述的一种基于ner算法的敏感数据发现方法,其特征是所述基于ner算法训练敏感数据识别模型,包括:

3.根据权利要求1或2所述的一种基于ner算法的敏感数据发现方法,其特征是所述利用条件随机场算法计算损失,包括:

4.根据权利要求2或3所述的一种基于ner算法的敏感数据发现方法,其特征是进行模型预训练时,利用bioes方式进行数据文本的标签标记,其中b-begin,表示开始;i-intermediate,表示中间;e-end,表...

【专利技术属性】
技术研发人员:王哲魏子重李锐
申请(专利权)人:山东浪潮科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1