System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于NLP的提升数据库敏感数据识别率的方法技术_技高网

一种基于NLP的提升数据库敏感数据识别率的方法技术

技术编号:40739617 阅读:3 留言:0更新日期:2024-03-25 20:00
本发明专利技术涉及一种基于NLP的提升数据库敏感数据识别率的方法,至少包括如下步骤:从数据库采集原始数据;对原始数据进行识别,当未得到识别结果时,启动NLP处理模块对数据进行处理;NLP处理模块对原始数据进行处理,得到处理后的数据;再对NLP处理模块处理后的数据进行二次识别;进行二次识别后输出结果数据。本发明专利技术对NLP处理模块处理后的数据,再次进行识别,以期提升敏感数据的识别率。

【技术实现步骤摘要】

本专利技术涉及网络信息安全,具体公开一种基于nlp的提升数据库敏感数据识别率的方法。


技术介绍

1、数据分类分级是数据管理和数据安全的基础性工作,它可以帮助企业制定正确的安全策略,采取有效的数据保护措施,不断提高数据安全水平,实现治理全面合规。

2、目前对存储在数据库中的海量的数据进行分析所采用的技术中,数据的识别和定位通常采用关键字字典映射、正则表达式匹配、人工标识等方法,而这些方法对原始数据有较高的要求。其次,我们通过对数据库中的数据进行抽取采集,可获得表名、表注释、字段名、字段注释、字段数据等属性,对这些原始数据的命名和使用,通常按照企业自身规范或者用户自身习惯,没有统一标准。以上两点给敏感数据的识别带来极大的考验。

3、现有的敏感数据识别方法存在以下一些问题:

4、1、识别精度不高,对原始数据照搬全收,匹配过程生硬;

5、2、对原始数据的质量有高要求,无法排除数据中特殊字符、歧义、相似词等干扰因素;

6、3、对文本段落的处理能力差,受限于字典词库和正则表达式等,无法提取关键字段信息,导致一般的识别流程对段落的识别率极低。


技术实现思路

1、有鉴于现有相关技术的不足,本专利技术提供一种基于nlp的提升数据库敏感数据识别率的方法,该专利技术提供的方法优化一般识别流程,对原始数据进行干扰因素过滤、分词、语义分析等处理,加强数据识别过程中对中英文敏感数据的提炼和解析,以期提升数据库敏感数据的识别率。

2、为实现上述目的,本专利技术提供一种基于nlp的提升数据库敏感数据识别率的方法,至少包括如下步骤:

3、从数据库采集原始数据;

4、对原始数据进行识别,当未得到识别结果时,启动nlp处理模块对数据进行处理;

5、nlp处理模块对原始数据进行处理,得到处理后的数据;

6、再对nlp处理模块处理后的数据进行二次识别;

7、进行二次识别后输出结果数据。

8、进一步的,所述nlp处理模块中的功能模块包括干扰因素过滤组件、分词组件和语义分析组件;所述nlp处理模块主要负责对原始数据中的中英文进行干扰因素过滤、分词、语义分析处理,得到处理后的数据。

9、进一步的,所述干扰因素过滤组件实施步骤如下:

10、针对英文字符串,先过滤处理英文字符中的特殊符号,并按照驼峰命名方法处理过滤后的字符,形成英文字符串;

11、针对中文,先过滤处理中文字符中的特殊符号,形成中文字符串;

12、判断过滤后数据的长度是否超过阈值,若未超过阈值,当前流程结束,输出过滤结果;若数据长度超过阈值;传递数据到分词组件。

13、进一步的,针对英文字符串中的特殊符号包括横杠、@符号和空格中的一种或者多种;针对中文中的特殊符号包括空格、回车和分页符中的一种或者多种。

14、进一步的,所述分词组件实施步骤如下:

15、通过分词组件将连续的字序列按照一定的规范重新组合成词序列,结合上下文识别生词,自动消除歧义,提取文本中的实体及关系,获取特征分布;

16、传递分词后的数据到语义分析组件。

17、进一步的,所述语义分析组件实施步骤如下:

18、根据分词组件提供的数据,进行语义角色标注,识别文本中实体的语义角色,再抽取文本中的事件,包括事件类型、事件参与者、事件时间,最后结合上下文,确定文本的含义和解释;输出结果数据。

19、本专利技术采用以上技术方案,具体如下有益效果:

20、1、本发提供一种基于nlp的提升数据库敏感数据识别率的方法。针对现有流程的处理弊端,增加nlp处理模块,模块功能包括干扰因素过滤组件、分词组件和语义分析组件,对无法识别的原始数据进行干扰因素过滤、分词、语义分析处理。针对英文(表名、字段名等),先过滤处理英文字符中的横杠、@符号、空格等特殊符号,并按照驼峰命名方法处理过滤后的字符,针对中文(注释、样本值等),先过滤处理中文字符中的空格、回车、分页符等特殊符号。其次判断过滤后数据的长度是否超过阈值。若超过,进行分词处理,提取文本中的实体及关系,获取特征分布,再进行语义分析,标注语义角色,抽取文本中的事件,结合上下文确定文本的含义和解释,得出理想数据。对nlp处理模块处理后的数据,再次进行识别,以期提升敏感数据的识别率。

21、2、对原识别流程进行优化,增加nlp处理模块,对原始数据中的中英文进行干扰因素过滤、分词、语义分析处理,得到理想数据后,再进行二次识别。此优化排除了干扰因素,经过数据的筛选分析和补充修复,极大提升了文本质量。数据库的原始数据有表名、表注释、字段名、字段注释、字段数据等,鉴于企业自身规范或者用户自身习惯,无法形成统一的命名和使用标准。因此单纯使用字典或正则技术识别将受到很大限制。通过nlp处理后的数据更接近用户真实的表达,并且该nlp处理是在原有流程首次识别失败后进行的补充处理,是对原流程的增强优化,有助于提升敏感数据的识别率。

22、3、对原始数据中的文本段落进行分词提取和文本挖掘,结合上下文和语义,得到段落中的关键字段,尤其对中文段落的处理最明显,改变了原流程对文本段落识别率低的局面。

本文档来自技高网...

【技术保护点】

1.一种基于NLP的提升数据库敏感数据识别率的方法,其特征在于:至少包括如下步骤:

2.根据权利要求1所述的方法,其特征在于:所述NLP处理模块中的功能模块包括干扰因素过滤组件、分词组件和语义分析组件;所述NLP处理模块主要负责对原始数据中的中英文进行干扰因素过滤、分词、语义分析处理,得到处理后的数据。

3.根据权利要求2所述的方法,其特征在于:所述干扰因素过滤组件实施步骤如下:

4.根据权利要求3所述的方法,其特征在于:针对英文字符串中的特殊符号包括横杠、@符号和空格中的一种或者多种;针对中文中的特殊符号包括空格、回车和分页符中的一种或者多种。

5.根据权利要求3或者4所述的方法,其特征在于:所述分词组件实施步骤如下:

6.根据权利要求5所述的方法,其特征在于:所述语义分析组件实施步骤如下:

【技术特征摘要】

1.一种基于nlp的提升数据库敏感数据识别率的方法,其特征在于:至少包括如下步骤:

2.根据权利要求1所述的方法,其特征在于:所述nlp处理模块中的功能模块包括干扰因素过滤组件、分词组件和语义分析组件;所述nlp处理模块主要负责对原始数据中的中英文进行干扰因素过滤、分词、语义分析处理,得到处理后的数据。

3.根据权利要求2所述的方法,其特征在于:所述干扰因...

【专利技术属性】
技术研发人员:陈承铨王伟胡烜林荣杰
申请(专利权)人:中电福富信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1