一种基于NLP的提升数据库敏感数据识别率的方法技术

技术编号：40739617 阅读：3 留言：0更新日期：2024-03-25 20:00

本发明专利技术涉及一种基于NLP的提升数据库敏感数据识别率的方法，至少包括如下步骤：从数据库采集原始数据；对原始数据进行识别，当未得到识别结果时，启动NLP处理模块对数据进行处理；NLP处理模块对原始数据进行处理，得到处理后的数据；再对NLP处理模块处理后的数据进行二次识别；进行二次识别后输出结果数据。本发明专利技术对NLP处理模块处理后的数据，再次进行识别，以期提升敏感数据的识别率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络信息安全，具体公开一种基于nlp的提升数据库敏感数据识别率的方法。

技术介绍

1、数据分类分级是数据管理和数据安全的基础性工作，它可以帮助企业制定正确的安全策略,采取有效的数据保护措施,不断提高数据安全水平,实现治理全面合规。

2、目前对存储在数据库中的海量的数据进行分析所采用的技术中，数据的识别和定位通常采用关键字字典映射、正则表达式匹配、人工标识等方法，而这些方法对原始数据有较高的要求。其次，我们通过对数据库中的数据进行抽取采集，可获得表名、表注释、字段名、字段注释、字段数据等属性，对这些原始数据的命名和使用，通常按照企业自身规范或者用户自身习惯，没有统一标准。以上两点给敏感数据的识别带来极大的考验。

3、现有的敏感数据识别方法存在以下一些问题：

4、1、识别精度不高，对原始数据照搬全收，匹配过程生硬；

5、2、对原始数据的质量有高要求，无法排除数据中特殊字符、歧义、相似词等干扰因素；

6、3、对文本段落的处理能力差，受限于字典词库和正则表达式等，无法提取关键字段信息，导致一般的识别流程对段落的识别率极低。

技术实现思路

1、有鉴于现有相关技术的不足，本专利技术提供一种基于nlp的提升数据库敏感数据识别率的方法，该专利技术提供的方法优化一般识别流程，对原始数据进行干扰因素过滤、分词、语义分析等处理，加强数据识别过程中对中英文敏感数据的提炼和解析，以期提升数据库敏感数据的识别率。

2、为实现

3、从数据库采集原始数据；

4、对原始数据进行识别，当未得到识别结果时，启动nlp处理模块对数据进行处理；

5、nlp处理模块对原始数据进行处理，得到处理后的数据；

6、再对nlp处理模块处理后的数据进行二次识别；

7、进行二次识别后输出结果数据。

8、进一步的，所述nlp处理模块中的功能模块包括干扰因素过滤组件、分词组件和语义分析组件；所述nlp处理模块主要负责对原始数据中的中英文进行干扰因素过滤、分词、语义分析处理，得到处理后的数据。

9、进一步的，所述干扰因素过滤组件实施步骤如下：

10、针对英文字符串，先过滤处理英文字符中的特殊符号，并按照驼峰命名方法处理过滤后的字符，形成英文字符串；

11、针对中文，先过滤处理中文字符中的特殊符号，形成中文字符串；

12、判断过滤后数据的长度是否超过阈值，若未超过阈值，当前流程结束，输出过滤结果；若数据长度超过阈值；传递数据到分词组件。

13、进一步的，针对英文字符串中的特殊符号包括横杠、@符号和空格中的一种或者多种；针对中文中的特殊符号包括空格、回车和分页符中的一种或者多种。

14、进一步的，所述分词组件实施步骤如下：

15、通过分词组件将连续的字序列按照一定的规范重新组合成词序列，结合上下文识别生词，自动消除歧义，提取文本中的实体及关系，获取特征分布；

16、传递分词后的数据到语义分析组件。

17、进一步的，所述语义分析组件实施步骤如下：

18、根据分词组件提供的数据，进行语义角色标注，识别文本中实体的语义角色，再抽取文本中的事件，包括事件类型、事件参与者、事件时间，最后结合上下文，确定文本的含义和解释；输出结果数据。

19、本专利技术采用以上技术方案，具体如下有益效果：

20、1、本发提供一种基于nlp的提升数据库敏感数据识别率的方法。针对现有流程的处理弊端，增加nlp处理模块，模块功能包括干扰因素过滤组件、分词组件和语义分析组件,对无法识别的原始数据进行干扰因素过滤、分词、语义分析处理。针对英文(表名、字段名等)，先过滤处理英文字符中的横杠、@符号、空格等特殊符号，并按照驼峰命名方法处理过滤后的字符,针对中文(注释、样本值等)，先过滤处理中文字符中的空格、回车、分页符等特殊符号。其次判断过滤后数据的长度是否超过阈值。若超过，进行分词处理，提取文本中的实体及关系，获取特征分布，再进行语义分析，标注语义角色，抽取文本中的事件，结合上下文确定文本的含义和解释，得出理想数据。对nlp处理模块处理后的数据，再次进行识别，以期提升敏感数据的识别率。

21、2、对原识别流程进行优化，增加nlp处理模块，对原始数据中的中英文进行干扰因素过滤、分词、语义分析处理，得到理想数据后，再进行二次识别。此优化排除了干扰因素，经过数据的筛选分析和补充修复，极大提升了文本质量。数据库的原始数据有表名、表注释、字段名、字段注释、字段数据等，鉴于企业自身规范或者用户自身习惯，无法形成统一的命名和使用标准。因此单纯使用字典或正则技术识别将受到很大限制。通过nlp处理后的数据更接近用户真实的表达，并且该nlp处理是在原有流程首次识别失败后进行的补充处理，是对原流程的增强优化，有助于提升敏感数据的识别率。

22、3、对原始数据中的文本段落进行分词提取和文本挖掘，结合上下文和语义，得到段落中的关键字段，尤其对中文段落的处理最明显，改变了原流程对文本段落识别率低的局面。

本文档来自技高网...

【技术保护点】

1.一种基于NLP的提升数据库敏感数据识别率的方法，其特征在于：至少包括如下步骤：

2.根据权利要求1所述的方法，其特征在于：所述NLP处理模块中的功能模块包括干扰因素过滤组件、分词组件和语义分析组件；所述NLP处理模块主要负责对原始数据中的中英文进行干扰因素过滤、分词、语义分析处理，得到处理后的数据。

3.根据权利要求2所述的方法，其特征在于：所述干扰因素过滤组件实施步骤如下：

4.根据权利要求3所述的方法，其特征在于：针对英文字符串中的特殊符号包括横杠、@符号和空格中的一种或者多种；针对中文中的特殊符号包括空格、回车和分页符中的一种或者多种。

5.根据权利要求3或者4所述的方法，其特征在于：所述分词组件实施步骤如下：

6.根据权利要求5所述的方法，其特征在于：所述语义分析组件实施步骤如下：

【技术特征摘要】

1.一种基于nlp的提升数据库敏感数据识别率的方法，其特征在于：至少包括如下步骤：

2.根据权利要求1所述的方法，其特征在于：所述nlp处理模块中的功能模块包括干扰因素过滤组件、分词组件和语义分析组件；所述nlp处理模块主要负责对原始数据中的中英文进行干扰因素过滤、分词、语义分析处理，得到处理后的数据。

3.根据权利要求2所述的方法，其特征在于：所述干扰因...

【专利技术属性】
技术研发人员：陈承铨，王伟，胡烜，林荣杰，
申请(专利权)人：中电福富信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人