【技术实现步骤摘要】
本专利技术涉及网络信息安全,具体是一种基于nlp提高敏感数据识别率的方法。
技术介绍
1、数据安全一般指通过采取必要措施确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。数据安全应保证数据生产、存储、传输、访问、使用、销毁、公开等全过程的安全,并保证数据处理过程的保密性、完整性、可用性。例如个人姓名、联系方式、家庭住址、车辆登记、社交媒体等。这些虽然都是非实体隐含数据,但往往涉及个人隐私,甚至可能造成实时定位等公共安全问题。
2、目前,对从大量文本中定位出敏感信息,数据识别和定位通常采用关键字字典映射、正则表达式匹配,甚至是人工标识。这些方法对于文本量小的数据来说或许有效,但对于大量文本,或者敏感数据掺杂在文本之中,系统往往不能精准识别到。
技术实现思路
1、为了解决上述技术问题,本专利技术的目的在于提供一种基于nlp提高敏感数据识别率的方法,该方法优化一般识别流程,对原始数据进行干扰因素过滤、分词、语义分析等处理,加强数据识别过程中对中英文敏感数据的提炼和
...【技术保护点】
1.一种基于NLP提高敏感数据识别率的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于NLP提高敏感数据识别率的方法,其特征在于,NLP处理模块中的功能模块包括干扰因素过滤组件、分词组件和语义分析组件;
3.根据权利要求2所述的一种基于NLP提高敏感数据识别率的方法,其特征在于,所述干扰因素过滤组件主要针对英文字符串,先过滤处理英文字符中的特殊符号,并按照驼峰命名方法处理过滤后的字符,形成英文字符串;针对中文,先过滤处理中文字符中的特殊符号,形成中文字符串;判断过滤后数据的长度是否超过阈值,若未超过阈值,当前流程结束,输出过滤
...【技术特征摘要】
1.一种基于nlp提高敏感数据识别率的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于nlp提高敏感数据识别率的方法,其特征在于,nlp处理模块中的功能模块包括干扰因素过滤组件、分词组件和语义分析组件;
3.根据权利要求2所述的一种基于nlp提高敏感数据识别率的方法,其特征在于,所述干扰因素过滤组件主要针对英文字符串,先过滤处理英文字符中的特殊符号,并按照驼峰命名方法处理过滤后的字符,形成英文字符串;针对中文,先过滤处理中文字符中的特殊符号,形成中文字符串;判断过滤后数据的长度是否超过阈值,若未超过阈值,当前流程结束,输出过滤结果;若数据长度超过阈值;传递数据到分词组件。
4.根据权利要求3所述的一种基于nlp提高敏感数据识别率的方法,其特征在于,所述英文字符串中的特殊符号包括-、@符号和空格中的一种或者多种。
【专利技术属性】
技术研发人员:李志豪,王奕淳,
申请(专利权)人:中国农业银行股份有限公司湖北省分行,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。