【技术实现步骤摘要】
本专利技术属于敏感词汇识别领域,特别涉及一种敏感词汇识别方法及系统。
技术介绍
1、商业机构持有大量敏感信息,包括情报、基础设施、产业运营等方面的数据,数据的安全保护是维护国家安全的一部分。这些敏感数据一旦泄露会对相关的部门产生一系列严重的后果。而如何有效识别敏感数据是其中最为关键的一步。
2、当前敏感信息识别的主流思想是应用深度神经网络对敏感信息进行识别。但是相关方法只是套用了神经网络框架,并没有充分考虑词汇在文中的敏感性语义问题,导致敏感信息的识别准确率不高。
技术实现思路
1、为解决上述技术问题,本专利技术提供一种敏感词汇识别方法,包括如下步骤:
2、步骤s1:构建bert-wwm+bilstm+crf基础敏感词识别模型,引入预训练模型bert-wwm中的先验知识,输入的文本首先通过bert-wwm层得到带有先验知识的字向量编码信息e,将e输入bilstm层,得到中间矩阵,所述中间矩阵具有上下文信息和整体的语义特征;
3、步骤s2:构建敏感性增强信
...【技术保护点】
1.一种敏感词汇识别方法,其特征在于,包括:
2.根据权利要求1所述的敏感词汇识别方法,其特征在于,所述步骤S2:构建敏感性增强信息筛选模块,即SEIF模块,包括:敏感信息提取模块、位置信息增强模块和敏感信息筛选模块;首先将所述中间矩阵输入所述敏感信息提取模块,通过线性层拆分调整和简化注意力机制,将所述中间矩阵映射到与所述简化注意力机制的查询因子和键值因子;并利用小波变换原理进行特征增强运算得到新的查询因子和新的键值因子,具体包括:
3.根据权利要求2所述的敏感词汇识别方法,其特征在于,所述步骤S3:将和输入位置信息增强模块,采用位置增强的方式
...【技术特征摘要】
1.一种敏感词汇识别方法,其特征在于,包括:
2.根据权利要求1所述的敏感词汇识别方法,其特征在于,所述步骤s2:构建敏感性增强信息筛选模块,即seif模块,包括:敏感信息提取模块、位置信息增强模块和敏感信息筛选模块;首先将所述中间矩阵输入所述敏感信息提取模块,通过线性层拆分调整和简化注意力机制,将所述中间矩阵映射到与所述简化注意力机制的查询因子和键值因子;并利用小波变换原理进行特征增强运算得到新的查询因子和新的键值因子,具体包括:
3.根据权利要求2所述的敏感词汇识别方法,其特征在于,所述步骤s3:将和输入位置信息增强模块,采用位置增强的方式,引...
【专利技术属性】
技术研发人员:李维静,刘延伟,商卓逸,陈逸飞,陈鹏祯,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。