敏感词汇识别方法及系统技术方案

技术编号:42436121 阅读:41 留言:0更新日期:2024-08-16 16:46
本发明专利技术提出一种敏感词汇识别方法,包括:S1:输入文本到基础敏感词识别模型得到中间矩阵;S2:将中间矩阵输入敏感信息提取模块,变换得到和;S3:将和输入位置信息增强模块,得到四维矩阵;S4:将输入敏感信息筛选模块,得到筛选后的矩阵;S5:将筛选后的矩阵输入CRF层得到每个字的概率;S6:提取S2‑S4步的损失值,提高其在整体损失值中的比重。S7:通过敏感词识别模型模型进行迭代训练,保存精度最高的模型,进行词汇类别预测。本发明专利技术方法可提高敏感词汇的识别准确率。

【技术实现步骤摘要】

本专利技术属于敏感词汇识别领域,特别涉及一种敏感词汇识别方法及系统


技术介绍

1、商业机构持有大量敏感信息,包括情报、基础设施、产业运营等方面的数据,数据的安全保护是维护国家安全的一部分。这些敏感数据一旦泄露会对相关的部门产生一系列严重的后果。而如何有效识别敏感数据是其中最为关键的一步。

2、当前敏感信息识别的主流思想是应用深度神经网络对敏感信息进行识别。但是相关方法只是套用了神经网络框架,并没有充分考虑词汇在文中的敏感性语义问题,导致敏感信息的识别准确率不高。


技术实现思路

1、为解决上述技术问题,本专利技术提供一种敏感词汇识别方法,包括如下步骤:

2、步骤s1:构建bert-wwm+bilstm+crf基础敏感词识别模型,引入预训练模型bert-wwm中的先验知识,输入的文本首先通过bert-wwm层得到带有先验知识的字向量编码信息e,将e输入bilstm层,得到中间矩阵,所述中间矩阵具有上下文信息和整体的语义特征;

3、步骤s2:构建敏感性增强信息筛选模块,即sei本文档来自技高网...

【技术保护点】

1.一种敏感词汇识别方法,其特征在于,包括:

2.根据权利要求1所述的敏感词汇识别方法,其特征在于,所述步骤S2:构建敏感性增强信息筛选模块,即SEIF模块,包括:敏感信息提取模块、位置信息增强模块和敏感信息筛选模块;首先将所述中间矩阵输入所述敏感信息提取模块,通过线性层拆分调整和简化注意力机制,将所述中间矩阵映射到与所述简化注意力机制的查询因子和键值因子;并利用小波变换原理进行特征增强运算得到新的查询因子和新的键值因子,具体包括:

3.根据权利要求2所述的敏感词汇识别方法,其特征在于,所述步骤S3:将和输入位置信息增强模块,采用位置增强的方式,引入旋转位置编码,...

【技术特征摘要】

1.一种敏感词汇识别方法,其特征在于,包括:

2.根据权利要求1所述的敏感词汇识别方法,其特征在于,所述步骤s2:构建敏感性增强信息筛选模块,即seif模块,包括:敏感信息提取模块、位置信息增强模块和敏感信息筛选模块;首先将所述中间矩阵输入所述敏感信息提取模块,通过线性层拆分调整和简化注意力机制,将所述中间矩阵映射到与所述简化注意力机制的查询因子和键值因子;并利用小波变换原理进行特征增强运算得到新的查询因子和新的键值因子,具体包括:

3.根据权利要求2所述的敏感词汇识别方法,其特征在于,所述步骤s3:将和输入位置信息增强模块,采用位置增强的方式,引...

【专利技术属性】
技术研发人员:李维静刘延伟商卓逸陈逸飞陈鹏祯
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1