一种基于NLP的涉密屏蔽方法技术

技术编号：38085412 阅读：30 留言：0更新日期：2023-07-06 08:53

本发明专利技术公开了一种基于NLP的涉密屏蔽方法，属于电数字数据处理技术领域，本发明专利技术中先根据标点符号将待识别文字语句划分为多个短句，并将每个短句进行分词处理，得到短句词组，再将得到的短句词组进行向量化处理，得到词组矩阵，采用特征提取模型提取词组矩阵的特征，减少数据量，依次计算每个待识别特征和涉密文字语句中所有涉密特征的相似程度值，从而得到待识别文字语句和涉密文字语句的相似度，实现文字语句的全面对比，提高语句屏蔽精度。提高语句屏蔽精度。提高语句屏蔽精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于NLP的涉密屏蔽方法

[0001]本专利技术涉及电数字数据处理
，具体涉及一种基于NLP的涉密屏蔽方法。

技术介绍

[0002]随着网络的迅速发展，个人言论可借助互联网的平台进行发布，使得企业的涉密信息容易遭到泄露，对于企业造成不可挽回的损失。因此，为了限制个人在网络上发表不利于他人的言论，现有自然语言处理NLP可用于自动屏蔽不当言论。
[0003]现有自然语言屏蔽方法通过标注敏感词的方式，构建训练样本集，再用训练样本集训练神经网络，采用训练后的神经网络进行分类，从而区分该自然语言是否包含敏感词或者非敏感词。现有自然语言屏蔽方法的分类精度取决于敏感词，在存在敏感词时其屏蔽精度较高，但对于语句屏蔽精度较低。

技术实现思路

[0004]针对现有技术中的上述不足，本专利技术提供的一种基于NLP的涉密屏蔽方法解决了现有自然语言屏蔽方法存在语句屏蔽精度较低的问题。
[0005]为了达到上述专利技术目的，本专利技术采用的技术方案为：一种基于NLP的涉密屏蔽方法，包括以下步骤：
[00...

【技术保护点】

【技术特征摘要】
1.一种基于NLP的涉密屏蔽方法，其特征在于，包括以下步骤：S1、将待识别文字语句和涉密文字语句分别根据标点符号划分为多个短句，并将每个短句进行分词处理，得到待识别短句词组和涉密短句词组；S2、将待识别短句词组和涉密短句词组分别进行向量化处理，得到待识别词组矩阵和涉密词组矩阵；S3、采用特征提取模型分别提取待识别词组矩阵和涉密词组矩阵的特征，得到待识别特征和涉密特征；S4、根据待识别特征和涉密特征的相似程度值，计算待识别文字语句和涉密文字语句的相似度，在相似度大于相似阈值时，待识别文字语句为涉密信息，剔除待识别文字语句。2.根据权利要求1所述的基于NLP的涉密屏蔽方法，其特征在于，所述S3中特征提取模型包括：第一卷积特征提取网络（1）、第二卷积特征提取网络（2）、第三卷积特征提取网络（3）、特征融合单元（4）、第一时间递归网络和第二时间递归网络；所述第一卷积特征提取网络（1）的输入端分别与第二卷积特征提取网络（2）的输入端、第三卷积特征提取网络（3）的输入端和特征融合单元（4）的第四输入端连接，并作为特征提取模型的输入端，用于输入待识别词组矩阵或涉密词组矩阵；所述特征融合单元（4）的第一输入端与第一卷积特征提取网络（1）的输出端连接，其第二输入端与第二卷积特征提取网络（2）的输出端连接，其第三输入端与第三卷积特征提取网络（3）的输出端连接，其输出端与第一时间递归网络的输入端连接；所述第一时间递归网络的输出端与第二时间递归网络的输入端连接；所述第二时间递归网络的输出端作为特征提取模型的输出端。3.根据权利要求2所述的基于NLP的涉密屏蔽方法，其特征在于，每个所述卷积特征提取网络均包括：卷积层、全局平均池化层、全局最大池化层和Concat层；所述卷积层的输入端作为卷积特征提取网络的输入端，其输出端分别与全局平均池化层的输入端和全局最大池化层的输入端连接；所述Concat层的输入端分别与全局平均池化层的输出端和全局最大池化层的输出端连接，其输出端作为卷积特征提取网络的输出端。4.根据权利要求2所述的基于...

【专利技术属性】
技术研发人员：李飞，陈妙波，
申请(专利权)人：四川易景智能终端有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人