基于自然语义的敏感文本识别方法和装置制造方法及图纸

技术编号：24331218 阅读：88 留言：0更新日期：2020-05-29 19:40

一种基于自然语义的敏感文本识别方法和装置，其中方法包括：获取海量语料词向量库；对样本文档进行分词；对样本文档进行逐词向量化，修正所述海量语料向量库，建立小语料词向量库；对样本文档进行向量化分析，提取样本文档指纹特征；对待测文档依序进行分词、逐词向量化、以及文档向量化分析，得到其指纹特征；对待测文档与样本文档进行指纹特征对比，识别出敏感的待测文档。该方法和装置具有漏报率低，不易被规避，识别效率高等优点。

全部详细技术资料下载

【技术实现步骤摘要】
基于自然语义的敏感文本识别方法和装置
本专利技术涉及计算机信息处理领域，特别涉及一种基于自然语义特征的敏感文本识别技术。
技术介绍
传统基于关键字的敏感文件识别方法，优势是策略设置简单、直观，另一方面也存在误、漏报率较高的缺点，且易于规避；而基于文件哈希的敏感文件识别方法，优势是处理速度快，缺点则是因微小扰动，如修改段落顺序或修改文字表达，造成雪崩效应而导致漏报，并且无法从语义内涵的角度真正判别文档间的相似性。另外，传统方法往往限于流量和性能的瓶颈，无法在快速识别和高准确率低误报、漏报率间达到平衡。
技术实现思路
本公开提供一种基于自然语义的敏感文本识别方法和装置，其能够实现从语义内涵的角度判别文档间的相似性，误漏报率低且不易被规避，同时具有较高的处理效率。本公开提供一种基于自然语义的敏感文本识别方法，包括以下步骤：获取基于自然语料的海量语料词向量库；对样本文档进行分词；对样本文档进行逐词向量化，修正所述海量语料向量库，建立基于样本文档中生词的小语料词向量库；基于修正后的所述海量语料词向量库和小语料词向量库，对样本文档进行向量化分析，提取样本文档指纹特征；对待测文档依序进行分词、逐词向量化、以及文档向量化分析，得到其指纹特征；对待测文档与样本文档进行指纹特征对比，识别出敏感的待测文档。可选的，所述获取基于自然语料的海量语料词向量库的方法包括：使用自然语言处理模型，对自然语料库进行训练，得到所述海量语料词向量库。...

【技术保护点】
1.一种基于自然语义的敏感文本识别方法，其特征在于，包括以下步骤：/n获取基于自然语料的海量语料词向量库；/n对样本文档进行分词；/n对样本文档进行逐词向量化，修正所述海量语料词向量库，建立基于样本文档中生词的小语料词向量库；/n基于修正后的所述海量语料词向量库和小语料词向量库，对样本文档进行向量化分析，提取样本文档指纹特征；/n对待测文档依序进行分词、逐词向量化、以及文档向量化分析，得到其指纹特征；/n对待测文档与样本文档进行指纹特征对比，识别出敏感的待测文档。/n

【技术特征摘要】
1.一种基于自然语义的敏感文本识别方法，其特征在于，包括以下步骤：
获取基于自然语料的海量语料词向量库；
对样本文档进行分词；
对样本文档进行逐词向量化，修正所述海量语料词向量库，建立基于样本文档中生词的小语料词向量库；
基于修正后的所述海量语料词向量库和小语料词向量库，对样本文档进行向量化分析，提取样本文档指纹特征；
对待测文档依序进行分词、逐词向量化、以及文档向量化分析，得到其指纹特征；
对待测文档与样本文档进行指纹特征对比，识别出敏感的待测文档。

2.根据权利要求1所述的敏感文本识别方法，其特征在于，所述获取基于自然语料的海量语料词向量库的方法包括：
使用自然语言处理模型，对自然语料库进行训练，得到所述海量语料词向量库。

3.根据权利要求1所述的敏感文本识别方法，其特征在于，所述对样本文档进行逐词向量化，修正所述海量语料词向量库，建立基于样本文档中生词的小语料词向量库，包括：
将样本文档分词后得到的所有词汇作为输入，逐个在所述海量语料词向量库中定位该词的词向量；
依据该词与样本文档中其他词之间的关系，修正该词的词向量；
不在所述海量语料词向量库里的生词，根据该词所在文档上下文进行词向量分析，得到词向量，保存至小语料词向量库，并随新词的加入不断更新所述小语料词向量库。

4.根据权利要求1或2所述的敏感文本识别方法，其特征在于，采用Word2Vec中使用negativesampling优化加速的skip-gram模型，对自然语料库进行训练得到所述海量语料词向量库，或修正所述海量语料词向量库。

【专利技术属性】
技术研发人员：万淼，孙彦芬，王歆怡，陈锦，王禹，
申请(专利权)人：北京启明星辰信息安全技术有限公司，中国信息安全测评中心，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人