基于自然语义的敏感文本识别方法和装置制造方法及图纸

技术编号:24331218 阅读:76 留言:0更新日期:2020-05-29 19:40
一种基于自然语义的敏感文本识别方法和装置,其中方法包括:获取海量语料词向量库;对样本文档进行分词;对样本文档进行逐词向量化,修正所述海量语料向量库,建立小语料词向量库;对样本文档进行向量化分析,提取样本文档指纹特征;对待测文档依序进行分词、逐词向量化、以及文档向量化分析,得到其指纹特征;对待测文档与样本文档进行指纹特征对比,识别出敏感的待测文档。该方法和装置具有漏报率低,不易被规避,识别效率高等优点。

【技术实现步骤摘要】
基于自然语义的敏感文本识别方法和装置
本专利技术涉及计算机信息处理领域,特别涉及一种基于自然语义特征的敏感文本识别技术。
技术介绍
传统基于关键字的敏感文件识别方法,优势是策略设置简单、直观,另一方面也存在误、漏报率较高的缺点,且易于规避;而基于文件哈希的敏感文件识别方法,优势是处理速度快,缺点则是因微小扰动,如修改段落顺序或修改文字表达,造成雪崩效应而导致漏报,并且无法从语义内涵的角度真正判别文档间的相似性。另外,传统方法往往限于流量和性能的瓶颈,无法在快速识别和高准确率低误报、漏报率间达到平衡。
技术实现思路
本公开提供一种基于自然语义的敏感文本识别方法和装置,其能够实现从语义内涵的角度判别文档间的相似性,误漏报率低且不易被规避,同时具有较高的处理效率。本公开提供一种基于自然语义的敏感文本识别方法,包括以下步骤:获取基于自然语料的海量语料词向量库;对样本文档进行分词;对样本文档进行逐词向量化,修正所述海量语料向量库,建立基于样本文档中生词的小语料词向量库;基于修正后的所述海量语料词向量库和小语料词向量库,对样本文档进行向量化分析,提取样本文档指纹特征;对待测文档依序进行分词、逐词向量化、以及文档向量化分析,得到其指纹特征;对待测文档与样本文档进行指纹特征对比,识别出敏感的待测文档。可选的,所述获取基于自然语料的海量语料词向量库的方法包括:使用自然语言处理模型,对自然语料库进行训练,得到所述海量语料词向量库。可选的,所述对样本文档进行逐词向量化,修正所述海量词向量库,建立基于样本文档中生词的小语料词向量库,包括:将样本文档分词后得到的所有词汇作为输入,逐个在所述海量语料词向量库中定位该词的词向量;依据该词与样本文档中其他词之间的关系,修正该词的词向量;不在所述海量语料词向量库里的生词,根据该词所在文档上下文进行词向量分析,得到词向量,保存至小语料词向量库,并随新词的加入不断更新所述小语料词向量库。可选的,采用Word2Vec中使用negativesampling优化加速的skip-gram模型,对自然语料库进行训练得到所述海量语料词向量库,或修正所述海量语料词向量库。可选的,对所述不在海量语料词向量库里的生词,采用Nonce2Vec方法,根据该词所在文档上下文进行词向量分析,得到词向量。可选的,采用SIF算法,基于修正后的所述海量语料词向量库和小语料词向量库,对样本文档进行向量化分析,提取样本文档指纹特征。可选的,所述对待测文档与样本文档进行指纹特征对比,识别出敏感的待测文档,包括:计算待测文档与样本文档指纹的余弦相似度;如果相似度高于门限值,则将当前待测文档归为敏感文档。可选的,所述对待测文档与样本文档进行指纹特征对比,识别出敏感的待测文档之后,还包括:输出被归为敏感文档的待测文档对应的样本文档序号,并完成告警。另一方面,本公开还提供了一种敏感文本识别装置,包括:分词模块,用于对样本文档和待测文档进行中文分词;词向量化模块,用于基于海量语料词向量库,对样本文档进行逐词向量化;文档指纹计算模块,用于分别对样本文档和待测文档进行向量化分析,提取其指纹特征;文档指纹相似度计算模块,用于对待测文档与样本文档进行指纹特征对比,识别出敏感的待测文档。可选的,所述的敏感文本识别装置还包括:自然语料预训练模块,用于对自然语料进行训练,得到海量语料词向量库。本公开提供的基于自然语义的敏感文本识别方法和装置,利用词向量,从自然语义层面生成文档的特征指纹,进而通过指纹的对比,识别出包含了敏感信息的待测文本。该指纹包含了文档的语义和主题信息,难以通过常规手段规避。从而有效降低了误漏报率,同时因为海量语料的预训练以及高效算法的采用,保证了系统具有良好的处理效率。与现有技术相比,本公开的有益效果是:①低漏报率:本专利技术基于语义层面建模,能够识别包括但不限于同义、同类词,语法、句式等语言学信息,即使修改文字表达或段落顺序,也可准确得出文档是否与样本文档相似,阻断了通过修改顺序和表达规避检测。②效率、效果优秀:文档向量化时对生词的训练速度很快,相似度的比对效果优于许多先进的神经网络模型(如一些RNN和LSTM模型)。③跨领域:基于海量中文语料训练的模型涵盖了各行业领域的绝大多数语义信息。④长短文档通适,无论是一万字的论文或几十字的消息均有不俗表现。附图说明通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例方式中,相同的参考标号通常代表相同部件。图1显示根据本公开示例性实施例的敏感文本识别方法流程图。具体实施方式下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。图1显示根据本公开所述基于自然语义的敏感文本识别方法示例性实施例流程图,其中包括:步骤S101:获取基于自然语料的海量语料词向量库;步骤S102:对样本文档进行分词;步骤S103:对样本文档进行逐词向量化,修正所述海量语料向量库,建立基于样本文档中生词的小语料词向量库;步骤S104:基于修正后的所述海量语料词向量库和小语料词向量库,对样本文档进行向量化分析,提取样本文档指纹特征;步骤S105:对待测文档依序进行分词、逐词向量化、以及文档向量化分析,得到其指纹特征;步骤S106:对待测文档与样本文档进行指纹特征对比,识别出敏感的待测文档。在上述示例性实施例中,所述样本文档即为现存已知敏感文件,对文档进行中文分词后,将所有词汇作为输入,依靠自然语言处理模型的语料库,对样本文档输入的词汇进行逐词向量化,再生成用于表征文档的向量,即文档指纹。对于待测文档也是基于同样处理流程,得出待测文档的文档指纹,最终对样本文档和待测文档的指纹相似度进行比较,判定待测文档是否为敏感文件。词向量(wordembedding)是对一个词的向量化表示。本公开基于自然语义进行逐词向量化,能够以自然语料中词语和词语之间的向量关系,表明文档内部的语义特征。例如,语料库中“搜索引擎”一词与“谷歌”或“百度”总是同时出现,那么在词向量化时就将“谷歌”和“百度”映射到比较相近的空间位置上;同时,“谷歌”与“美国”的共现次数更多,那么“谷歌”与其他与“美国”共现词(如“加利福尼亚”、“苹果”)的词向量距离更近,而“百度”则与其他与“中国”共现词的词向量距离更近。由此,对于敏感文件中同义或近义词的替换,如“机密”、“秘密”等都可以准确识别,甚至可以识别表达相近意思的两个句子如“王某将于礼拜天出席某会议”和“本文档来自技高网...

【技术保护点】
1.一种基于自然语义的敏感文本识别方法,其特征在于,包括以下步骤:/n获取基于自然语料的海量语料词向量库;/n对样本文档进行分词;/n对样本文档进行逐词向量化,修正所述海量语料词向量库,建立基于样本文档中生词的小语料词向量库;/n基于修正后的所述海量语料词向量库和小语料词向量库,对样本文档进行向量化分析,提取样本文档指纹特征;/n对待测文档依序进行分词、逐词向量化、以及文档向量化分析,得到其指纹特征;/n对待测文档与样本文档进行指纹特征对比,识别出敏感的待测文档。/n

【技术特征摘要】
1.一种基于自然语义的敏感文本识别方法,其特征在于,包括以下步骤:
获取基于自然语料的海量语料词向量库;
对样本文档进行分词;
对样本文档进行逐词向量化,修正所述海量语料词向量库,建立基于样本文档中生词的小语料词向量库;
基于修正后的所述海量语料词向量库和小语料词向量库,对样本文档进行向量化分析,提取样本文档指纹特征;
对待测文档依序进行分词、逐词向量化、以及文档向量化分析,得到其指纹特征;
对待测文档与样本文档进行指纹特征对比,识别出敏感的待测文档。


2.根据权利要求1所述的敏感文本识别方法,其特征在于,所述获取基于自然语料的海量语料词向量库的方法包括:
使用自然语言处理模型,对自然语料库进行训练,得到所述海量语料词向量库。


3.根据权利要求1所述的敏感文本识别方法,其特征在于,所述对样本文档进行逐词向量化,修正所述海量语料词向量库,建立基于样本文档中生词的小语料词向量库,包括:
将样本文档分词后得到的所有词汇作为输入,逐个在所述海量语料词向量库中定位该词的词向量;
依据该词与样本文档中其他词之间的关系,修正该词的词向量;
不在所述海量语料词向量库里的生词,根据该词所在文档上下文进行词向量分析,得到词向量,保存至小语料词向量库,并随新词的加入不断更新所述小语料词向量库。


4.根据权利要求1或2所述的敏感文本识别方法,其特征在于,采用Word2Vec中使用negativesampling优化加速的skip-gram模型,对自然语料库进行训练得到所述海量语料词向量库,或修正所述海量语料词向量库。

【专利技术属性】
技术研发人员:万淼孙彦芬王歆怡陈锦王禹
申请(专利权)人:北京启明星辰信息安全技术有限公司中国信息安全测评中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1