一种基于半监督学习的文本敏感信息识别方法技术

技术编号：15724896 阅读：52 留言：0更新日期：2017-06-29 11:28

本发明专利技术涉及信息安全技术领域，公开了一种基于半监督学习的文本敏感信息识别方法。包括以下过程：步骤1、基于有标注的敏感文档集和未标注的未知文档集中的学习样本，进行半监督学习，得到分类策略知识库；步骤2、对于待检测的文档进行中文分词和去停词处理，得到该文档中的特征元数据；步骤3、用特征向量对特征元数据进行表示，并提取特征值；步骤4、用分类策略知识库对特征值进行敏感文档性质判断，给出为敏感文档或安全文档的判断结果。本发明专利技术对少量敏感文档进行标注，对大量未知的文档集进行半监督学习，提高了敏感信息识别的可扩展能力和实用性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于半监督学习的文本敏感信息识别方法
本专利技术涉及信息安全
，特别是一种基于半监督学习的文本敏感信息识别方法。
技术介绍
对于现代社会而言，数据是企业的资产，数据是人们的隐私，更是众多行业核心竞争力的体现。对企业的关键敏感数据进行有效保护，就能使企业自身在激烈的商业竞争中立于不败之地；对个人敏感信息进行保护，就能防止其泄露产生社会危害。因此近些年来催生了对敏感数据识别的火热研究。该问题涉及文本挖掘和信息安全等多个领域，是数据安全产品数据防护泄漏DLP(DataLeakagePrevention)的核心技术。现有的敏感信息识别方法包括基础检测技术和高级检测技术两类。基础检查技术包括正则表达式检测、关键字匹配以及文档属性判别等方法；高级检测技术包括精确数据对比(EDM)、指纹文档对比(IDM)等方法。但是这些方法无一例外需要依赖专家搜集的敏感信息数据集，首先通过对这个数据集进行抽象、分析以及学习形成先验知识(敏感词集或其它)，然后利用这些先验知识来判别未知样本的敏感程度。在这个过程中，被用于学习的敏感信息数据集合必须尽可能真实完整的反应所属问题域的敏感信息，否则算法的准确性就会大打折扣。然而现实情况是，标注文档性质的人工成本较高，大量的未知文档更易获取，我们很难得到这样一个完备的敏感数据集，导致这些方法的使用受到了限制。由此可见，目前的敏感信息识别方法还存在问题，亟待提出一种解决上述问题的方案。
技术实现思路
本专利技术所要解决的技术问题是：针对上述存在的问题，提供了一种基于半监督学习的文本敏感信息识别方法。本专利技术采用的技术方案如下：一种基于半监督...

【技术保护点】
一种基于半监督学习的文本敏感信息识别方法，其特征在于,包括以下过程：步骤1、基于有标注的敏感文档集和未标注的未知文档集中的学习样本，进行半监督学习，得到分类策略知识库；步骤2、对于待检测的文档进行中文分词和去停词处理，得到该文档中的特征元数据；步骤3、用特征向量对特征元数据进行表示，并提取特征值；步骤4、用分类策略知识库对特征值进行敏感文档性质判断，给出为敏感文档或安全文档的判断结果。

【技术特征摘要】
2016.12.14 CN 20161115319061.一种基于半监督学习的文本敏感信息识别方法，其特征在于,包括以下过程：步骤1、基于有标注的敏感文档集和未标注的未知文档集中的学习样本，进行半监督学习，得到分类策略知识库；步骤2、对于待检测的文档进行中文分词和去停词处理，得到该文档中的特征元数据；步骤3、用特征向量对特征元数据进行表示，并提取特征值；步骤4、用分类策略知识库对特征值进行敏感文档性质判断，给出为敏感文档或安全文档的判断结果。2.如权利要求1所述的基于半监督学习的文本敏感信息识别方法，其特征在于,所述步骤1中，半监督学习过程为：步骤11、构造敏感文档集和未知文档集；步骤12、根据敏感文档集中的样本训练分类器，获取分类器；步骤13、构造未知文档集的子集U’，利用分类器进行子集U’中文档X′的类别判断；步骤14、若类别判断文档X′为敏感文档，则将文档X′标注加入敏感文档集中，如果类别判断文档X′为安全文档，则从未知文档集中删除文档X′...

【专利技术属性】
技术研发人员：梁玲玲，
申请(专利权)人：中国电子科技集团公司第三十研究所，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人