一种基于改进朴素贝叶斯的涉密文本识别方法技术

技术编号：20025965 阅读：24 留言：0更新日期：2019-01-06 04:47

本发明专利技术公开了一种基于改进朴素贝叶斯的涉密文本识别方法，包括以下步骤：S1.构建朴素贝叶斯模型并进行增量式学习；S2.加载增量式学习得到的朴素贝叶斯模型；S3.读取待识别的文本；S4.利用朴素贝叶斯模型对文本进行识别，并标注其对应的密级。本发明专利技术中，基于朴素贝叶斯加权模型使得学习更加合理，并提出了特征权重的增量学习方案，能够大幅提升涉密文本检测的准确率；基于涉密特征空间改变的进行增量学习，简单有效地解决了有新的涉密特征加入或者有旧的涉密特征的密级下降的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进朴素贝叶斯的涉密文本识别方法
本专利技术涉及涉密文本识别，特别是涉及一种基于改进朴素贝叶斯的涉密文本识别方法。
技术介绍
随着信息技术的发展，能够实现大量的综合办公、科研生产业务的信息系统逐渐出现在社会生活和工作中，信息系统中存储着大量的敏感数据和信息。如何防止涉密信息通过互联网泄露到外界，是当前迫切希望解决的问题。涉密文本的自动检测是解决上述问题的有效技术手段。根据Bell_Lapadula模型，当前的涉密信息一般分为公开、秘密、机密和绝密四个等级。当涉密文本在网络上的进行交换流转时(例如公文、电子邮件等)，该技术能够有效检测出该文本所属的密级。当检测出该文本的密级后，再与用户自己标定的密级标签进行对比，就能发现该涉密文本的信息流转是否合法。举例来说，如果用户将该文本信息标注为“公开”，而自动检测算法检测出的密级是“机密”，那么即可判定该行为属于不合法。朴素贝叶斯(Bayes)是目前文本检测领域的主流方法之一。但是，基于朴素贝叶斯实现涉密文本的自动检测需要解决两大难题：(1)由于涉密文件的特殊性(不能随意查看)，难以获得完备的标注样本对朴素贝叶斯模型进行学习；(2)文本中的涉密特征(即涉密的关键词)会随着时间迁移而发生变化，有些以前不涉密的关键词会成为新涉密特征；而有些以前是涉密特征的词，它的密级可能随着时间会逐渐降低，目前还没有方法能够解决该问题。
技术实现思路
本专利技术的目的在于克服现有技术的不足，提供一种基于改进朴素贝叶斯的涉密文本识别方法。本专利技术的目的是通过以下技术方案来实现的：一种基于改进朴素贝叶斯的涉密文本识别方法，其特征在于：...

【技术保护点】
1.一种基于改进朴素贝叶斯的涉密文本识别方法，其特征在于：包括以下步骤：S1.构建朴素贝叶斯模型并进行增量式学习；S2.加载增量式学习得到的朴素贝叶斯模型；S3.读取待识别的文本；S4.利用朴素贝叶斯模型对文本进行识别，并标注其对应的密级。

【技术特征摘要】
1.一种基于改进朴素贝叶斯的涉密文本识别方法，其特征在于：包括以下步骤：S1.构建朴素贝叶斯模型并进行增量式学习；S2.加载增量式学习得到的朴素贝叶斯模型；S3.读取待识别的文本；S4.利用朴素贝叶斯模型对文本进行识别，并标注其对应的密级。2.根据权利要求1所述的一种基于改进朴素贝叶斯的涉密文本识别方法，其特征在于：还包括识别结果上传步骤：将步骤S4的识别结果上传到统一的控制中心。3.根据权利要求1所述的一种基于改进朴素贝叶斯的涉密文本识别方法，其特征在于：所述步骤S1包括以下子步骤：S101.构建朴素贝叶斯模型对带有用户标注标签的样本进行识别；S102.统一控制中心管理员将识别出的标签与用户标注的标签进行对比，如果是识别错误的，就将该样本及其正确标签加入到样本库；S103.构建朴素贝叶斯加权模型；S104.涉密特征空间中有新的涉密特征加入或者有旧的涉密特征密级发生变化时，基于涉密特征空间改变的进行增量学习；S105.根据样本库和涉密特征库的变化进行增量式学习；S106.将学习后的模型写入到朴素贝叶斯模型中，并通知系统进行重新加载。4.根据权利要求3所述的一种基于改进朴素贝叶斯的涉密文本识别方法，其特征在于：所述步骤S101包括：第一、构建朴素贝叶斯模型：设涉密文本的样本空间D由特征空间W＝{w1,w2,…,wn}和类别空间C＝{c1,c2,…,cm}组成；样本空间D即文本中包含的词，类别空间C即涉密文本的密级；对一个给定文本d＝{w1,w2,…,wl}，朴素贝叶斯模型通过计算该文本属于各类别的后验概率，对其所属类别进行判别；哪个类别的后验概率大，该文本的检测结果就是对应的那个类别，判别式如下：其中P(ci)表示类别的先验概率；P(wj|ci)表示在类别ci条件下，特征wj出现的概率：其中|C|、|D|和|W|分别表示类别空间、样本空间和特征空间的大小；count(ci)表示属于类别ci的样本数，count(wj∧ci)表示在类别ci中出现特征wj的样本数；第二、利用朴素贝叶斯模型对带有用户标注标签的样本进行识...

【专利技术属性】
技术研发人员：敬思远，杨骏，孙锐，郭肇毅，
申请(专利权)人：乐山师范学院，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人