一种基于改进朴素贝叶斯的涉密文本识别方法技术

技术编号:20025965 阅读:24 留言:0更新日期:2019-01-06 04:47
本发明专利技术公开了一种基于改进朴素贝叶斯的涉密文本识别方法,包括以下步骤:S1.构建朴素贝叶斯模型并进行增量式学习;S2.加载增量式学习得到的朴素贝叶斯模型;S3.读取待识别的文本;S4.利用朴素贝叶斯模型对文本进行识别,并标注其对应的密级。本发明专利技术中,基于朴素贝叶斯加权模型使得学习更加合理,并提出了特征权重的增量学习方案,能够大幅提升涉密文本检测的准确率;基于涉密特征空间改变的进行增量学习,简单有效地解决了有新的涉密特征加入或者有旧的涉密特征的密级下降的问题。

【技术实现步骤摘要】
一种基于改进朴素贝叶斯的涉密文本识别方法
本专利技术涉及涉密文本识别,特别是涉及一种基于改进朴素贝叶斯的涉密文本识别方法。
技术介绍
随着信息技术的发展,能够实现大量的综合办公、科研生产业务的信息系统逐渐出现在社会生活和工作中,信息系统中存储着大量的敏感数据和信息。如何防止涉密信息通过互联网泄露到外界,是当前迫切希望解决的问题。涉密文本的自动检测是解决上述问题的有效技术手段。根据Bell_Lapadula模型,当前的涉密信息一般分为公开、秘密、机密和绝密四个等级。当涉密文本在网络上的进行交换流转时(例如公文、电子邮件等),该技术能够有效检测出该文本所属的密级。当检测出该文本的密级后,再与用户自己标定的密级标签进行对比,就能发现该涉密文本的信息流转是否合法。举例来说,如果用户将该文本信息标注为“公开”,而自动检测算法检测出的密级是“机密”,那么即可判定该行为属于不合法。朴素贝叶斯(Bayes)是目前文本检测领域的主流方法之一。但是,基于朴素贝叶斯实现涉密文本的自动检测需要解决两大难题:(1)由于涉密文件的特殊性(不能随意查看),难以获得完备的标注样本对朴素贝叶斯模型进行学习;(2)文本中的涉密特征(即涉密的关键词)会随着时间迁移而发生变化,有些以前不涉密的关键词会成为新涉密特征;而有些以前是涉密特征的词,它的密级可能随着时间会逐渐降低,目前还没有方法能够解决该问题。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于改进朴素贝叶斯的涉密文本识别方法。本专利技术的目的是通过以下技术方案来实现的:一种基于改进朴素贝叶斯的涉密文本识别方法,其特征在于:包括以下步骤:S1.构建朴素贝叶斯模型并进行增量式学习;S2.加载增量式学习得到的朴素贝叶斯模型;S3.读取待识别的文本;S4.利用朴素贝叶斯模型对文本进行识别,并标注其对应的密级。进一步地,所述涉密文本识别方法还包括识别结果上传步骤:将步骤S4的识别结果上传到统一的控制中心。进一步地,所述步骤S1包括以下子步骤:S101.构建朴素贝叶斯模型对带有用户标注标签的样本进行识别;S102.统一控制中心管理员将识别出的标签与用户标注的标签进行对比,如果是识别错误的,就将该样本及其正确标签加入到样本库;S103.构建朴素贝叶斯加权模型;S104.涉密特征空间中有新的涉密特征加入或者有旧的涉密特征密级发生变化时,基于涉密特征空间改变的进行增量学习;S105.根据样本库和涉密特征库的变化进行增量式学习;S106.将学习后的模型写入到朴素贝叶斯模型中,并通知系统进行重新加载。更近一步地,所述步骤S101包括:第一、构建朴素贝叶斯模型:设涉密文本的样本空间D由特征空间W={w1,w2,…,wn}和类别空间C={c1,c2,…,cm}组成;样本空间D即文本中包含的词,类别空间C即涉密文本的密级;对一个给定文本d={w1,w2,…,wl},朴素贝叶斯模型通过计算该文本属于各类别的后验概率,对其所属类别进行判别;哪个类别的后验概率大,该文本的检测结果就是对应的那个类别,判别式如下:其中P(ci)表示类别的先验概率;P(wj|ci)表示在类别ci条件下,特征wj出现的概率:其中|C|、|D|和|W|分别表示类别空间、样本空间和特征空间的大小;count(ci)表示属于类别ci的样本数,表示在类别ci中出现特征wj的样本数;第二、利用朴素贝叶斯模型对带有用户标注标签的样本进行识别,得到各个样本的识别结果。所述步骤S103包括:第一、构建朴素贝叶斯加权模型:λj,i表示特征空间中第j个特征属于第i个类别的权重,按照Bell_Lapadula模型,每个特征都有4个权重,分别对应公开、秘密、机密和绝密:其中TFi(wj)是文本特征wj在ci类别文本中出现的词频;IDFi(wj)是改进的逆文档频率;文本特征在类内文档数越大,在其它类中出现的文档数越小,则其权重越大。所述步骤S104包括:涉密特征空间中有新的涉密特征加入或者有旧的涉密特征密级发生变化时,新特征加入的情况:首先从与新特征同类别的其它特征中选择P(tj|ci)值最大的特征,将其所有信息均拷贝给新特征,按照步骤S103对所有特征在该类别下的权重λj,i和条件概率P(wj|ci)进行重新估计;然后从与新特征不同类别的其它特征中选择P(tj|ci)值最小的特征,将其所有信息均拷贝给新特征,然后按照步骤S103对所有特征在该类别下的权重λj,i和条件概率P(wj|ci)进行重新估计;对于旧特征涉密特征密级发生变化的情况同理,首先从与变化特征同类别的其它特征中选择P(tj|ci)值最大的特征,将其所有信息均拷贝给变换特征,按照步骤S103对所有特征在该类别下的权重λj,i和条件概率P(wj|ci)进行重新估计;然后从与变换特征不同类别的其它特征中选择P(tj|ci)值最小的特征,将其所有信息均拷贝给变换特征,然后按照步骤S103对所有特征在该类别下的权重λj,i和条件概率P(wj|ci)进行重新估计。所述步骤S105包括:特征权重在样本空间和特征空间两个维度实现增量学习:其中TF′i(·)和count'(·)均表示在样本增量集上的统计结果;基于特征权重的增量学习,得到P(ci)和P(wj|ci)的增量学习结果:本专利技术的有益效果是:基于朴素贝叶斯加权模型使得学习更加合理,并提出了特征权重的增量学习方案,能够大幅提升涉密文本检测的准确率;基于涉密特征空间改变的进行增量学习,简单有效地解决了有新的涉密特征加入或者有旧的涉密特征的密级下降的问题。附图说明图1为本专利技术的方法流程图;图2为朴素贝叶斯模型进行增量式学习的流程图。具体实施方式下面结合附图进一步详细描述本专利技术的技术方案,但本专利技术的保护范围不局限于以下所述。如图1所示,一种基于改进朴素贝叶斯的涉密文本识别方法,包括以下步骤:S1.构建朴素贝叶斯模型并进行增量式学习;S2.加载增量式学习得到的朴素贝叶斯模型;S3.读取待识别的文本;S4.利用朴素贝叶斯模型对文本进行识别,并标注其对应的密级。在本申请的实施例中,所述涉密文本识别方法还包括识别结果上传步骤:将步骤S4的识别结果上传到统一的控制中心。如图2所述,所述步骤S1包括以下子步骤:S101.构建朴素贝叶斯模型对带有用户标注标签的样本进行识别;S102.统一控制中心管理员将识别出的标签与用户标注的标签进行对比,如果是识别错误的,就将该样本及其正确标签加入到样本库;S103.构建朴素贝叶斯加权模型;S104.涉密特征空间中有新的涉密特征加入或者有旧的涉密特征密级发生变化时,基于涉密特征空间改变的进行增量学习;S105.根据样本库和涉密特征库的变化进行增量式学习;S106.将学习后的模型写入到朴素贝叶斯模型中,并通知系统进行重新加载。其中,所述步骤S101包括:第一、构建朴素贝叶斯模型:设涉密文本的样本空间D由特征空间W={w1,w2,…,wn}和类别空间C={c1,c2,…,cm}组成;样本空间D即文本中包含的词,类别空间C即涉密文本的密级;对一个给定文本d={w1,w2,…,wl},朴素贝叶斯模型通过计算该文本属于各类别的后验概率,对其所属类别进行判别;哪个类别的后验概率大,该文本的检测结果就是对应的那个类别,判别式如下:其中P(ci本文档来自技高网...

【技术保护点】
1.一种基于改进朴素贝叶斯的涉密文本识别方法,其特征在于:包括以下步骤:S1.构建朴素贝叶斯模型并进行增量式学习;S2.加载增量式学习得到的朴素贝叶斯模型;S3.读取待识别的文本;S4.利用朴素贝叶斯模型对文本进行识别,并标注其对应的密级。

【技术特征摘要】
1.一种基于改进朴素贝叶斯的涉密文本识别方法,其特征在于:包括以下步骤:S1.构建朴素贝叶斯模型并进行增量式学习;S2.加载增量式学习得到的朴素贝叶斯模型;S3.读取待识别的文本;S4.利用朴素贝叶斯模型对文本进行识别,并标注其对应的密级。2.根据权利要求1所述的一种基于改进朴素贝叶斯的涉密文本识别方法,其特征在于:还包括识别结果上传步骤:将步骤S4的识别结果上传到统一的控制中心。3.根据权利要求1所述的一种基于改进朴素贝叶斯的涉密文本识别方法,其特征在于:所述步骤S1包括以下子步骤:S101.构建朴素贝叶斯模型对带有用户标注标签的样本进行识别;S102.统一控制中心管理员将识别出的标签与用户标注的标签进行对比,如果是识别错误的,就将该样本及其正确标签加入到样本库;S103.构建朴素贝叶斯加权模型;S104.涉密特征空间中有新的涉密特征加入或者有旧的涉密特征密级发生变化时,基于涉密特征空间改变的进行增量学习;S105.根据样本库和涉密特征库的变化进行增量式学习;S106.将学习后的模型写入到朴素贝叶斯模型中,并通知系统进行重新加载。4.根据权利要求3所述的一种基于改进朴素贝叶斯的涉密文本识别方法,其特征在于:所述步骤S101包括:第一、构建朴素贝叶斯模型:设涉密文本的样本空间D由特征空间W={w1,w2,…,wn}和类别空间C={c1,c2,…,cm}组成;样本空间D即文本中包含的词,类别空间C即涉密文本的密级;对一个给定文本d={w1,w2,…,wl},朴素贝叶斯模型通过计算该文本属于各类别的后验概率,对其所属类别进行判别;哪个类别的后验概率大,该文本的检测结果就是对应的那个类别,判别式如下:其中P(ci)表示类别的先验概率;P(wj|ci)表示在类别ci条件下,特征wj出现的概率:其中|C|、|D|和|W|分别表示类别空间、样本空间和特征空间的大小;count(ci)表示属于类别ci的样本数,count(wj∧ci)表示在类别ci中出现特征wj的样本数;第二、利用朴素贝叶斯模型对带有用户标注标签的样本进行识...

【专利技术属性】
技术研发人员:敬思远杨骏孙锐郭肇毅
申请(专利权)人:乐山师范学院
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1