一种文本涉密检测方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:35038314 阅读:19 留言:0更新日期:2022-09-24 23:15
本发明专利技术公开了一种文本涉密检测方法,通过预先对文本内容进行分词操作,通过获取待检测文本的内容,所述待检测文本的内容形成对应的字符串;根据预设词库通过语义分词对所述字符串进行满足语义的词组切分,形成由切分后的词组组成的文本内容,将所述由切分后的词组组成的文本内容与所述关键词进行匹配,若匹配成功,判定待检测文本涉密,输出提示信息。本发明专利技术简单高效的通过分词技术大大减少了容易产生误报问题的可能性。提供了一种新的对文本内容进行涉密监测的技术手段。提高了检出率同时也提高了性能。提高了性能。提高了性能。

【技术实现步骤摘要】
一种文本涉密检测方法、装置、计算机设备和存储介质


[0001]本申请涉及文本涉密检测
,特别是涉及一种文本涉密检测方法、装置、计算机设备和存储介质。

技术介绍

[0002]在信息安全领域,对文本内容的涉密检测是一个核心功能。其目的为在文件拦截提取后对文件内容进行检查并判定是否涉密。对文件内容判定是否涉密的方法就成为了整个核心功能中核心的核心,所以就需要不断地优化技术方案,使核心功能更完善,更好的为保密监察任务服务。本专利技术从原有技术缺陷分析入手,介绍本专利技术的原理及特点。
[0003]在传统涉密文件处理的过程中通常都使用关键词判定法。所谓关键词检测法即为将有可能产生问题的关键词作为对比规则,比如“机密”这个词就可以作为对比规则。然后通过规则在待检测文本中进行全扫描探测,即在整个文档内容遍历所有字符查找判断是否有相应的规则字符串出现,如果有匹配则返回匹配成功,否则返回匹配失败。匹配成功则意味着有涉密的可能性,需要对客户进行提醒显示。
[0004]上述方案提到这种办法的好处是简单易操作,逻辑流程简单。但同时也有比较大的弊端。比如使用关键词判定法会产生一些误报。比如“机密”,当出现一个词为“手机密码”时这时使用关键词判定规则就会显示匹配成功。但是“手机密码”其实和机密并没有任何关系,这样就有可能产生一些误报,导致报错率上升,用户体验下降。

技术实现思路

[0005]基于此,针对上述技术问题,提供一种文本涉密检测方法、装置、计算机设备和存储介质。
[0006]第一方面,一种文本涉密检测方法,所述方法包括:
[0007]获取待检测文本的内容,所述待检测文本的内容形成对应的字符串;
[0008]根据预设词库通过语义分词对所述字符串进行满足语义的词组切分,形成由切分后的词组组成的文本内容;
[0009],将所述由切分后的词组组成的文本内容与所述关键词进行匹配,若匹配成功,判定待检测文本涉密,输出提示信息。
[0010]上述方案中,可选的,所述获取待检测文本的内容,所述待检测文本的内容形成对应的字符串具体为:通过Tika等解析工具对文件内容进行抽取,所述待检测文本的内容形成对应的字符串。
[0011]上述方案中,进一步可选的,所述待检测文本为Word文档、excel表格、ppt和/或图片格式的文件。
[0012]上述方案中,进一步可选的,所述预设词库包括现有词典中的所有词语。
[0013]第二方面,一种文本涉密检测装置,所述装置包括:
[0014]采集模块:用于获取待检测文本的内容,所述待检测文本的内容形成对应的字符
串;
[0015]分词模块:用于根据预设词库通过语义分词对所述字符串进行满足语义的词组切分,形成由切分后的词组组成的文本内容;
[0016]匹配模块:用于,将所述由切分后的词组组成的文本内容与所述关键词进行匹配,若匹配成功,判定待检测文本涉密,输出提示信息。
[0017]第三方面,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0018]获取待检测文本的内容,所述待检测文本的内容形成对应的字符串;
[0019]根据预设词库通过语义分词对所述字符串进行满足语义的词组切分,形成由切分后的词组组成的文本内容;
[0020],将所述由切分后的词组组成的文本内容与所述关键词进行匹配,若匹配成功,判定待检测文本涉密,输出提示信息。
[0021]第四方面,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0022]获取待检测文本的内容,所述待检测文本的内容形成对应的字符串;
[0023]根据预设词库通过语义分词对所述字符串进行满足语义的词组切分,形成由切分后的词组组成的文本内容;将所述由切分后的词组组成的文本内容与所述关键词进行匹配,若匹配成功,判定待检测文本涉密,输出提示信息。
[0024]本专利技术至少具有以下有益效果:
[0025]本专利技术基于对现有技术问题的进一步分析和研究,认识到现有的传统涉密文件处理的过程中通常都使用关键词判定法,容易产生一些误报。本专利技术通过预先对文本内容进行分词操作,通过获取待检测文本的内容,所述待检测文本的内容形成对应的字符串;根据预设词库通过语义分词对所述字符串进行满足语义的词组切分,形成由切分后的词组组成的文本内容;,将所述由切分后的词组组成的文本内容与所述关键词进行匹配,若匹配成功,判定待检测文本涉密,输出提示信息。本专利技术简单高效的通过分词技术大大减少了容易产生误报问题的可能性。
附图说明
[0026]图1为本专利技术一个实施例提供的一种文本涉密检测方法的流程示意图;
[0027]图2为本专利技术一个实施例中文本涉密检测方法的具体流程示意图;
[0028]图3为一个实施例中计算机设备的内部结构图。
具体实施方式
[0029]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0030]本申请提供的文本涉密检测方法,在一个实施例中,如图1所示,提供了一种文本涉密检测方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
[0031]获取待检测文本的内容,所述待检测文本的内容形成对应的字符串;
[0032]根据预设词库通过语义分词对所述字符串进行满足语义的词组切分,形成由切分后的词组组成的文本内容;
[0033],将所述由切分后的词组组成的文本内容与所述关键词进行匹配,若匹配成功,判定待检测文本涉密,输出提示信息。
[0034]其中,所述获取待检测文本的内容,所述待检测文本的内容形成对应的字符串具体为:通过Tika等解析工具对文件内容进行抽取,所述待检测文本的内容形成对应的字符串。
[0035]其中,所述待检测文本的内容可以为Word文档、excel表格、ppt或者图片格式的文件。其中,所述预设词库包括现有词典中的所有词语。
[0036]例如,当对这些文件抽取成纯文本内容后即形成了一个可比较的字符串。此时为了满足“手机密码”匹配了“机密”等错误,我们需要做一个语义分词的任务。所谓的分词就是根据一些常用词库等一些通过语义分词出的规则对字符串进行满足语义的词组切分操作。
[0037]如果有特殊的词我们可以调整分词规则来进行适配。一般情况下分词的结果一定是满足一定语义的,比如“手机密码”只有两种可能的分词情况,一种是将“手机密码”作为一个完整的词,另一种是对“手机”和“密码”进行两个单独的分词。无论是哪种方案都不会出现“手机密码”可以匹配“机密”的这种情况出现。这样我们通过分词和其他的逻辑结合及可以比较精准的对文档的关键词进行匹配。
[0038]上述文本涉密检测方法中,通过获取待检测文本的内容,所述待检测文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本涉密检测方法,其特征在于,所述方法包括:获取待检测文本的内容,所述待检测文本的内容形成对应的字符串;根据预设词库通过语义分词对所述字符串进行满足语义的词组切分,形成由切分后的词组组成的文本内容;将所述由切分后的词组组成的文本内容与预先确定的涉密关键词进行匹配,若匹配成功,则所述待检测文本的内容中包含关键词,判定待检测文本涉密,输出提示信息。2.根据权利要求1所述的方法,其特征在于,所述获取待检测文本的内容,所述待检测文本的内容形成对应的字符串具体为:通过Tika等解析工具对文件内容进行抽取,所述待检测文本的内容形成对应的字符串。3.根据权利要求2所述的方法,其特征在于,所述待检测文本为Word文档、excel表格、ppt和/或图片格式的文件。4.根据权利要求1所述的方法,其特征在于,所述预设词库包括...

【专利技术属性】
技术研发人员:代俊朴陈国芳
申请(专利权)人:北京鼎普科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1