一种文本涉密检测方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：35038314 阅读：19 留言：0更新日期：2022-09-24 23:15

本发明专利技术公开了一种文本涉密检测方法，通过预先对文本内容进行分词操作，通过获取待检测文本的内容，所述待检测文本的内容形成对应的字符串；根据预设词库通过语义分词对所述字符串进行满足语义的词组切分，形成由切分后的词组组成的文本内容，将所述由切分后的词组组成的文本内容与所述关键词进行匹配，若匹配成功，判定待检测文本涉密，输出提示信息。本发明专利技术简单高效的通过分词技术大大减少了容易产生误报问题的可能性。提供了一种新的对文本内容进行涉密监测的技术手段。提高了检出率同时也提高了性能。提高了性能。提高了性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本涉密检测方法、装置、计算机设备和存储介质

[0001]本申请涉及文本涉密检测
，特别是涉及一种文本涉密检测方法、装置、计算机设备和存储介质。

技术介绍

[0002]在信息安全领域，对文本内容的涉密检测是一个核心功能。其目的为在文件拦截提取后对文件内容进行检查并判定是否涉密。对文件内容判定是否涉密的方法就成为了整个核心功能中核心的核心，所以就需要不断地优化技术方案，使核心功能更完善，更好的为保密监察任务服务。本专利技术从原有技术缺陷分析入手，介绍本专利技术的原理及特点。
[0003]在传统涉密文件处理的过程中通常都使用关键词判定法。所谓关键词检测法即为将有可能产生问题的关键词作为对比规则，比如“机密”这个词就可以作为对比规则。然后通过规则在待检测文本中进行全扫描探测，即在整个文档内容遍历所有字符查找判断是否有相应的规则字符串出现，如果有匹配则返回匹配成功，否则返回匹配失败。匹配成功则意味着有涉密的可能性，需要对客户进行提醒显示。
[0004]上述方案提到这种办法的好处是简单易操作，逻辑流程简单。但同时也有比较大的弊端。比如使用关键词判定法会产生一些误报。比如“机密”，当出现一个词为“手机密码”时这时使用关键词判定规则就会显示匹配成功。但是“手机密码”其实和机密并没有任何关系，这样就有可能产生一些误报，导致报错率上升，用户体验下降。

技术实现思路

[0005]基于此，针对上述技术问题，提供一种文本涉密检测方法、装置、计算机设备和存储介质。
[0006]第一方面，一种文...

【技术保护点】

【技术特征摘要】
1.一种文本涉密检测方法，其特征在于，所述方法包括：获取待检测文本的内容，所述待检测文本的内容形成对应的字符串；根据预设词库通过语义分词对所述字符串进行满足语义的词组切分，形成由切分后的词组组成的文本内容；将所述由切分后的词组组成的文本内容与预先确定的涉密关键词进行匹配，若匹配成功，则所述待检测文本的内容中包含关键词，判定待检测文本涉密，输出提示信息。2.根据权利要求1所述的方法，其特征在于，所述获取待检测文本的内容，所述待检测文本的内容形成对应的字符串具体为：通过Tika等解析工具对文件内容进行抽取，所述待检测文本的内容形成对应的字符串。3.根据权利要求2所述的方法，其特征在于，所述待检测文本为Word文档、excel表格、ppt和/或图片格式的文件。4.根据权利要求1所述的方法，其特征在于，所述预设词库包括...

【专利技术属性】
技术研发人员：代俊朴，陈国芳，
申请(专利权)人：北京鼎普科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人