基于OCR语义分析的涉密文档智能检测方法及系统技术方案

技术编号:46630273 阅读:0 留言:0更新日期:2025-10-14 21:29
本申请提供基于OCR语义分析的涉密文档智能检测方法及系统,涉及涉密文档检测的技术领域,包括对预设初始文档进行分析,以确定涉密检测结果;判断涉密检测结果是否符合预设的普通文档结果的要求;若不符合,则输出涉密检测结果;若符合,则获取初始文档的检测文本序列和涉密特征集;对检测文本序列和涉密特征集进行分析,以确定初始文档的涉密篡改嫌疑分数;判断涉密篡改嫌疑分数是否符合预设的篡改嫌疑分数阈值的要求;若不符合,则输出涉密检测结果;若符合,则获取实际篡改文本;对实际篡改文本进行分析,以确定修正检测结果并输出。本申请具有提高对涉密文档检测的准确性的效果。

【技术实现步骤摘要】

本申请涉及涉密文档检测的,尤其是涉及基于ocr语义分析的涉密文档智能检测方法及系统。


技术介绍

1、涉密文档检测是指通过技术手段或人工审核的方式,识别文档中是否包含涉及国家秘密、商业机密、个人隐私或其他敏感信息,以防止敏感内容泄露、非法传播或不当使用。

2、相关技术中,涉密文档检测通常采用ocr(光学字符识别)和nlp技术(自然语言处理),首先利用ocr提取文档中的文本,然后使用nlp技术对提取的文本进行关键词检测、正则匹配、实体识别、语义分析和分类判断,最终输出文档是否包含有敏感信息、涉密关键词的检测结果。

3、针对上述中的相关技术,对涉密文档的检测通常依据涉密文档中的敏感信息和涉密关键词,如果涉密文档的敏感信息和涉密关键词被篡改,利用ocr和nlp技术检测时,就会输出文档不涉及敏感信息和涉密关键词,从而绕过涉密检测系统的检测,导致对涉密文档的检测准确性低,还有改进的空间。


技术实现思路

1、为了提高对涉密文档检测的准确性,本申请提供基于ocr语义分析的涉密文档智能检测方法及系统。<本文档来自技高网...

【技术保护点】

1.基于OCR语义分析的涉密文档智能检测方法,其特征在于,包括:

2.根据权利要求1所述的基于OCR语义分析的涉密文档智能检测方法,其特征在于,对检测文本序列和涉密特征集进行分析,以确定初始文档的涉密篡改嫌疑分数的步骤包括:

3.根据权利要求2所述的基于OCR语义分析的涉密文档智能检测方法,其特征在于,对实际验证文本和涉密特征集进行分析,以确定实际验证文本的特征变异匹配度的步骤包括:

4.根据权利要求3所述的基于OCR语义分析的涉密文档智能检测方法,其特征在于,对实际验证文本和涉密文本特征进行分析,以确定文本编辑距离的步骤包括:p>

5.根据权...

【技术特征摘要】

1.基于ocr语义分析的涉密文档智能检测方法,其特征在于,包括:

2.根据权利要求1所述的基于ocr语义分析的涉密文档智能检测方法,其特征在于,对检测文本序列和涉密特征集进行分析,以确定初始文档的涉密篡改嫌疑分数的步骤包括:

3.根据权利要求2所述的基于ocr语义分析的涉密文档智能检测方法,其特征在于,对实际验证文本和涉密特征集进行分析,以确定实际验证文本的特征变异匹配度的步骤包括:

4.根据权利要求3所述的基于ocr语义分析的涉密文档智能检测方法,其特征在于,对实际验证文本和涉密文本特征进行分析,以确定文本编辑距离的步骤包括:

5.根据权利要求4所述的基于ocr语义分析的涉密文档智...

【专利技术属性】
技术研发人员:周龙张琳郭光建侯焱伦辛世金孙启娟杨晓东芦爱燕杨海邓子成
申请(专利权)人:国网甘肃省电力公司白银供电公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1