【技术实现步骤摘要】
本申请涉及涉密文档检测的,尤其是涉及基于ocr语义分析的涉密文档智能检测方法及系统。
技术介绍
1、涉密文档检测是指通过技术手段或人工审核的方式,识别文档中是否包含涉及国家秘密、商业机密、个人隐私或其他敏感信息,以防止敏感内容泄露、非法传播或不当使用。
2、相关技术中,涉密文档检测通常采用ocr(光学字符识别)和nlp技术(自然语言处理),首先利用ocr提取文档中的文本,然后使用nlp技术对提取的文本进行关键词检测、正则匹配、实体识别、语义分析和分类判断,最终输出文档是否包含有敏感信息、涉密关键词的检测结果。
3、针对上述中的相关技术,对涉密文档的检测通常依据涉密文档中的敏感信息和涉密关键词,如果涉密文档的敏感信息和涉密关键词被篡改,利用ocr和nlp技术检测时,就会输出文档不涉及敏感信息和涉密关键词,从而绕过涉密检测系统的检测,导致对涉密文档的检测准确性低,还有改进的空间。
技术实现思路
1、为了提高对涉密文档检测的准确性,本申请提供基于ocr语义分析的涉密文档智
...【技术保护点】
1.基于OCR语义分析的涉密文档智能检测方法,其特征在于,包括:
2.根据权利要求1所述的基于OCR语义分析的涉密文档智能检测方法,其特征在于,对检测文本序列和涉密特征集进行分析,以确定初始文档的涉密篡改嫌疑分数的步骤包括:
3.根据权利要求2所述的基于OCR语义分析的涉密文档智能检测方法,其特征在于,对实际验证文本和涉密特征集进行分析,以确定实际验证文本的特征变异匹配度的步骤包括:
4.根据权利要求3所述的基于OCR语义分析的涉密文档智能检测方法,其特征在于,对实际验证文本和涉密文本特征进行分析,以确定文本编辑距离的步骤包括:
...【技术特征摘要】
1.基于ocr语义分析的涉密文档智能检测方法,其特征在于,包括:
2.根据权利要求1所述的基于ocr语义分析的涉密文档智能检测方法,其特征在于,对检测文本序列和涉密特征集进行分析,以确定初始文档的涉密篡改嫌疑分数的步骤包括:
3.根据权利要求2所述的基于ocr语义分析的涉密文档智能检测方法,其特征在于,对实际验证文本和涉密特征集进行分析,以确定实际验证文本的特征变异匹配度的步骤包括:
4.根据权利要求3所述的基于ocr语义分析的涉密文档智能检测方法,其特征在于,对实际验证文本和涉密文本特征进行分析,以确定文本编辑距离的步骤包括:
5.根据权利要求4所述的基于ocr语义分析的涉密文档智...
【专利技术属性】
技术研发人员:周龙,张琳,郭光建,侯焱伦,辛世金,孙启娟,杨晓东,芦爱燕,杨海,邓子成,
申请(专利权)人:国网甘肃省电力公司白银供电公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。