【技术实现步骤摘要】
电子文档脱敏方法、系统、设备及存储介质
[0001]本专利技术涉及计算机视觉和自然语言处理
,尤其涉及一种电子文档脱敏方法
、
系统
、
设备及存储介质
。
技术介绍
[0002]随着数字化时代的到来,电子文档的使用越来越普遍,越来越多的公司和个人开始使用电子档案存储共享信息
。
但档案电子化也带来了敏感信息泄露的问题,给公司和个人带来严重的财务和名誉损失
。
为规避信息泄露风险,现有相关技术中采取脱敏技术进行信息保护
。
[0003]现有技术中使用通用的分词技术或者规则匹配,获取敏感信息,然后利用正则表达式筛选出身份证号和手机号码,之后对识别结果进行脱敏处理,并输出脱敏后的文件数据
。
然而,目前脱敏规则的设定过程较为复杂,且现有技术中通过
OCR
技术识别图像文字后的脱敏方法未对原始文档进行结构还原,直接作用于有版式的
word
文档中,无法保留文件原始排版结构的技术问题,导致文件 ...
【技术保护点】
【技术特征摘要】
1.
一种电子文档脱敏方法,其特征在于,所述电子文档脱敏方法包括以下步骤:对不可编辑文档文件进行格式转换处理,获取目标文档图像;在检测到所述目标文档图像不存在关联附件时,根据所述目标文档图像确定文档版式类别信息
、
版式区域坐标信息
、
文本行坐标信息及文本识别内容信息;根据脱敏规则和待脱敏对象实体对所述文本识别内容信息进行脱敏操作,得到脱敏后文本内容信息;根据所述目标文档图像对应的文档图像尺寸
、
所述文档版式类别信息
、
所述版式区域坐标信息
、
所述文本行坐标信息对所述脱敏后文本内容信息进行文档版式结构还原处理,得到脱敏后文档文件
。2.
如权利要求1所述的方法,其特征在于,所述对不可编辑文档文件进行格式转换处理,获取目标文档图像的步骤之后,还包括:在检测到所述目标文档图像存在关联附件时,确定所述关联附件对应的附件文档版式类别信息
、
附件版式区域坐标信息
、
附件文本行坐标信息及附件文本识别内容信息;根据待脱敏对象实体判断所述附件文本识别内容信息中是否满足脱敏条件;在所述附件文本识别内容信息满足所述脱敏条件时,根据脱敏规则和所述待脱敏对象实体对所述附件文本识别内容信息进行脱敏处理,得到附件脱敏后文本内容信息;根据所述关联附件对应的文档图像尺寸
、
所述附件文档版式类别信息
、
所述附件版式区域坐标信息
、
所述附件文本行坐标信息对所述附件脱敏后文本内容信息进行文档版式结构还原处理,得到所述关联附件对应的附件脱敏后文档文件
。3.
如权利要求2所述的方法,其特征在于,所述根据待脱敏对象实体判断所述附件文本识别内容信息中是否满足脱敏条件的步骤之后,还包括:在所述附件文本识别内容信息不满足所述脱敏条件时,将所述附件文本识别内容信息对应的关联附件进行输出
。4.
如权利要求1所述的方法,其特征在于,所述根据所述目标文档图像确定文档版式类别信息
、
版式区域坐标信息
、
文本行坐标信息及文本识别内容信息的步骤,包括:将所述目标文档图像输入至预设深度学习版式识别模型中,得到所述目标文档图像对应的文档版式类别信息和版式区域坐标信息;基于预设深度学习文本行检测模型对所述目标文档图像进行文本检测,得到文本行坐标信息;根据所述...
【专利技术属性】
技术研发人员:易秋晨,罗明宇,聂莹,鲁晓丹,林健,
申请(专利权)人:武汉乾云软件开发中心有限合伙,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。