文档处理方法及装置、存储介质、电子设备制造方法及图纸

技术编号:32187724 阅读:39 留言:0更新日期:2022-02-08 15:51
本公开属于计算机技术领域,涉及一种文档处理方法及装置、存储介质、电子设备。该方法包括:获取预测绘文档,并对预测绘文档进行图像纠正处理得到矫正文档;对矫正文档进行文本识别处理得到文档文本,并对文档文本进行文字纠正处理得到矫正文本;对矫正文本进行规范化处理得到规范文本,并对规范文本进行复合校验处理得到目标文本。本公开大幅度提升了低质量的预测绘文档的识别准确率,提升了文本识别的准确性,更关注于文本内容的准确性以及设计贴合性,提供了自动化且智能化的文本统一方式和多重校验方式,减少了目标文本抽取错误的情况发生,从数据本身和文档所属领域特殊性两方面着重保障文本抽取的准确率,从而提升了业务处理的效率和速度。的效率和速度。的效率和速度。

【技术实现步骤摘要】
文档处理方法及装置、存储介质、电子设备


[0001]本公开涉及计算机
,尤其涉及一种文档处理方法与文档处理装置、计算机可读存储介质及电子设备。

技术介绍

[0002]项目的开发过程是分阶段进行的,不同的阶段会产出不同的指标数据以供其它职能使用。尤其是地产项目的预测绘阶段会产出项目的预测绘报告。该预测绘报告数量繁多,且多为纸质版,不易进行线上处理。
[0003]针对地产项目中的预测绘报告的解析及结构化数据处理的需求,现存的OCR(Optical Character Recognition,光学字符识别)表格识别技术对测绘报告几乎都存在部分文本识别错误,识别结果混杂印章文字,表格结构错位或表格格式未被完全识别等情况,无法在识别表格文字的同时保存测试报告的表格格式。因此,在操作人员手动或使用公有云表格OCR服务将电子表格或PDF(Portable Document Format,可携带文档格式)文档中的内容信息录入或提取至计算机,并随后与计算机中已有的模型指标进行一一对比匹配时,不仅耗费了大量人力,而且效率低下。由于数据量较大,人工录入本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文档处理方法,其特征在于,所述方法包括:获取预测绘文档,并对所述预测绘文档进行图像纠正处理得到矫正文档;对所述矫正文档进行文本识别处理得到文档文本,并对所述文档文本进行文字纠正处理得到矫正文本;对所述矫正文本进行规范化处理得到规范文本,并对所述规范文本进行复合校验处理得到目标文本。2.根据权利要求1所述的文档处理方法,其特征在于,所述对所述预测绘文档进行图像纠正处理得到矫正文档,包括:对所述预测绘文档进行噪点去除处理得到去噪文档;对所述去噪文档进行水印去除处理得到无水印文档;对所述无水印文档进行方向矫正处理得到矫正文档。3.根据权利要求2中所述的文档处理方法,其特征在于,所述对所述预测绘文档进行噪点去除处理得到去噪文档,包括:利用去噪算法对所述预测绘文档进行噪点去除处理得到去噪文档。4.根据权利要求2中所述的文档处理方法,其特征在于,所述对所述去噪文档进行水印去除处理得到无水印文档,包括:利用水印检测算法对所述去噪文档进行水印识别处理得到水印图片,并对所述水印图片进行颜色空间转换得到转换后的水印图片;对所述转换后的水印图片进行颜色识别处理得到所述转换后的水印图片的水印颜色;根据所述水印颜色对所述转换后的水印图片进行图层扩展处理得到待去除图片,并在所述去噪文档中对所述待去除图片进行阈值化处理得到无水印文档。5.根据权利要求2所述的文档处理方法,其特征在于,所述对所述无水印文档进行方向矫正处理得到矫正文档,包括:利用文字方向识别模型对所述无水印文档进行方向识别处理确定所述无水印文档的文字方向;根据所述文字方向对所述无水印文档进行文档方向调换得到矫正文档。6.根据权利要求1所述的文档处理方法,其特征在于,所述对所述矫正文档进行文本识别处理得到文档文本,包括:利用文本检测模型对所述矫正文档进行文本检测处理得到所述矫正文档中的文本框;利用复合神经网络模型对所述文本框进行文本识别处理得到文档文本。7.根据权利要求6中所述的文档处理方法,其特征在于,所述利用复合神经网络模型对所述文本框进行文本识别处理得到文档文本,包括:对所述文本框进行...

【专利技术属性】
技术研发人员:ꢀ七四专利代理机构
申请(专利权)人:深圳须弥云图空间科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1