文档处理方法及装置、存储介质、电子设备制造方法及图纸

技术编号:32187724 阅读:20 留言:0更新日期:2022-02-08 15:51
本公开属于计算机技术领域,涉及一种文档处理方法及装置、存储介质、电子设备。该方法包括:获取预测绘文档,并对预测绘文档进行图像纠正处理得到矫正文档;对矫正文档进行文本识别处理得到文档文本,并对文档文本进行文字纠正处理得到矫正文本;对矫正文本进行规范化处理得到规范文本,并对规范文本进行复合校验处理得到目标文本。本公开大幅度提升了低质量的预测绘文档的识别准确率,提升了文本识别的准确性,更关注于文本内容的准确性以及设计贴合性,提供了自动化且智能化的文本统一方式和多重校验方式,减少了目标文本抽取错误的情况发生,从数据本身和文档所属领域特殊性两方面着重保障文本抽取的准确率,从而提升了业务处理的效率和速度。的效率和速度。的效率和速度。

【技术实现步骤摘要】
文档处理方法及装置、存储介质、电子设备


[0001]本公开涉及计算机
,尤其涉及一种文档处理方法与文档处理装置、计算机可读存储介质及电子设备。

技术介绍

[0002]项目的开发过程是分阶段进行的,不同的阶段会产出不同的指标数据以供其它职能使用。尤其是地产项目的预测绘阶段会产出项目的预测绘报告。该预测绘报告数量繁多,且多为纸质版,不易进行线上处理。
[0003]针对地产项目中的预测绘报告的解析及结构化数据处理的需求,现存的OCR(Optical Character Recognition,光学字符识别)表格识别技术对测绘报告几乎都存在部分文本识别错误,识别结果混杂印章文字,表格结构错位或表格格式未被完全识别等情况,无法在识别表格文字的同时保存测试报告的表格格式。因此,在操作人员手动或使用公有云表格OCR服务将电子表格或PDF(Portable Document Format,可携带文档格式)文档中的内容信息录入或提取至计算机,并随后与计算机中已有的模型指标进行一一对比匹配时,不仅耗费了大量人力,而且效率低下。由于数据量较大,人工录入校核存在录入错误的可能性,即使使用公有云服务进行信息抽取,也存在格式不统一。公有云识别能力有限,结果易受PDF文档质量与内容影响造成识别错误,给录入带来不便。
[0004]鉴于此,本领域亟需开发一种新的文档处理方法及装置。
[0005]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]本公开的目的在于提供一种文档处理方法、文档处理装置、计算机可读存储介质及电子设备,进而至少在一定程度上克服由于相关技术的限制而导致的文档处理效果不佳和信息录入效率低下的技术问题。
[0007]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0008]根据本专利技术实施例的第一个方面,提供一种文档处理方法,所述方法包括:
[0009]获取预测绘文档,并对所述预测绘文档进行图像纠正处理得到矫正文档;
[0010]对所述矫正文档进行文本识别处理得到文档文本,并对所述文档文本进行文字纠正处理得到矫正文本;
[0011]对所述矫正文本进行规范化处理得到规范文本,并对所述规范文本进行复合校验处理得到目标文本。
[0012]在本专利技术的一种示例性实施例中,所述对所述预测绘文档进行图像纠正处理得到矫正文档,包括:
[0013]对所述预测绘文档进行噪点去除处理得到去噪文档;
[0014]对所述去噪文档进行水印去除处理得到无水印文档;
[0015]对所述无水印文档进行方向矫正处理得到矫正文档。
[0016]在本专利技术的一种示例性实施例中,所述对所述预测绘文档进行噪点去除处理得到去噪文档,包括:
[0017]利用去噪算法对所述预测绘文档进行噪点去除处理得到去噪文档。
[0018]在本专利技术的一种示例性实施例中,所述对所述去噪文档进行水印去除处理得到无水印文档,包括:
[0019]利用水印检测算法对所述去噪文档进行水印识别处理得到水印图片,并对所述水印图片进行颜色空间转换得到转换后的水印图片;
[0020]对所述转换后的水印图片进行颜色识别处理得到所述转换后的水印图片的水印颜色;
[0021]根据所述水印颜色对所述转换后的水印图片进行图层扩展处理得到待去除图片,并在所述去噪文档中对所述待去除图片进行阈值化处理得到无水印文档。
[0022]在本专利技术的一种示例性实施例中,所述对所述无水印文档进行方向矫正处理得到矫正文档,包括:
[0023]利用文字方向识别模型对所述无水印文档进行方向识别处理确定所述无水印文档的文字方向;
[0024]根据所述文字方向对所述无水印文档进行文档方向调换得到矫正文档。
[0025]在本专利技术的一种示例性实施例中,所述对所述矫正文档进行文本识别处理得到文档文本,包括:
[0026]利用文本检测模型对所述矫正文档进行文本检测处理得到所述矫正文档中的文本框;
[0027]利用复合神经网络模型对所述文本框进行文本识别处理得到文档文本。
[0028]在本专利技术的一种示例性实施例中,所述利用复合神经网络模型对所述文本框进行文本识别处理得到文档文本,包括:
[0029]对所述文本框进行特征提取处理得到图片特征;
[0030]对所述图片特征进行时序特征转化得到时序特征;
[0031]对所述时序特征进行特征整合处理得到文档文本。
[0032]在本专利技术的一种示例性实施例中,所述对所述文档文本进行文字纠正处理得到矫正文本,包括:
[0033]获取与所述文档文本对应的文本分值,并获取与所述文本分值对应的分值阈值;
[0034]根据所述文本分值与所述分值阈值的比较结果获取标准测绘术语,并对所述文档文本与所述标准测绘术语进行相似距离计算得到文字距离;
[0035]基于文字距离,利用所述标准测绘术语对所述文档文本进行文字替换处理得到矫正文本。
[0036]在本专利技术的一种示例性实施例中,所述对所述矫正文本进行规范化处理得到规范文本,包括:
[0037]对所述矫正文本进行格式转化处理得到目标格式文本;
[0038]对所述目标格式文本进行排版统一处理得到统一排版文本;
[0039]对所述统一排版文本进行名称规范处理得到规范文本。
[0040]在本专利技术的一种示例性实施例中,所述对所述规范文本进行复合校验处理得到目标文本,包括:
[0041]对所述规范文本进行户信息校验得到户信息文本,并获取与所述预测绘文档对应的模型指标文档;
[0042]利用所述模型指标文档对所述户信息文本进行对比匹配处理得到目标文本。
[0043]根据本专利技术实施例的第二个方面,提供一种文档处理装置,其特征在于,包括:
[0044]图像纠正模块,被配置为获取预测绘文档,并对所述预测绘文档进行图像纠正处理得到矫正文档;
[0045]文本生成模块,被配置为对所述矫正文档进行文本识别处理得到文档文本,并对所述文档文本进行文字纠正处理得到矫正文本;
[0046]规范校验模块,被配置为对所述矫正文本进行规范化处理得到规范文本,并对所述规范文本进行复合校验处理得到目标文本。
[0047]根据本专利技术实施例的第三个方面,提供一种电子设备,包括:处理器和存储器;其中,存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现上述任意示例性实施例中的文档处理方法。
[0048]根据本专利技术实施例的第四个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意示例性实施例中的文档处理方法。
[0049]由上述技术方案可知,本公开示例性实施例中的文档处理方法、文档处理装本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档处理方法,其特征在于,所述方法包括:获取预测绘文档,并对所述预测绘文档进行图像纠正处理得到矫正文档;对所述矫正文档进行文本识别处理得到文档文本,并对所述文档文本进行文字纠正处理得到矫正文本;对所述矫正文本进行规范化处理得到规范文本,并对所述规范文本进行复合校验处理得到目标文本。2.根据权利要求1所述的文档处理方法,其特征在于,所述对所述预测绘文档进行图像纠正处理得到矫正文档,包括:对所述预测绘文档进行噪点去除处理得到去噪文档;对所述去噪文档进行水印去除处理得到无水印文档;对所述无水印文档进行方向矫正处理得到矫正文档。3.根据权利要求2中所述的文档处理方法,其特征在于,所述对所述预测绘文档进行噪点去除处理得到去噪文档,包括:利用去噪算法对所述预测绘文档进行噪点去除处理得到去噪文档。4.根据权利要求2中所述的文档处理方法,其特征在于,所述对所述去噪文档进行水印去除处理得到无水印文档,包括:利用水印检测算法对所述去噪文档进行水印识别处理得到水印图片,并对所述水印图片进行颜色空间转换得到转换后的水印图片;对所述转换后的水印图片进行颜色识别处理得到所述转换后的水印图片的水印颜色;根据所述水印颜色对所述转换后的水印图片进行图层扩展处理得到待去除图片,并在所述去噪文档中对所述待去除图片进行阈值化处理得到无水印文档。5.根据权利要求2所述的文档处理方法,其特征在于,所述对所述无水印文档进行方向矫正处理得到矫正文档,包括:利用文字方向识别模型对所述无水印文档进行方向识别处理确定所述无水印文档的文字方向;根据所述文字方向对所述无水印文档进行文档方向调换得到矫正文档。6.根据权利要求1所述的文档处理方法,其特征在于,所述对所述矫正文档进行文本识别处理得到文档文本,包括:利用文本检测模型对所述矫正文档进行文本检测处理得到所述矫正文档中的文本框;利用复合神经网络模型对所述文本框进行文本识别处理得到文档文本。7.根据权利要求6中所述的文档处理方法,其特征在于,所述利用复合神经网络模型对所述文本框进行文本识别处理得到文档文本,包括:对所述文本框进行...

【专利技术属性】
技术研发人员:ꢀ七四专利代理机构
申请(专利权)人:深圳须弥云图空间科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1