一种电力建设现场签证文档关键内容识别方法及系统技术方案

技术编号：33649998 阅读：18 留言：0更新日期：2022-06-02 20:27

本发明专利技术涉及一种电力建设现场签证文档关键内容识别方法及系统，其中识别方法包括：获取签证文档，并对文档进行预处理；识别图像中的文档文字、表单填写内容和图章；对识别出的文档文字、表单填写内容和图章进行分类整理，并对表单填写内容进行完整性判断；输出识别结果以及完整性判断结果。与现有技术相比，本发明专利技术具有够提高工程文档处理效率和正确率等优点。点。点。

全部详细技术资料下载

【技术实现步骤摘要】
一种电力建设现场签证文档关键内容识别方法及系统

[0001]本专利技术涉及图像处理
，尤其是涉及一种电力建设现场签证文档关键内容识别方法及系统。

技术介绍

[0002]一般来说，电力工程建设文档包含的关键要素有表单名称、工程建设项目相关企业称谓、工程名称、工程编号、工程项目关键内容、落款签名印章、签名时间等等，十分复杂。而一页PDF中包含的上述要素通常经过多层审批与叠加，为了确保签名与印章的一致性、合法性，往往需要花费大量人力进行核对校验。显然，这种方法很大程度依赖于工作人员的经验，不够准确也容易出现纰漏，在人力有限的情况下很难平衡审批速度与审批准确性。一旦需要大批量整理工程建设文档时就容易出现各种失误。
[0003]为了改进这种通过人力审核整理工程建设文档，就需要将纸质文档电子化，转化为PDF或者图像文件的形式，再通过图像识别、文字识别、印章识别的手段将内容要素整理输出，实现一款图片文档要素识别WEB软件。
[0004]处理图像文件中的字符最常见的技术是OCR光学字符识别技术，光学字符识别技术是指利用电子设备(如扫描仪或数码相机等)对印刷在纸上的字符进行检查，通过检测其明暗图案来确定其形状，然后通过字符识别的方法将其转化为计算机字符的过程。它是一种字符打印技术，利用光学的方法将纸质文件中的文本转换成黑白点阵图像文件，并通过识别软件将图像中的文本转换成文本格式，由文字处理软件进行进一步的编辑和处理。通过这项技术，可以将照相机、扫描仪等光学输入仪器所获取的报纸、书籍、手稿等进行形式转换，将其他印刷...

【技术保护点】

【技术特征摘要】
1.一种电力建设现场签证文档关键内容识别方法，其特征在于，所述的识别方法包括：步骤1：获取签证文档，并对文档进行预处理；步骤2：识别图像中的文档文字、表单填写内容和图章；步骤3：对识别出的文档文字、表单填写内容和图章进行分类整理，并对表单填写内容进行完整性判断；步骤4：输出识别结果以及完整性判断结果。2.根据权利要求1所述的一种电力建设现场签证文档关键内容识别方法，其特征在于，所述的步骤1具体为：判断文档类型，若文档类型为PDF文档，则将PDF文档进行分页处理，将每一页转换为PNG图像格式保存，若文档类型为图片格式，则统一转换为PNG格式保存。3.根据权利要求1所述的一种电力建设现场签证文档关键内容识别方法，其特征在于，所述的步骤2具体为：步骤2
‑
1：利用基于深度学习的OCR模型对文档图片进行文字识别；步骤2
‑
2：识别表单填写内容；步骤2
‑
3：识别图章内容。4.根据权利要求3所述的一种电力建设现场签证文档关键内容识别方法，其特征在于，所述的步骤2
‑
1具体为：首先，识别出文字区域，通过滑动窗口算法遍历整个图片，对有监督的标记训练样本特征进行判断，找到目标图片进行矩形化后摘取；其次，对文字区域进行矩形分割，在矩形中做一维滑动窗口移动，判断字符间距，对字符进行划分从而将字符拆分；然后，根据监督算法对已拆分的字符进行分类预测，不断重复训练，提高模型识别准确率，得到训练好的文字识别模型；最后，将步骤1处理的图片作为文字识别模型的输入，即可得到对该文档图片识别的结果。5.根据权利要求3所述的一种电力建设现场签证文档关键内容识别方法，其特征在于，所述的步骤2
‑
2具体为：首先，对图像进行灰度变换和二值化处理；其次，进行横向和纵向膨胀和腐蚀操作，获得横线图和纵线图；再次，将横线图和纵线图经过相加运算获得点图，再将点图浓缩为单个像素点；从次，对像素点按行遍历，判断这些顶点是否是目标单元格的顶点，全部遍历结束后得到各目标单元格顶点，即可组成矩形框...

【专利技术属性】
技术研发人员：肖斌，张峥，陈树藩，胡健康，张宇，王鹏凯，
申请(专利权)人：上海铁新地理信息有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人