当前位置: 首页 > 专利查询>南京大学专利>正文

一种计算机处理复杂表单的方法技术

技术编号:17363615 阅读:51 留言:0更新日期:2018-02-28 13:38
本发明专利技术公开了一种计算机处理复杂表单的方法,执行如下步骤:步骤1,对表单图像进行预处理;步骤2,提取出表格区域中的所有表格单元格;步骤3,分析单元格内信息键值对的逻辑关系,基于ABNF范式设计规则;步骤4,根据步骤3中设计的规则使用开源词法分析器Lex和语法分析器Yacc构造编译器;步骤5,使用设计的语言描述表格单元格,通过解析描述语言得到表格单元格内逻辑结构。

A method of computer processing complex forms

The invention discloses a method for the complex forms of computer processing, perform the following steps: 1, to form image preprocessing; step 2, extract all the table cells in the table area; step 3, analysis of the logical relationship within the cell information of key value pairs, design rules based on ABNF paradigm; step 4, according to the steps 3 design rules using open source Lex lexical analyzer and parser Yacc compiler construction; step 5, the use of design language to describe the table cell by parsing the describe language form within the cell logic structure.

【技术实现步骤摘要】
一种计算机处理复杂表单的方法
本专利技术涉及一种版面分析方法,特别是一种计算机处理复杂表单的方法。
技术介绍
随着信息时代的来临,数字信息已经成为人类最重要的资源。而表格是最常见的一种信息载体,如何将表格中的信息电子化、数字化,已经成为研究的热点之一。表单版面分析作为表单文档电子化的重要部分,然而由于表单结构的多样性,很难通过一种单一的规则来分析表单中的逻辑结构,本专利技术对复杂表单的版面分析进行了深入的探讨。
技术实现思路
本专利技术所要解决的技术问题是针对现有技术的不足,提供一种处理复杂表单的综合方法,实现了复杂表单的半自动化处理,节省了大量的人力和时间,提高了工作效率。本专利技术公开了一种处理复杂表单的综合方法,执行如下步骤:步骤1:对表单图像进行预处理;步骤2:提取出表格区域中的所有表格单元格;步骤3:分析单元格内信息键值对的逻辑关系,基于ABNF范式设计规则(引用文献:RFC5234-AugmentedBNFforSyntaxSpecifications:ABNF);步骤4:根据步骤3中设计的规则使用词法分析器Lex和语法分析器Yacc构造编译器(引用文献:ANSICYaccg本文档来自技高网...
一种计算机处理复杂表单的方法

【技术保护点】
一种计算机处理复杂表单的方法,其特征在于,执行如下步骤:步骤1:对表单图像进行预处理;步骤2:提取出所有表格单元格;步骤3:分析单元格内信息键值对的逻辑关系,基于ABNF范式设计规则;步骤4:根据步骤3中设计的规则使用词法分析器Lex和语法分析器Yacc构造编译器;步骤5:使用设计的语言描述表格单元格,通过解析描述语言得到表格单元格内的逻辑结构。

【技术特征摘要】
1.一种计算机处理复杂表单的方法,其特征在于,执行如下步骤:步骤1:对表单图像进行预处理;步骤2:提取出所有表格单元格;步骤3:分析单元格内信息键值对的逻辑关系,基于ABNF范式设计规则;步骤4:根据步骤3中设计的规则使用词法分析器Lex和语法分析器Yacc构造编译器;步骤5:使用设计的语言描述表格单元格,通过解析描述语言得到表格单元格内的逻辑结构。2.根据权利要求1所述的方法,其特征在于,步骤1包括如下步骤:步骤1-1,去除表单图像中红色的印章:遍历表单图像中的所有像素点,如果像素点红色通道值大于200且蓝色通道和绿色通道值均小于200,则判定该像素点是印章像素点,令该像素点各通道值均为255;步骤1-2,对表单进行倾斜校正:提取出表单图像中所有线段,如果线段的左右端点分别是其外接矩形的左上端点和右下端点,则判定该线段是顺时针偏转线段;如果线段的左右端点分别是其外接矩形的左下端点和右上端点,则判定该线段是逆时针偏转线段;筛选出顺时针偏转线段和逆时针偏转线段,组成顺时针偏转线段组和逆时针线段组,计算顺时针线段组中线段偏转正弦值之和,记为:Clockwise,计算逆时针线段组中线段偏转正弦值之和,记为:Counterclockwise,通过如下公式计算线段的正弦值tan:tan=height/width,其中,height为线段外接矩形的长度,width为线段外接矩形的宽度;如果Clockwise大于Counterclockwise则选用顺时针线段组,判定表单顺时针方向倾斜,否则选用逆时针线段组,判定表单逆时针方向倾斜;假设选用的线段组的正弦值之和为tansum,选用线段组中线段个数为m,计算倾斜角度的正弦值tanaverage:tanaverage=tansum/m,计算倾斜角度α:α=tan-1(tanaverage)*180/π,如果表单逆时针方向倾斜,定义变换矩阵如果表单顺时针方向倾斜,则定义变换矩阵根据变换矩阵对表单作仿射变换,校正表单;步骤1-3,利用UnsharpMask锐化算法对表单图像进行锐化。3.根据权利要求2所述的方法,其特征在于,步骤2包括如下步骤:通过图像形态学操作分别提取出水平线段图和竖直线段图,将水平线段图和竖直线段...

【专利技术属性】
技术研发人员:路通吴子涵
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1