当前位置: 首页 > 专利查询>西南大学专利>正文

自动识别表格类型的方法及装置制造方法及图纸

技术编号:8683098 阅读:169 留言:0更新日期:2013-05-09 03:02
本发明专利技术提供了一种自动识别表格类型的方法及装置。其中方法包括:提取待识别表格的图像特征;将所述待识别表格的图像特征与表格特征库中表格的图像特征分别匹配,将从所述表格特征库中匹配到的表格的类型作为所述待识别表格的类型。其中装置包括执行上述步骤的提取模块和识别模块。采用本发明专利技术的方法及装置,具有识别效率高、识别准确性高等优点。

【技术实现步骤摘要】

本专利技术涉及表格识别
,尤其涉及一种自动识别表格类型的方法及装置
技术介绍
表格文档是指以文字和表格为主要内容的一类图像,主要是通过扫描仪等设备将纸质表格档案转化而来的文档图像。当通过扫描仪等设备将纸质表格扫描到系统中后,通常是按照表格的类型对表格文档进行分类存储的,目前对表格类型的识别主要是由工作人员进行,因此主要存在工作效率低的问题。
技术实现思路
有鉴于此,本专利技术提供了一种自动识别表格类型的方法及装置。可以解决现有表格类型识别中的识别效率低的问题。本专利技术提供了一种自动识别表格类型的方法,包括:步骤a、提取待识别表格的图像特征;步骤b、将所述待识别表格的图像特征与表格特征库中表格的图像特征分别匹配,将从所述表格特征库中匹配到的表格的类型作为所述待识别表格的类型。进一步,所述图像特征包括:SUMX、SUMA、SUMB, SUMC, SUMD和SUME,SUMX表示表格中中轴线条数,SUMA, SUMB, SUMC和SUMD分别表示A、B、C和D四个区域内的中轴线条数,SUME表示矩形区域E内的中轴线条数,其中A、B、C和D四个区域为在表格的宽和高的中点处,将表格分为的2行2列的四个面积相等的区域,矩形区域E与表格有相同的中心,且宽和高均为表格的宽和高的三分之一。进一步,所述步骤b包括:步骤bl、判断所述待识别表格的SUMX与所述表格特征库中表格的SUMX的差的绝对值是否小于第一阈值,若所述表格特征库中多个表格的SUMX与所述待识别表格的SUMX的差的绝对值均小于第一阈值,则执行步骤b2,若所述表格特征库中仅有一个表格的SUMX与所述待识别表格的SUMX的差的绝对值小于第一阈值,则将所述表格特征库中该仅有的一个表格的类型作为所述待识别表格的类型;步骤b2、判断所述待识别表格的SUMA、SUMB、SUMC和SUMD与所述表格特征库中表格的SUMA、SUMB, SUMC和SUMD的差的绝对值是否分别小于第二阈值、第三阈值、第四阈值和第五阈值,若所述表格特征库多个表格的SUMA、SUMB, SUMC和SUMD与所述待识别表格的SUMA, SUMB, SUMC和SUMD的差的绝对值均小于对应的阈值,则执行步骤b3,若所述表格特征库中仅有一个表格的SUMA、SUMB, SUMC和SUMD与所述待识别表格的SUMA、SUMB, SUMC和SUMD的差的绝对值均小于对应的阈值,则将所述表格特征库中该仅有的一个表格的类型作为所述待识别表格的类型;步骤b3、判断所述待识别表格的SUME与所述表格特征库中表格的SUME的差的绝对值是否小于第六阈值,若所述表格特征库中多个表格的SUME与所述待识别表格的SUME的差的绝对值均小于第六阈值,则将该多个表格中与所述待识别表格的SUME的差的绝对值最小的表格的类型作为所述待识别表格的类型,若所述表格特征库中仅有一个表格的SUME与所述待识别表格的SUME的差的绝对值小于第六阈值,则将该仅有的一个表格的类型作为所述待识别表格的类型。进一步,第一阈值为所述待识别表格的SUMX的^ 分之一,第二阈值为所述待识别表格的SUMA的七分之一,第三阈值为所述待识别表格的SUMB的七分之一,第四阈值为所述待识别表格的SUMC的七分之一,第五阈值为所述待识别表格的SUMD的七分之一,第六阈值为所述待识别表格的SUME的五分之一。进一步,所述步骤a包括:步骤al、对待识别表格依次进行分割、二值化和滤波处理;步骤a2、提取经步骤al处理后的待识别表格中的水平线段和垂直线段;步骤a3、合并步骤a2中提取的水平线段和垂直线段得到表格框架;步骤a4、对步骤a3得到的表格框架依次进行取反和细化处理;步骤a5、提取经步骤a5处理后的表格框架中的图像特征。进一步,所述步骤a2包括:对经步骤al处理后的待识别表格,先以水平方向直线线段结构元素在水平方向上腐蚀,然后以膨胀结构元素为模板在垂直方向上进行一次膨胀,所述水平方向直线线段 结构元素的长度值为所述待识别表格的宽度的五分之三,所述膨胀结构元素为:本文档来自技高网...

【技术保护点】
一种自动识别表格类型的方法,其特征在于:包括:步骤a、提取待识别表格的图像特征;步骤b、将所述待识别表格的图像特征与表格特征库中表格的图像特征分别匹配,将从所述表格特征库中匹配到的表格的类型作为所述待识别表格的类型。

【技术特征摘要】
1.种自动识别表格类型的方法,其特征在于:包括: 步骤a、提取待识别表格的图像特征; 步骤b、将所述待识别表格的图像特征与表格特征库中表格的图像特征分别匹配,将从所述表格特征库中匹配到的表格的类型作为所述待识别表格的类型。2.权利要求1所述的自动识别表格类型的方法,其特征在于:所述图像特征包括:SUMX、SUMA、SUMB、SUMC、SUMD 和 SUME,SUMX 表示表格中中轴线条数,SUMA、SUMB、SUMC 和SUMD分别表示A、B、C和D四个区域内的中轴线条数,SUME表示矩形区域E内的中轴线条数,其中A、B、C和D四个区域为在表格的宽和高的中点处,将表格分为的2行2列的四个面积相等的区域,矩形区域E与表格有相同的中心,且宽和高均为表格的宽和高的三分之一。3.权利要求2所述的自动识别表格类型的方法,其特征在于:所述步骤b包括: 步骤bl、判断所述待识别表格的SUMX与所述表格特征库中表格的SUMX的差的绝对值是否小于第一阈值,若所述表格特征库中多个表格的SUMX与所述待识别表格的SUMX的差的绝对值均小于第一阈值,则执行步骤b2,若所述表格特征库中仅有一个表格的SUMX与所述待识别表格的SUMX的差的绝对值小于第一阈值,则将所述表格特征库中该仅有的一个表格的类型作为所述待识别表格的类型; 步骤b2、判断所述待识别表格的SUMA、SUMB、SUMC和SUMD与所述表格特征库中表格的SUMA、SUMB、SUMC和SUMD的差的绝对值是否分别小于第二阈值、第三阈值、第四阈值和第五阈值,若所述表格特征库多个表格的SUMA、SUMB, SUMC和SUMD与所述待识别表格的SUMA、SUMB, SUMC和SUMD的差的绝对值均小于对应的阈值,则执行步骤b3,若所述表格特征库中仅有一个表格的SUMA、SUMB, SUMC和SUMD与所述待识别表格的SUMA、SUMB, SUMC和SUMD的差的绝对值均小于对 应的阈值,则将所述表格特征库中该仅有的一个表格的类型作为所述待识别表格的类型; 步骤b3、判断所述待识别表格的SUME与所述表格特征库中表格的SUME的差的绝对值是否小于第六阈值,若所述表格特征库中多个表格的SUME与所述待识别表格的SUME的差的绝对值均小于第六阈值,则将该多个表格中与所述待识别表格的SUME的差的绝对值最小的表格的类型作为所述待识别表格的类型,若所述表格特征库中仅有一个表格的SUME与所述待识别表格的SUME的差的绝对值小于第六阈值,则将该仅有的一个表格的类型作为所述待识别表格的类型。4.权利要求3所述的自动识别表格类型的方法,其特征在于:第一阈值为所述待识别表格的SUMX的^ 分之一,第二阈值为所述待识别表格的SUMA的七分之一,第三阈值为所述待识别表格的SUMB的七分之一,第四阈值为所述待识别表格的SUMC的七分之一,第五阈值为所述待识别表格的SUMD的七分之一,第六阈值为所述待识别表格的SUME的五分之o5.权利要求1-4中任一项所述的自动识别表格类型的方法,其特征在于:所述步骤a包括: 步骤al、对待识别表格依次进行分割、二值化和滤波处理; 步骤a2、提取经步骤al处理后的待识别表格中的水平线段和垂直线段; 步骤a3、合并步骤a2中提取的水平线段和垂直线段得到表格框架; 步骤a4、对步骤a3得到的表格框架依次进行取反和细化处理;步骤a5、提取经步骤a5处理后的表格框架中的图像特征。6.权利要求5所述的自动识别表格类型的方法,其特征在于:所述步骤a2包括: 对经步骤al处理后的待识别表格,先以水平方向直线线段结构元素在水平方向上腐蚀,然后以膨胀结构元素为模...

【专利技术属性】
技术研发人员:余建桥郭加旋况远春王迎
申请(专利权)人:西南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1