基于表格识别的表格文字信息提取的方法及系统技术方案

技术编号:21454635 阅读:22 留言:0更新日期:2019-06-26 05:00
本发明专利技术涉及一种基于表格识别的表格文字信息提取的方法及系统,其特征在于,包括如下步骤:利用图像算法框架载入表格图像;识别定位出表格图像中的所有横线,确定中间位置的横线为候选线;将候选线两端延长至左右边界,左右边界分别纵向延长至上下顶点;根据预设的相邻像素值,左右边界分别沿横向与相邻像素值内的节点进行连接,连接过程中,同时寻找纵向在相邻像素值内的节点进行连接;对于表格中每个单元格内的信息分别进行提取识别。本发明专利技术采取针对表格本身结构识别,进而尽可能的还原表格本身结构化的特征,再对每个表格内容进行独立识别再做个性化处理,使其完成针对性的提取表格内的文字信息,进而提高识别准确率。

【技术实现步骤摘要】
基于表格识别的表格文字信息提取的方法及系统
本专利技术涉及表格文字识别
,尤其涉及一种基于表格识别的表格文字信息提取的方法及系统。
技术介绍
表格是文档中常用的数据资料载体,目前,表格在日常工作生活中得到广泛应用,大量的文档信息以简明的信息表达方式即表格形式存在,特别是IT、银行、金融等行业,每天要处理的表格数量惊人,如果这些表格都能由计算机来处理,将会大大提高工作效率。表格内容的自动输入、存储、管理已经成为文档智能处理领域的一个重要组成部分,表格内容的分析与识别是计算机文档处理中的一个重要项目,广泛应用于各种场合,例如商业和政府机构,表格中文字信息的提取具有很高的研究和应用价值。由于电脑软件的发展,目前的表格多是预先设计的模板,并用word、excel等软件打印而成,在设计模板的时候有些单元格长度或者宽度预留不足导致字体变小,或者单元格自动适配格式变化等多种情况出现,使得表格识别存在较多的特殊行。当前主流的算法大多是在不提取表格框线基础上,实现字线分离,从而识别所有文字信息后再进行内容上的进一步筛选,从而完成内容信息识别。主流的技术对于表格本身结构破坏性较高,同时使得表格信息结构化输出效果变弱,且不管用户需要识别表格所有内容还是需要识别部分表格信息,主流的算法都需要识别所有的文字信息后,再进行位置和信息的筛选,需要做大量的工作,综上所述,现有技术能够识别的表格类型较少,且存在准确率较低、速度较慢的问题。
技术实现思路
本专利技术所要解决的技术问题是克服现有技术中存在的不足,提供一种基于表格识别的表格文字信息提取的方法及系统。本专利技术是通过以下技术方案予以实现:一种基于表格识别的表格文字信息提取的方法,其特征在于,包括如下步骤:a.利用图像算法框架载入表格图像;b.识别定位出表格图像中的所有横线,确定中间位置的横线为候选线;c.将候选线两端延长至左右边界,左右边界分别纵向延长至上下顶点;d.根据预设的相邻像素值,左右边界分别沿横向与相邻像素值内的节点进行连接,连接过程中,同时寻找纵向在相邻像素值内的节点进行连接;e.对于表格中每个单元格内的信息分别进行提取识别。根据上述技术方案,优选地,步骤a还包括:在所述利用图像算法框架载入表格图像之后,对表格信息进行预处理。根据上述技术方案,优选地,步骤c还包括:在所述左右边界分别纵向延长至上下顶点之后,对图像进行矫正处理。根据上述技术方案,优选地,步骤e具体包括:根据表格结构特征对表格单元格进行ID标记;提取需要识别的表格对应标记的原图中局部图像;识别提取局部图像内的文字信息。根据上述技术方案,优选地,步骤e还包括:在所述识别提取局部图像内的文字信息之前,进行局部图像增强处理。一种基于表格识别的表格文字信息提取的系统,其特征在于,包括:提取单元,用于利用图像算法框架载入表格图像;筛选单元,用于识别定位出表格图像中的所有横线,确定中间位置的横线为候选线;第一连线单元,用于将候选线两端延长至左右边界,左右边界分别纵向延长至上下顶点;第二连线单元,用于根据预设的相邻像素值,左右边界分别沿横向与相邻像素值内的节点进行连接,连接过程中,同时寻找纵向在相邻像素值内的节点进行连接;识别单元,用于对于表格中每个单元格内的信息分别进行提取识别。根据上述技术方案,优选地,所述提取单元还包括:预处理模块,用于在所述利用图像算法框架载入表格图像之后,对表格信息进行预处理。根据上述技术方案,优选地,所述第一连线单元还包括:矫正模块,用于在所述左右边界分别纵向延长至上下顶点之后,对图像进行矫正处理。根据上述技术方案,优选地,所述识别单元具体包括:标记模块,用于根据表格结构特征对表格单元格进行ID标记;提取模块,用于提取需要识别的表格对应标记的原图中局部图像;分析模块,用于识别提取局部图像内的文字信息。根据上述技术方案,优选地,所述识别单元还包括:图像增强模块,用于在所述识别提取局部图像内的文字信息之前,进行局部图像增强处理。本专利技术的有益效果是:本专利技术采取针对表格本身结构识别,进而尽可能的还原表格本身结构化的特征,再对每个表格内容进行独立识别再做个性化处理,使其完成针对性的提取表格内的文字信息,进而提高识别准确率。附图说明图1是本专利技术的工作过程示意图。图2是本专利技术提取识别表格中每个单元格内信息部分的工作过程示意图。具体实施方式为了使本
的技术人员更好地理解本专利技术的技术方案,下面结合附图和最佳实施例对本专利技术作进一步的详细说明。如图所示,本专利技术公开了一种基于表格识别的表格文字信息提取的方法,其特征在于,包括如下步骤:a.利用图像算法框架载入表格图像,本例中利用图像算法框架openCV载入表格图像;b.识别定位出表格图像中的所有横线,确定中间位置的横线为候选线,本例中选取的候选线为两条;c.将候选线两端延长至左右边界,左右边界分别纵向延长至上下顶点;d.根据预设的相邻像素值,左右边界分别沿横向与相邻像素值内的节点进行连接,连接过程中,同时寻找纵向在相邻像素值内的节点进行连接,本例中预设的相邻像素值为100pixel,根据位置判断沿纵向与横向在100pixel内是否有节点,通过X方向、Y方向像素偏差容忍度,确认相邻的节点进行连接;e.对于表格中每个单元格内的信息分别进行提取识别。本专利技术采取针对表格本身结构识别,进而尽可能的还原表格本身结构化的特征,再对每个表格内容进行独立识别再做个性化处理,使其完成针对性的提取表格内的文字信息,进而提高识别准确率。根据上述实施例,优选地,步骤a还包括:在所述利用图像算法框架载入表格图像之后,对表格信息进行预处理,本例中通过对表格信息进行整体增强或者做低通滤波处理,增强表格结构部分,提高表格结构信息部分的识别准确度,以保证后续精确定位识别文字信息。根据上述实施例,优选地,所述候选线为两条,由于识别出的表格图像中的所有横线有可能存在表格外部的横线,选择中间两条横线为候选线,可以避免选取的候选线不是表格内的线。根据上述实施例,优选地,步骤c还包括:在所述左右边界分别纵向延长至上下顶点之后,对图像进行矫正处理,找到四个顶角点后,用warpPerspective对于有倾斜、有透视角度的图像进行矫正,以便后续连线操作。根据上述实施例,优选地,步骤e具体包括:根据表格结构特征对表格单元格进行ID标记;提取需要识别的表格对应标记的原图中局部图像;识别提取局部图像内的文字信息。图像内表格中所有的线段连接完毕后,表格本身结构信息即可以还原为计算机可以识别的信息,将表格中每个单元格从上到下、从左到右依次进行标记Image(m,n),左上角小图Image(0,0),右下角Image(m-1,n-1),并取出所有表格标记的单元格内部图像,通过Ocr(Image(m,n))提取文字信息并存储。根据上述实施例,优选地,步骤e还包括:在所述识别提取局部图像内的文字信息之前,进行局部图像增强处理,可以有目的地强调图像的局部特性,将原来不清晰的图像变得清晰,加强图像判读和识别效果,进而提高表格内文字信息的识别准确率,本例中图像增强处理可以通过低通滤波法或高通滤波法进行实现,采用低通滤波法可去掉图中的噪声,采用高通滤波法则可增强边缘等高频信号,使模糊的图片变得清晰。同时,本专利技术还公开了一种基本文档来自技高网
...

【技术保护点】
1.一种基于表格识别的表格文字信息提取的方法,其特征在于,包括如下步骤:a.利用图像算法框架载入表格图像;b.识别定位出表格图像中的所有横线,确定中间位置的横线为候选线;c.将候选线两端延长至左右边界,左右边界分别纵向延长至上下顶点;d.根据预设的相邻像素值,左右边界分别沿横向与相邻像素值内的节点进行连接,连接过程中,同时寻找纵向在相邻像素值内的节点进行连接;e.对于表格中每个单元格内的信息分别进行提取识别。

【技术特征摘要】
1.一种基于表格识别的表格文字信息提取的方法,其特征在于,包括如下步骤:a.利用图像算法框架载入表格图像;b.识别定位出表格图像中的所有横线,确定中间位置的横线为候选线;c.将候选线两端延长至左右边界,左右边界分别纵向延长至上下顶点;d.根据预设的相邻像素值,左右边界分别沿横向与相邻像素值内的节点进行连接,连接过程中,同时寻找纵向在相邻像素值内的节点进行连接;e.对于表格中每个单元格内的信息分别进行提取识别。2.根据权利要求1所述一种基于表格识别的表格文字信息提取的方法,其特征在于,步骤a还包括:在所述利用图像算法框架载入表格图像之后,对表格信息进行预处理。3.根据权利要求2所述一种基于表格识别的表格文字信息提取的方法,其特征在于,步骤c还包括:在所述左右边界分别纵向延长至上下顶点之后,对图像进行矫正处理。4.根据权利要求3所述一种基于表格识别的表格文字信息提取的方法,其特征在于,步骤e具体包括:根据表格结构特征对表格单元格进行ID标记;提取需要识别的表格对应标记的原图中局部图像;识别提取局部图像内的文字信息。5.根据权利要求4所述一种基于表格识别的表格文字信息提取的方法,其特征在于,步骤e还包括:在所述识别提取局部图像内的文字信息之前,进行局部图像增强处理。6.一种基于表格识别的表格文字信息提取的系统,其特征在于,包括:提取单元,用于利用图...

【专利技术属性】
技术研发人员:孙杰王光夫
申请(专利权)人:天津瑟威兰斯科技有限公司
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1