基于表格识别的表格文字信息提取的方法及系统技术方案

技术编号：21454635 阅读：22 留言：0更新日期：2019-06-26 05:00

本发明专利技术涉及一种基于表格识别的表格文字信息提取的方法及系统，其特征在于，包括如下步骤：利用图像算法框架载入表格图像；识别定位出表格图像中的所有横线，确定中间位置的横线为候选线；将候选线两端延长至左右边界，左右边界分别纵向延长至上下顶点；根据预设的相邻像素值，左右边界分别沿横向与相邻像素值内的节点进行连接，连接过程中，同时寻找纵向在相邻像素值内的节点进行连接；对于表格中每个单元格内的信息分别进行提取识别。本发明专利技术采取针对表格本身结构识别，进而尽可能的还原表格本身结构化的特征，再对每个表格内容进行独立识别再做个性化处理，使其完成针对性的提取表格内的文字信息，进而提高识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于表格识别的表格文字信息提取的方法及系统
本专利技术涉及表格文字识别
，尤其涉及一种基于表格识别的表格文字信息提取的方法及系统。
技术介绍
表格是文档中常用的数据资料载体，目前，表格在日常工作生活中得到广泛应用，大量的文档信息以简明的信息表达方式即表格形式存在，特别是IT、银行、金融等行业，每天要处理的表格数量惊人，如果这些表格都能由计算机来处理，将会大大提高工作效率。表格内容的自动输入、存储、管理已经成为文档智能处理领域的一个重要组成部分，表格内容的分析与识别是计算机文档处理中的一个重要项目，广泛应用于各种场合，例如商业和政府机构，表格中文字信息的提取具有很高的研究和应用价值。由于电脑软件的发展，目前的表格多是预先设计的模板，并用word、excel等软件打印而成，在设计模板的时候有些单元格长度或者宽度预留不足导致字体变小，或者单元格自动适配格式变化等多种情况出现，使得表格识别存在较多的特殊行。当前主流的算法大多是在不提取表格框线基础上，实现字线分离，从而识别所有文字信息后再进行内容上的进一步筛选，从而完成内容信息识别。主流的技术对于表格本身结构破坏性较高，同时使得表格信息结构化输出效果变弱，且不管用户需要识别表格所有内容还是需要识别部分表格信息，主流的算法都需要识别所有的文字信息后，再进行位置和信息的筛选，需要做大量的工作，综上所述，现有技术能够识别的表格类型较少，且存在准确率较低、速度较慢的问题。
技术实现思路
本专利技术所要解决的技术问题是克服现有技术中存在的不足，提供一种基于表格识别的表格文字信息提取的方法及系统。本专利技术是通过以下技术方案...

【技术保护点】
1.一种基于表格识别的表格文字信息提取的方法，其特征在于，包括如下步骤：a.利用图像算法框架载入表格图像；b.识别定位出表格图像中的所有横线，确定中间位置的横线为候选线；c.将候选线两端延长至左右边界，左右边界分别纵向延长至上下顶点；d.根据预设的相邻像素值，左右边界分别沿横向与相邻像素值内的节点进行连接，连接过程中，同时寻找纵向在相邻像素值内的节点进行连接；e.对于表格中每个单元格内的信息分别进行提取识别。

【技术特征摘要】
1.一种基于表格识别的表格文字信息提取的方法，其特征在于，包括如下步骤：a.利用图像算法框架载入表格图像；b.识别定位出表格图像中的所有横线，确定中间位置的横线为候选线；c.将候选线两端延长至左右边界，左右边界分别纵向延长至上下顶点；d.根据预设的相邻像素值，左右边界分别沿横向与相邻像素值内的节点进行连接，连接过程中，同时寻找纵向在相邻像素值内的节点进行连接；e.对于表格中每个单元格内的信息分别进行提取识别。2.根据权利要求1所述一种基于表格识别的表格文字信息提取的方法，其特征在于，步骤a还包括：在所述利用图像算法框架载入表格图像之后，对表格信息进行预处理。3.根据权利要求2所述一种基于表格识别的表格文字信息提取的方法，其特征在于，步骤c还包括：在所述左右边界分别纵向延长至上下顶点之后，对图像进行矫正处理。4.根据权利要求3所述一种基于表格识别的表格文字信息提取的方法，其特征在于，步骤e具体包括：根据表格结构特征对表格单元格进行ID标记；提取需要识别的表格对应标记的原图中局部图像；识别提取局部图像内的文字信息。5.根据权利要求4所述一种基于表格识别的表格文字信息提取的方法，其特征在于，步骤e还包括：在所述识别提取局部图像内的文字信息之前，进行局部图像增强处理。6.一种基于表格识别的表格文字信息提取的系统，其特征在于，包括：提取单元，用于利用图...

【专利技术属性】
技术研发人员：孙杰，王光夫，
申请(专利权)人：天津瑟威兰斯科技有限公司，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人