【技术实现步骤摘要】
表格识别方法和系统
[0001]本说明书涉及图像处理
,尤其涉及一种表格识别方法、系统。
技术介绍
[0002]表格因能有效存储文本和数据而广泛应用于各种领域,如保险理赔、线上办公等领域。在保险理赔中,保险理算作为其非常重要的一环,主要是从显示费用清单表格的纸本打印表格中获取明细金额,并根据明细金额计算需要理赔的金额。鉴于保险理算的人工成本较高,将纸本打印的表格扫描成表格图像,然后再通过自动化方式从该表格图像中提取明细金额的方式成为主流。该自动化提取明细金额的方式首先需要将表格图像中的表格识别并提取出来,生成电子表格。
[0003]传统的表格识别方法是基于摆正后的表格图像实现的,也即是,表格图像中的表格必须横平竖直,才能准确实现表格识别。然而,很多情况下表格图像中的表格并非横平竖直,而是扭曲的,比如拍摄表格的时候打印表格的纸张是弯曲的、褶皱的或者不够平整,这种情况下就无法准确识别出表格。因此,需要提供一种能够准确识别表格的表格识别方法、系统。
技术实现思路
[0004]本说明书提供一种能够准确识别表格图像中扭曲表格的表格识别方法和系统。
[0005]第一方面,本说明书提供一种表格识别方法,包括:获取包含目标表格的目标表格图像,所述目标表格包括多个文字区域,所述多个文字区域沿所述目标表格的行方向和/或列方向排列,每个文字区域内包括至少一个文字;从所述目标表格图像中,基于所述多个文字区域的位置提取所述目标表格的表格结构,所述表格结构包括所述多个文字区域在第一方向上分布的位置数据和在第 ...
【技术保护点】
【技术特征摘要】
1.一种表格识别方法,包括:获取包含目标表格的目标表格图像,所述目标表格包括多个文字区域,所述多个文字区域沿所述目标表格的行方向和/或列方向排列,每个文字区域内包括至少一个文字;从所述目标表格图像中,基于所述多个文字区域的位置提取所述目标表格的表格结构,所述表格结构包括所述多个文字区域在第一方向上分布的位置数据和在第二方向上分布的位置数据,所述第一方向是所述行方向和所述列方向中的一个方向,所述第二方向是所述行方向和所述列方向中的另一个方向;以及基于所述表格结构,从所述目标表格图像中提取所述目标表格的内容数据,并将所述目标表格的内容数据依照所述表格结构输出。2.如权利要求1所述的方法,其中所述获取包含目标表格的目标表格图像包括:获取待处理图像,所述待处理图像为打印在介质上的目标表格的扫描图像,所述待处理图像中的目标表格图像包括扭曲和倾斜的目标表格;对所述待处理图像进行倾斜矫正以矫正所述目标表格的倾斜,得到矫正图像;以及对所述矫正图像进行表格检测,提取所述矫正图像中的表格区域,得到所述包含目标表格的目标表格图像。3.如权利要求1所述的方法,其中所述基于所述多个文字区域的位置提取所述目标表格的表格结构包括:获取所述目标表格图像的二维的第一特征图,所述第一特征图中包括多个像素点;以像素为单位对所述第一特征图进行二维扫描,获取所述多个文字区域在所述第一方向上分布的位置数据和在所述第二方向上分布的位置数据;以及结合所述多个文字区域在所述第一方向上分布的位置数据和在所述第二方向上分布的位置数据,提取所述目标表格的所述表格结构。4.如权利要求3所述的方法,其中所述以像素为单位对所述第一特征图进行二维扫描,获取所述多个文字区域在所述第一方向上分布的位置数据和在所述第二方向上分布的位置数据包括:获取所述第一特征图在所述第一方向上的第一投影图;将所述第一投影图作为沿着所述第一方向判断文字区域的参考,以像素为单位对所述第一特征图进行二维扫描,获取所述多个文字区域在所述第一方向上分布的位置数据;以及获取所述第一特征图在所述第二方向上的第二投影图;将所述第二投影图作为沿着所述第二方向判断文字区域的参考,以像素为单位对所述第一特征图进行二维扫描,获取所述多个文字区域在所述第二方向上分布的位置数据。5.如权利要求4所述的方法,其中所述获取所述第一特征图在第一方向上的第一投影图包括:对所述第一特征图在所述第一方向上进行池化处理,获取所述第一投影图;所述获取所述第一特征图在所述第二方向上的第二投影图包括:对所述第一特征图在所述第二方向上进行池化处理,获取所述第二投影图。6.如权利要求4所述的方法,其中所述将所述第一投影图作为沿着所述第一方向判断文字区域的参考,以像素为单位对所述第一特征图进行二维扫描,获取所述多个文字区域
在所述第一方向上分布的位置数据包括:将所述第一投影图和所述第一特征图输入注意力
‑
记忆联合网络模型对所述第一特征图逐像素计算,获取所述多个文字区域在所述第一方向上分布的位置数据;所述将所述第二投影图作为沿着所述第二方向判断文字区域的参考,以像素为单位对所述第一特征图进行二维扫描,获取所述多个文字区域在所述第二方向上分布的位置数据包括:将所述第二投影图和...
【专利技术属性】
技术研发人员:任望,王剑,陈景东,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。