一种面向领域的图片表格还原方法、系统技术方案

技术编号:37642165 阅读:16 留言:0更新日期:2023-05-25 10:09
本发明专利技术公开了一种面向领域的图片表格还原方法、系统,对输入图片进行表格检测输出表格区域;并进行文本块切分和识别,得到文本块对应的位置坐标和文本内容;对每个文本块原始图片处理生成掩码图片,将所有文本块原始图片的掩码图片进行拼接,生成表格区域的掩码图片,并输入图片语义分割模型,输出表格行列图片语义分割结果;对分割的列文本合并,并输入文本语义分割模型,得到文本语义单元集合,根据领域知识数据库得到矫正后的文本语义单元集合;根据文本语义单元集合、图片语义分割结果、对应的文本位置和文本内容,基于表格结构还原方法,输出表格的语义结构。本发明专利技术能够减少人工识别表格带来的时间损耗,深入利用表格图片信息,提升表格还原效果。提升表格还原效果。提升表格还原效果。

【技术实现步骤摘要】
一种面向领域的图片表格还原方法、系统


[0001]本专利技术涉及计算机处理
,尤其涉及的是一种面向领域的图片表格还原方法、系统、装置、计算机设备及存储介质。

技术介绍

[0002]随着互联网的不断发展,计算机相关行业不断的发展,研究人员不断深挖计算机相关技术,使得计算机算力、算法等得到了迅速的发展,而人工智能技术也在飞速发展并且在日常生活中得到了越来越多的应用。计算机视觉、自然语言处理技术等作为人工智能中的不同研究方向,吸引着计算机相关的研究人员进一步的深挖,其在图像识别、文档处理等方面有着许多的实际应用。而随着应用场景的复杂化,越来越多的研究人员意识到单用一个方向的技术难以解决现实的复杂问题,需要结合多个方向的方法,才能更好的解决实际问题。
[0003]在近二十年来,各产业对扫描文档电子化的需求不断增加,随之而来的是越发复杂的应用场景。在一家大型企业中,会面对不同种类的发票、表单、报表、商业合同等不同结构的文档,文档的版面信息分析是当下的一大热点与难点。而版面中的表格信息又尤为重要;与此同时,表格结构千变万化,采用简单的模板匹配难以适应大部分的需求。因此,表格结构还原一直是文档版面分析中的难点之一。
[0004]现有技术基于人工的表格图片输入方式在时间和人力上的需求较大,且使用传统表格结构还原方法在复杂场景的表格结构重构中失效,造成现有技术的表格图片输入的速度无法提高,无法提高工作效率。
[0005]因此,现有技术还有待改进和发展。

技术实现思路

[0006]本专利技术要解决的技术问题在于,针对现有技术的上述缺陷,提供一种面向领域的图片表格还原方法、系统、计算机设备及存储介质,本专利技术的面向领域的图片表格还原方法,可以加快表格图片输入的速度,降低相关工作投入的人力成本,提高工作效率。
[0007]本专利技术解决问题所采用的技术方案如下:
[0008]一种面向领域的图片表格还原方法,其中,所述方法包括:
[0009]获取输入的图片,对输入的图片进行预处理和表格检测,输出表格区域图片;
[0010]对所述表格区域图片,进行文本块切分并识别每个文本块字符,得到与每个文本块对应的位置坐标和文本内容;
[0011]对每个文本块对应的原始图片进行二值化处理,生成对应的掩码图片,将所有文本块原始图片对应的掩码图片按照对应位置信息与表格区域内非文本特征进行拼接,生成表格区域的掩码图片;
[0012]将表格区域的掩码图片输入图片语义分割模型,输出表格行列图片语义分割结果,得到表格行列分割结果;
[0013]对分割后的每一列的列文本,合并对应列文本,将合并后的文本输入文本语义分割模型,得到对应列的文本语义单元集合;根据预先构建的用于表格还原的领域知识数据库,矫正对应列的文本语义单元集合,得到矫正后的文本语义单元集合;
[0014]根据每一列的文本语义单元集合、图片语义分割结果、每个文本语义单元对应的文本位置和文本内容,基于表格结构还原方法,输出表格的语义结构。
[0015]所述的面向领域的图片表格还原方法,其中,所述对所述表格区域图片,进行文本块切分并识别每个文本块字符,得到与每个文本块对应的位置坐标和文本内容的步骤之前包括:
[0016]收集表格领域知识,分析收集的表格领域知识,对数据进行处理和分割,预先构建用于表格结构还原的领域知识库,其中,所述领域知识为基于词典与历史表格的表头信息进行抽取与合并、基于领域文本的实体抽取与表格行列表头的抽取、领域词典融合后所形成的表格领域知识。
[0017]所述的面向领域的图片表格还原方法,其中,所述对所述表格区域图片,进行文本块切分并识别每个文本块字符,得到与每个文本块对应的位置坐标和文本内容的步骤包括:
[0018]对表格区域图片进行文本位置检测:采用基于DBnet的深度学习神经网络训练的图片文本检测模型,对表格图片内的文本框进行位置检测,获得表格区域图批判内的文本块切分结果;
[0019]对表格区域图片进行文本内容识别:根据文本框位置对文本逐个裁剪,变为文本行图片,逐个输入基于CRNN的深度学习神经网络训练的文本识别模型中,输出文本框图片对应的文本字符串序列与预测的概率图;
[0020]根据表格区域图片文本位置检测结果与表格区域文本内容识别结果,对结果进行进一步处理,得到每个字符在图片中对应的起点位置、每个文本框对应的四个角点与每个文本框对应的字符串序列。
[0021]所述的面向领域的图片表格还原方法,其中,所述对每个文本块对应的原始图片进行二值化处理,生成对应的掩码图片,将所有文本块原始图片对应的掩码图片按照对应位置信息与表格区域内非文本特征进行拼接,生成表格区域的掩码图片的步骤包括:
[0022]提取表格区域图片非文本特征图:提取原图中对应表格区域的非文本表格特征,将提取出的非文本表格特征与原图对应表格区域做与操作,再进行滤波操作,得到原图中表格区域非文本表格特征图;
[0023]提取表格区域图片文本特征图:根据原图中表格区域字符识别的文本框位置,将逐个文本框位置进行二值化处理后形成掩码,再将逐个文本框的掩码与原始图片表格区域大小相同的空白图片上拼接后,得到原图表格区域中文本框位置的二值化特征图;
[0024]融合表格区域图片非文本特征图与文本特征图,得到掩码图:将原图表格区域中非文本表格特征图与文本特征图做或操作,得到两者特征结合的掩码图。
[0025]所述的面向领域的图片表格还原方法,其中,所述将表格区域的掩码图片输入图片语义分割模型,输出表格行列图片语义分割结果,得到表格行列分割结果的步骤包括:
[0026]根据表格区域图片文本识别结果,矫正掩码图:根据表格区域图片的文本识别结果中每个文本框的四个角点位置,对表格区域图片中整体的文本位置与角度进行定位,计
算文本倾斜角度,将文本旋转至水平位置;根据矫正位置后的文本位置,旋转输入的表格掩码图片,得到矫正后的掩码图;
[0027]将得到矫正后的掩码图输入图片语义分割模型,所述图片语义分割模型为基于深度学习的图像语义分割方法训练的表格图片分割模型,所述模型的输出为表格区域图片中可能出现的行、列区域;
[0028]根据图片语义分割模型分割结果,处理后得到表格行列分割结果。
[0029]所述的面向领域的图片表格还原方法,其中,所述对分割后的每一列的列文本,合并对应列文本,将合并后的文本输入文本语义分割模型,得到对应列的文本语义单元集合;根据预先构建的用于表格还原的领域知识数据库,矫正对应列的文本语义单元集合,得到矫正后的文本语义单元集合的步骤包括:
[0030]根据图片分割模型结果,得到列分割文本:
[0031]对得到的列分割文本进行文本分割;
[0032]对进行文本分割后的文本内容进行文本内容还原,得到还原后的单元格文本内容与单元格位置信息;
[0033]对表格中每列的文本语义单元集合,对表格内的文本内容属性进行筛选,得本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向领域的图片表格还原方法,其特征在于,所述方法包括:获取输入的图片,对输入的图片进行预处理和表格检测,输出表格区域图片;对所述表格区域图片,进行文本块切分并识别每个文本块字符,得到与每个文本块对应的位置坐标和文本内容;对每个文本块对应的原始图片进行二值化处理,生成对应的掩码图片,将所有文本块原始图片对应的掩码图片按照对应位置信息与表格区域内非文本特征进行拼接,生成表格区域的掩码图片;将表格区域的掩码图片输入图片语义分割模型,输出表格行列图片语义分割结果,得到表格行列分割结果;对分割后的每一列的列文本,合并对应列文本,将合并后的文本输入文本语义分割模型,得到对应列的文本语义单元集合;根据预先构建的用于表格还原的领域知识数据库,矫正对应列的文本语义单元集合,得到矫正后的文本语义单元集合;根据每一列的文本语义单元集合、图片语义分割结果、每个文本语义单元对应的文本位置和文本内容,基于表格结构还原方法,输出表格的语义结构。2.根据权利要求1所述的面向领域的图片表格还原方法,其特征在于,所述对所述表格区域图片,进行文本块切分并识别每个文本块字符,得到与每个文本块对应的位置坐标和文本内容的步骤之前包括:收集表格领域知识,分析收集的表格领域知识,对数据进行处理和分割,预先构建用于表格结构还原的领域知识库,其中,所述领域知识为基于词典与历史表格的表头信息进行抽取与合并、基于领域文本的实体抽取与表格行列表头的抽取、领域词典融合后所形成的表格领域知识。3.根据权利要求1所述的面向领域的图片表格还原方法,其特征在于,所述对所述表格区域图片,进行文本块切分并识别每个文本块字符,得到与每个文本块对应的位置坐标和文本内容的步骤包括:对表格区域图片进行文本位置检测:采用基于DBnet的深度学习神经网络训练的图片文本检测模型,对表格图片内的文本框进行位置检测,获得表格区域图批判内的文本块切分结果;对表格区域图片进行文本内容识别:根据文本框位置对文本逐个裁剪,变为文本行图片,逐个输入基于CRNN的深度学习神经网络训练的文本识别模型中,输出文本框图片对应的文本字符串序列与预测的概率图;根据表格区域图片文本位置检测结果与表格区域文本内容识别结果,对结果进行进一步处理,得到每个字符在图片中对应的起点位置、每个文本框对应的四个角点与每个文本框对应的字符串序列。4.根据权利要求1所述的面向领域的图片表格还原方法,其特征在于,所述对每个文本块对应的原始图片进行二值化处理,生成对应的掩码图片,将所有文本块原始图片对应的掩码图片按照对应位置信息与表格区域内非文本特征进行拼接,生成表格区域的掩码图片的步骤包括:提取表格区域图片非文本特征图:提取原图中对应表格区域的非文本表格特征,将提取出的非文本表格特征与原图对应表格区域做与操作,再进行滤波操作,得到原图中表格
区域非文本表格特征图;提取表格区域图片文本特征图:根据原图中表格区域字符识别的文本框位置,将逐个文本框位置进行二值化处理后形成掩码,再将逐个文本框的掩码与原始图片表格区域大小相同的空白图片上拼接后,得到原图表格区域中文本框位置的二值化特征图;融合表格区域图片非文本特征图与文本特征图,得到掩码图:将原图表格区域中非文本表格特征图与文本特征图做或操作,得到两者特征结合的掩码图。5.根据权利要求1所述的面向领域的图片表格还原方法,其特征在于,所述将表格区域的掩码图片输入图片语义分割模型,输出表格行列图片语义分割结果,得到表格行列分割结果的步骤包括:根据表格区域图片文本识别结果,矫正掩码图:根据表格区域图片的文本识别结果中每个文本框的四个角点位置,对表格区域图片中整体的文本位置与角度进行定位,计算文本倾斜角度,将文本旋转至水平位置;根据矫正位置后的文本位置,旋转输入的表格掩码图片,得到矫正后的掩码图;将得到矫正后的掩码图输入图片语义分割模型,所述图片语义分割模型为基于深度学习的图像语义分割方法训练的表格图片分割模型,所述模型的输出为表格区域图片中可能出现的行、列区域;根据图片语义分割模型分割结果,处理后得到表格行列分割结果。6.根据权利要求1所述的面向领域的图片表格还原方法,其特征在于,所述对分割后的每一列的列文本,合并对应列文本,将合并后的文本输入文本语义分割模型,得到对应列的文本语义单元集合;根据预先构建的用于表格还原的领域知识数据库,矫正对应列的文本语义单元集合,得到矫正后的文本语义单元集合的步骤包括:根据图片分割模型结果,得到列分割文本:对得到的列分割文本进行...

【专利技术属性】
技术研发人员:陈清财郑婕李东方
申请(专利权)人:哈尔滨工业大学深圳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1