基于计算机视觉和图卷积网络的复杂图表提取方法和系统技术方案

技术编号:36106658 阅读:17 留言:0更新日期:2022-12-28 14:07
本发明专利技术涉及一种基于计算机视觉和图卷积网络的复杂图表提取方法,包括以下步骤:步骤S1:将文档渲染成图像,采用计算机视觉及深度学习技术进行版面切分;步骤S2:对切分后的图像进行预处理;步骤S2:基于图卷积网络的模型对预处理后的图像拓扑结构进行分析,进行表格检测和提取。本发明专利技术实现了端到端的表格检测,有效提高检测效率及准确率。有效提高检测效率及准确率。有效提高检测效率及准确率。

【技术实现步骤摘要】
基于计算机视觉和图卷积网络的复杂图表提取方法和系统


[0001]本专利技术涉及图表数据解析和提取
,具体涉及一种基于计算机视觉和图卷积网络的复杂图表提取方法和系统。

技术介绍

[0002]随着应用的不断深化、数据量的日益激增,核心数据遍布在公司年报、财报、审计报告、IPO报告等文本、表格、图表信息中,甚至是扫描件等格式,这些都属于非结构化格式的数据,依靠人力阅读、定位、手动提取耗费大量时间,找到核心的图表数据需要大量时间。数据从原始报告抄录并经过一定计算到最终进入分析模型步骤繁多,手动操作易出错,而算法技术门槛高,样本多样性复杂,企业IT部门无法搞定。表格识别的目的是获取图像中的表格并访问其数据,是文档分析与识别领域的一个重要分支。如何有效地利用技术,以智能化手段将如何高效地从文档或图像中找到表格区域,实现数据的智能解析和智能提取,是当前面临的痛点和挑战。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提供一种基于计算机视觉和图卷积网络的复杂图表提取方法,实现了端到端的表格检测,有效提高检测效率及准确率。
[0004]为实现上述目的,本专利技术采用如下技术方案:
[0005]一种基于计算机视觉和图卷积网络的复杂图表提取方法,包括以下步骤:
[0006]步骤S1:将文档渲染成图像,采用计算机视觉及深度学习技术进行版面切分;
[0007]步骤S2:对切分后的图像进行预处理;
[0008]步骤S3:基于图卷积网络的模型对预处理后的图像拓扑结构进行分析,进行表格检测和提取。
[0009]进一步的,所述步骤S1采用全卷积神经网络识别出文档页面中每个独立的区域,包括标题、段落、表格、插图、数据图版面。
[0010]进一步的,所述全卷积神经网络通过卷积化、反卷积、跳层结构进行图像语义分割,具体如下:
[0011]将图像输入到卷积神经网络后,经过多次卷积及池化过程得到一系列的特征图;
[0012]然后经过上采样提升分辨率,并将图片的分辨率提升原图一致后,权重高的区域则为目标所在区域;
[0013]最后结合上采样和上层卷积池化后数据,修复还原的图像。
[0014]进一步的,所述全卷积神经网络采用了跳级连接的方法,将在卷积的前几层提取到的特征图分别和后面的上采样层相连,然后再相加继续往上上采样。
[0015]进一步的,所述预处理包括:
[0016](1)有红章遮挡
[0017]对于有红章遮挡的情况,通过对现有的文档进行红章去除操作,而后在进行文字
识别
[0018](2)有褶皱
[0019]存在褶皱的扫描件或者图片进行褶皱情况识别,包括可解析,部分解析,无法解析,如果无法解析进行不解析处理,报警解析结果进行人工干预,可解析进行首先进行褶皱程度评估,包括部分褶皱内容清晰可解析,褶皱严重解析内容准确率低于平均水平;部分褶皱内容清晰首先进行倾斜、倒立、矫正处理;而后根据进行表用途识别,已经标注样本数据比对;
[0020](3)图像倾斜
[0021]对于扫描件或者图片倾斜的情况,解析前对图像进行矫正处理后,再根据扫描件和图片处理算法进行解析;
[0022](4)图像侧立
[0023]对于扫描件或者图片侧立的情况,解析前对图像进行正向处理后,再根据扫描件和图片处理算法进行解析;
[0024](5)图像倒立
[0025]对于扫描件或者图片倒立的情况,解析前对图像进行正向处理后,再根据扫描件和图片处理算法进行解析;
[0026](6)跨页表格合并
[0027]对于扫描件或者图片中的表格,且存在跨页分割的情况,首先,如果是都存在表头的情况进行表头比对,而后根据表头内容进行表格合并;如果不存在表头,根据表格长度和表格的分割数量进行表格合并;
[0028](7)表格无线
[0029]对于扫描件或者图片中的不存存在表格的情况,包括开头和结尾存在、开头存在、结尾存在、海外无表格的情况;根据文中标题进行表格用途识别;识别后,根据样本标注结果进行匹配识别解析,并进行表格还原;无标题情况,根据标注结果进行样本数据匹配;匹配后进行解析表格还原;无样本数据情况下,表格预警,进行人工算法干预。
[0030]进一步的,所述步骤S3具体为:
[0031]首先,将表格结构的信息可以抽象化为节点之间的行列关系,即表格中同一列中的字符串都构成具有同列关系的节点,表格中同一行中的字符串都构成具有同行关系的节点,通过节点与节点之间的行列关系,最终可以还原出数字化结构的表格;
[0032]其次,采用ε

近邻图构建空间关系图,根据给定的样本表格数据集中的文本信息、位置信息和图片信息,通过欧式距离找出距离某一节点最近的ε个近邻样本,然后分别将ix与这ε个近邻样本连接起来,形成ε条有向边,对空间中所有节点均按此方式进行;
[0033]最后,构建扩散卷积神经网络,基于空间关系图中的每个边所指示的两个文本框,获得文本特征、位置特征和图像特征进行统一建模,并给出针对这两个文本框的结构位置预测,从而进行表格识别和提取。
[0034]进一步的,所述扩散卷积神经网络将图卷积视为扩散过程,设信息以一定的转移概率从一个节点转移到邻近的节点,使信息分布在几轮后达到均衡,那么每一层的卷积操作表示为:
[0035]H
(k)
=f(W
(k)

P
k
X)
[0036]其中K表示层数,P=D
‑1A代表转移矩阵,D是节点度矩阵,A 是邻接矩阵,P
k
就代表了卷积所能观测到的节点邻居范围,k=1时表示对距离为1的邻居节点的卷积,k=2时表示对距离为2的邻居节点的卷积。
[0037]一种基于计算机视觉和图卷积网络的复杂图表提取方法的系统,包括标注模块、训练模块和抽取模块;
[0038]所述标注模板通过自定义模板实现同一篇文档上进行多事件标注,首先创建指标和标注模板;其次创建标注集并上传待文件,支持 PDF文件和纯文本文件标注,最后可视化进行标注;
[0039]所述训练模块的训练进度和损失会动态更新并以可视化的图表展示,训练过程中产生的日志也会实时反馈在Web页面中,方便算法人员分析定位问题;训练结束后输出总体以及分指标的准确率、召回率以及F1

Socre,同时生成指标混淆矩阵;
[0040]所述抽取模块,根据训练成功的模型,可以立即发布成可直接调用的HTTP模型服务,并且可以通过输入文本来快速验证模型服务。
[0041]本专利技术与现有技术相比具有以下有益效果:
[0042]1、本专利技术实现了端到端的表格检测,表格检测的召回率远高于传统的表格检测算法;
[0043]2、本专利技术通过少量的标注就可以生成一个基础模型,提供算法预标注的结果,在继续的标注任务中可以选择已经训练好的模型,积累到一定数量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于计算机视觉和图卷积网络的复杂图表提取方法,其特征在于,包括以下步骤:步骤S1:将文档渲染成图像,采用计算机视觉及深度学习技术进行版面切分;步骤S2:对切分后的图像进行预处理;步骤S3:基于图卷积网络的模型对预处理后的图像拓扑结构进行分析,进行表格检测和提取。2.根据权利要求1所述的基于计算机视觉和图卷积网络的复杂图表提取方法,其特征在于,所述步骤S1采用全卷积神经网络识别出文档页面中每个独立的区域,包括标题、段落、表格、插图、数据图版面。3.根据权利要求2所述的基于计算机视觉和图卷积网络的复杂图表提取方法,其特征在于,所述全卷积神经网络通过卷积化、反卷积、跳层结构进行图像语义分割,具体如下:将图像输入到卷积神经网络后,经过多次卷积及池化过程得到一系列的特征图;然后经过上采样提升分辨率,并将图片的分辨率提升原图一致后,权重高的区域则为目标所在区域;最后结合上采样和上层卷积池化后数据,修复还原的图像。4.根据权利要求3所述的基于计算机视觉和图卷积网络的复杂图表提取方法,其特征在于,所述全卷积神经网络采用了跳级连接的方法,将在卷积的前几层提取到的特征图分别和后面的上采样层相连,然后再相加继续往上上采样。5.根据权利要求1所述的基于计算机视觉和图卷积网络的复杂图表提取方法,其特征在于,所述预处理包括:(1)有红章遮挡对于有红章遮挡的情况,通过对现有的文档进行红章去除操作,而后在进行文字识别(2)有褶皱存在褶皱的扫描件或者图片进行褶皱情况识别,包括可解析,部分解析,无法解析,如果无法解析进行不解析处理,报警解析结果进行人工干预,可解析进行首先进行褶皱程度评估,包括部分褶皱内容清晰可解析,褶皱严重解析内容准确率低于平均水平;部分褶皱内容清晰首先进行倾斜、倒立、矫正处理;而后根据进行表用途识别,已经标注样本数据比对;(3)图像倾斜对于扫描件或者图片倾斜的情况,解析前对图像进行矫正处理后,再根据扫描件和图片处理算法进行解析;(4)图像侧立对于扫描件或者图片侧立的情况,解析前对图像进行正向处理后,再根据扫描件和图片处理算法进行解析;(5)图像倒立对于扫描件或者图片倒立的情况,解析前对图像进行正向处理后,再根据扫描件和图片处理算法进行解析;(6)跨页表格合并对于扫描件或者图片中的表格,且存在跨页分割的情况,首先,如果是都存在表头的情况进行表头比对,而后根据表头内容进行表格合并;如果不存在表头,根据表格长度和表格
的分割数量进行表格合并;(7)表格无线对于扫描件或者图片中的不存存在表格的情况,包括开头和结尾存在、开头存在、结尾存在、海外无表格的情况;根据文中标题进行表格用途识别;识...

【专利技术属性】
技术研发人员:江秀伍惠英翁晓锋曹凯谢登峰方声财林晋瑶陈榕城
申请(专利权)人:福建省亿力信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1