【技术实现步骤摘要】
基于计算机视觉和图卷积网络的复杂图表提取方法和系统
[0001]本专利技术涉及图表数据解析和提取
,具体涉及一种基于计算机视觉和图卷积网络的复杂图表提取方法和系统。
技术介绍
[0002]随着应用的不断深化、数据量的日益激增,核心数据遍布在公司年报、财报、审计报告、IPO报告等文本、表格、图表信息中,甚至是扫描件等格式,这些都属于非结构化格式的数据,依靠人力阅读、定位、手动提取耗费大量时间,找到核心的图表数据需要大量时间。数据从原始报告抄录并经过一定计算到最终进入分析模型步骤繁多,手动操作易出错,而算法技术门槛高,样本多样性复杂,企业IT部门无法搞定。表格识别的目的是获取图像中的表格并访问其数据,是文档分析与识别领域的一个重要分支。如何有效地利用技术,以智能化手段将如何高效地从文档或图像中找到表格区域,实现数据的智能解析和智能提取,是当前面临的痛点和挑战。
技术实现思路
[0003]有鉴于此,本专利技术的目的在于提供一种基于计算机视觉和图卷积网络的复杂图表提取方法,实现了端到端的表格检测,有效提高检测效率及准确率。
[0004]为实现上述目的,本专利技术采用如下技术方案:
[0005]一种基于计算机视觉和图卷积网络的复杂图表提取方法,包括以下步骤:
[0006]步骤S1:将文档渲染成图像,采用计算机视觉及深度学习技术进行版面切分;
[0007]步骤S2:对切分后的图像进行预处理;
[0008]步骤S3:基于图卷积网络的模型对预处理后的图像拓扑结构进行分析, ...
【技术保护点】
【技术特征摘要】
1.一种基于计算机视觉和图卷积网络的复杂图表提取方法,其特征在于,包括以下步骤:步骤S1:将文档渲染成图像,采用计算机视觉及深度学习技术进行版面切分;步骤S2:对切分后的图像进行预处理;步骤S3:基于图卷积网络的模型对预处理后的图像拓扑结构进行分析,进行表格检测和提取。2.根据权利要求1所述的基于计算机视觉和图卷积网络的复杂图表提取方法,其特征在于,所述步骤S1采用全卷积神经网络识别出文档页面中每个独立的区域,包括标题、段落、表格、插图、数据图版面。3.根据权利要求2所述的基于计算机视觉和图卷积网络的复杂图表提取方法,其特征在于,所述全卷积神经网络通过卷积化、反卷积、跳层结构进行图像语义分割,具体如下:将图像输入到卷积神经网络后,经过多次卷积及池化过程得到一系列的特征图;然后经过上采样提升分辨率,并将图片的分辨率提升原图一致后,权重高的区域则为目标所在区域;最后结合上采样和上层卷积池化后数据,修复还原的图像。4.根据权利要求3所述的基于计算机视觉和图卷积网络的复杂图表提取方法,其特征在于,所述全卷积神经网络采用了跳级连接的方法,将在卷积的前几层提取到的特征图分别和后面的上采样层相连,然后再相加继续往上上采样。5.根据权利要求1所述的基于计算机视觉和图卷积网络的复杂图表提取方法,其特征在于,所述预处理包括:(1)有红章遮挡对于有红章遮挡的情况,通过对现有的文档进行红章去除操作,而后在进行文字识别(2)有褶皱存在褶皱的扫描件或者图片进行褶皱情况识别,包括可解析,部分解析,无法解析,如果无法解析进行不解析处理,报警解析结果进行人工干预,可解析进行首先进行褶皱程度评估,包括部分褶皱内容清晰可解析,褶皱严重解析内容准确率低于平均水平;部分褶皱内容清晰首先进行倾斜、倒立、矫正处理;而后根据进行表用途识别,已经标注样本数据比对;(3)图像倾斜对于扫描件或者图片倾斜的情况,解析前对图像进行矫正处理后,再根据扫描件和图片处理算法进行解析;(4)图像侧立对于扫描件或者图片侧立的情况,解析前对图像进行正向处理后,再根据扫描件和图片处理算法进行解析;(5)图像倒立对于扫描件或者图片倒立的情况,解析前对图像进行正向处理后,再根据扫描件和图片处理算法进行解析;(6)跨页表格合并对于扫描件或者图片中的表格,且存在跨页分割的情况,首先,如果是都存在表头的情况进行表头比对,而后根据表头内容进行表格合并;如果不存在表头,根据表格长度和表格
的分割数量进行表格合并;(7)表格无线对于扫描件或者图片中的不存存在表格的情况,包括开头和结尾存在、开头存在、结尾存在、海外无表格的情况;根据文中标题进行表格用途识别;识...
【专利技术属性】
技术研发人员:江秀,伍惠英,翁晓锋,曹凯,谢登峰,方声财,林晋瑶,陈榕城,
申请(专利权)人:福建省亿力信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。