一种基于深度学习的图表提取方法及系统技术方案

技术编号:38465303 阅读:24 留言:0更新日期:2023-08-11 14:42
本发明专利技术提供了一种基于深度学习的图表提取方法及系统,方法包括:获取第一预设格式的文本文件,并将文本文件转换为第二预设格式的图片文件;通过预先训练好的定位识别检测模型对图片文件进行定位,获取图片文件中图表的位置信息;基于图表的位置信息,对图表进行表格结构分析,并根据表格结构分析结果对表格语义进行标注;通过xml解析获得所对应图表的标注信息,根据标注信息对图表进行结构重构及内容填充后存储至数据库。本发明专利技术通过统一图片格式对图表进行标注,并采用深度学习算法进行图表提取,能够增强图表提取的兼容性,提高图表的提取速度与准确率。提取速度与准确率。提取速度与准确率。

【技术实现步骤摘要】
一种基于深度学习的图表提取方法及系统


[0001]本专利技术涉及图表提取
,具体涉及一种基于深度学习的图表提取方法及系统。

技术介绍

[0002]对大多数人来说,从图表获取信息最为直观。图表形态分析是金融市场、科研领域等领域重要的分析方法之一,其有效性得到了广泛的验证。但是从大量文本中正确识别图表的形态极为困难,故如何使计算机获得自动而准确地识别图表形态的能力有重要研究意义。
[0003]目前,图片提取主要基于以下两个方向:1.从PDF、DOCX、PPTX等文本文件实现检测提取图表,其方法使用的是从文本协议文件解析入手,解析得到协议文件获取图表的信息,进而实现文本中的图表提取操作,提取得到的是图表在文本中对应的位置坐标以及其边界信息。2.从图片提取图表,使用数字图像处理技术对图片进行二值化操作,倾斜校正处理等一系列操作获得图表在图片中的位置以及长宽。
[0004]两种图表提取技术目标一致,但是所使用的方法截然不同,根本原因是图片与文本文件有着截然不同的差异。而且传统基于CPU的文本文件图表提取方法速度慢耗时长,基于数字图像处理的提取技术准确性不高,而且对文档格式要求较高,必须基于规范的PDF协议或者openoffice协议。

技术实现思路

[0005]因此,本专利技术要解决的技术问题是解决现有技术中图表提取耗时长、准确度低且格式受限的缺陷,从而提供一种基于深度学习的图表提取方法及系统,通过将各种格式的文档转为图片格式,能够基于深度学习的方式对表格图片进行快速提取,兼容性更强,提取速度更快,准确率更高。
[0006]本专利技术解决上述技术问题的技术方案如下:
[0007]第一方面,本专利技术提供了一种基于深度学习的图表提取方法,包括以下步骤:
[0008]获取第一预设格式的文本文件,并将所述文本文件转换为第二预设格式的图片文件;
[0009]通过预先训练好的定位识别检测模型对所述图片文件进行定位,获取所述图片文件中图表的位置信息;
[0010]基于图表的位置信息,对所述图表进行表格结构分析,并根据表格结构分析结果对表格语义进行标注;
[0011]通过xml解析获得所对应图表的标注信息,根据所述标注信息对图表进行结构重构及内容填充后存储至数据库。
[0012]本专利技术实施例提供的基于深度学习的图表提取方法,通过将文本文件统一转化为预设格式的图片文件,采用预先训练好的定位识别检测模型对图片文件进行定位,获取其
中图表的位置信息,根据位置信息对表格结构与表格语义进行分析与标注,并通过xml解析获取标注信息,基于标注信息对图表进行结构重构与内容填充后存储至数据库。本专利技术通过统一图片格式对图表进行标注,并采用深度学习算法进行图表提取,能够增强图表提取的兼容性,提高图表的提取速度与准确率。
[0013]可选地,通过可视化工具将所述数据库中所存储图表以图形化形式进行展示;和/或,将所述数据库中所存储图表以电子表格文件形式导出。
[0014]本专利技术通过将所提取的图表以图形化形式展示或电子表格文件形式导出,能够方便用户更直观获取图表中的信息,从而根据图表信息进行本领域的技术分析。
[0015]可选地,所述第一预设格式,包括:PDF格式、Word格式、PPT格式或HTML格式;所述第二预设格式,包括JPG格式或PNG格式。
[0016]本专利技术通过将各种格式的文本文件统一转化为预设格式的图片文件,对图片文件进行深度学习,从而提取其中的图表,使图表提取不受文本格式限制,有效解决了文本文件中图表难以解析及协议格式要求过严的问题,兼容性更强。
[0017]可选地,所述定位识别检测模型的训练过程,包括:获取第一预设数量的表格图片,并将所述表格图片插入预先生成的第二预设数量的幻灯片文本中;将所述幻灯片文本按页转换为图片文件,通过并获取其中表格图片的位置与形状;根据所述表格图片的位置与形状生成所述图片文件的标签,并根据所述标签对所述幻灯片文本进行标注;通过xml解析获得所述图片文件的标注信息,并将所述标注数据划分为训练集及测试集;构建初始化Yolo模型,并将所述训练集输入至所述初始化Yolo模型进行训练,得到初始定位识别检测模型;将所述测试集输入至所述初始定位识别检测模型中进行权值调整,直至获得最佳权值所对应的定位识别检测模型。
[0018]本专利技术通过预先训练深度学习Yolo模型对图表进行提取,在电脑有GPU的情况下图表提取速度更快,有效解决了图像处理速度慢的问题,能够达到实时级别。此外,将幻灯片文本转换为图片文件,并对图片文件进行标注,根据xml协议解析的标注信息生成训练集及测试集,能够有效解决文档格式要求过于严格的问题。
[0019]可选地,所述获取第一预设数量的表格图片的过程,包括:获取不同预设格式的文本文件,并将所述文本文件转换为对应的可读标记文本;通过所述文本文件的对应协议,提取所述可读标记文本中的原始图片;按照预设分类标准将所述原始图片分为预设类型;通过正则表达式在所述可读标记文本中提取所述原始图片的标题与脚注;根据所述标题与脚注,并通过二次标注对所述原始表格图片的分类结果进行复核和修正,获取第一预设数量的表格图片。
[0020]本专利技术收集海量的不同格式的文本文件作为训练样本,能够丰富样本数据。但是实际所获得的数据往往包含大量不同种类的文件,这种数据被称为脏数据。因此需要对脏数据进行处理,筛选出符合要求的图表图片。筛选过程中,按照预设类型进行第一次分类,再通过二次标注对第一次分类结果进行复核和修正,所得训练数据更干净,从而提高模型训练速度及准确度。
[0021]可选地,所述将表格图片插入预先生成的第二预设数量的幻灯片文本中的过程,包括:生成第二预设数量的空白幻灯片文本;通过在所述幻灯片文本中增加文字段落及无表格图片,来生成带背景幻灯片文本;将所述表格图片按照不同形状及不同内容的形式插
入带背景的幻灯片文本中;检测所述表格图片是否超出文本纸张范围,若超出则重新插入直至符合要求。
[0022]本专利技术在模型训练过程中,自定义创建幻灯片文本,并将表格图片插入幻灯片文本中,能够保证训练数据内容是已知且可控的,提高模型训练的准确性与可靠性。
[0023]可选地,所述基于图表的位置信息,对所述图表进行表格结构分析,包括:基于图表的位置信息,对所述图表的表头进行识别,获取所述图表的表头所在行和表头所在列;基于图表的位置信息,通过比较相邻单元格的内容、样式和位置信息,对所述图表的行列关系进行分析,判断每个单元格所属的行标题和列标题;基于图表的位置信息,根据单元格的样式、数据类型及上下文信息,对所述图表的单元格数据进行判断与提取,获取单元格数据的数据类型。
[0024]本专利技术通过图表位置信息对图表结构进行分析,获取图表表头、行列关系及单元格数据类型,能够掌握图表的结构信息,从而根据结构信息获得每个单元格内的内容的语义信息。
[0025]第二方面,本专利技术实施例提供了基于深度学习的图表提取系统,所述系统本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的图表提取方法,其特征在于,包括如下步骤:获取第一预设格式的文本文件,并将所述文本文件转换为第二预设格式的图片文件;通过预先训练好的定位识别检测模型对所述图片文件进行定位,获取所述图片文件中图表的位置信息;基于图表的位置信息,对所述图表进行表格结构分析,并根据表格结构分析结果对表格语义进行标注;通过xml解析获得所对应图表的标注信息,根据所述标注信息对图表进行结构重构及内容填充后存储至数据库。2.根据权利要求1所述的基于深度学习的图表提取方法,其特征在于,还包括:通过可视化工具将所述数据库中所存储图表以图形化形式进行展示;和/或,将所述数据库中所存储图表以电子表格文件形式导出。3.根据权利要求1所述的基于深度学习的图表提取方法,其特征在于,所述第一预设格式,包括:PDF格式、Word格式、PPT格式或HTML格式;所述第二预设格式,包括JPG格式或PNG格式。4.根据权利要求1所述的基于深度学习的图表提取方法,其特征在于,所述定位识别检测模型的训练过程,包括:获取第一预设数量的表格图片,并将所述表格图片插入预先生成的第二预设数量的幻灯片文本中;将所述幻灯片文本按页转换为图片文件,通过并获取其中表格图片的位置与形状;根据所述表格图片的位置与形状生成所述图片文件的标签,并根据所述标签对所述幻灯片文本进行标注;通过xml解析获得所述图片文件的标注信息,并将所述标注数据划分为训练集及测试集;构建初始化Yolo模型,并将所述训练集输入至所述初始化Yolo模型进行训练,得到初始定位识别检测模型;将所述测试集输入至所述初始定位识别检测模型中进行权值调整,直至获得最佳权值所对应的定位识别检测模型。5.根据权利要求4所述的基于深度学习的图表提取方法,其特征在于,所述获取第一预设数量的表格图片的过程,包括:获取不同预设格式的文本文件,并将所述文本文件转换为对应的可读标记文本;通过所述文本文件的对应协议,提取所述可读标记文本中的原始图片;按照预设分类标准将所述原始图片分为预设类型;通过正则表达式在所述可读标记文本中提取所述原始图片的标题与脚注;根据所述标题与脚注,并通过二次标注对所述原始表格图片的分类结...

【专利技术属性】
技术研发人员:吴珂皓薛逢源李博岩
申请(专利权)人:珠海盈米基金销售有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1