一种基于深度学习的图表提取方法及系统技术方案

技术编号：38465303 阅读：24 留言：0更新日期：2023-08-11 14:42

本发明专利技术提供了一种基于深度学习的图表提取方法及系统，方法包括：获取第一预设格式的文本文件，并将文本文件转换为第二预设格式的图片文件；通过预先训练好的定位识别检测模型对图片文件进行定位，获取图片文件中图表的位置信息；基于图表的位置信息，对图表进行表格结构分析，并根据表格结构分析结果对表格语义进行标注；通过xml解析获得所对应图表的标注信息，根据标注信息对图表进行结构重构及内容填充后存储至数据库。本发明专利技术通过统一图片格式对图表进行标注，并采用深度学习算法进行图表提取，能够增强图表提取的兼容性，提高图表的提取速度与准确率。提取速度与准确率。提取速度与准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的图表提取方法及系统

[0001]本专利技术涉及图表提取
，具体涉及一种基于深度学习的图表提取方法及系统。

技术介绍

[0002]对大多数人来说，从图表获取信息最为直观。图表形态分析是金融市场、科研领域等领域重要的分析方法之一，其有效性得到了广泛的验证。但是从大量文本中正确识别图表的形态极为困难，故如何使计算机获得自动而准确地识别图表形态的能力有重要研究意义。
[0003]目前，图片提取主要基于以下两个方向：1.从PDF、DOCX、PPTX等文本文件实现检测提取图表，其方法使用的是从文本协议文件解析入手，解析得到协议文件获取图表的信息，进而实现文本中的图表提取操作，提取得到的是图表在文本中对应的位置坐标以及其边界信息。2.从图片提取图表，使用数字图像处理技术对图片进行二值化操作，倾斜校正处理等一系列操作获得图表在图片中的位置以及长宽。
[0004]两种图表提取技术目标一致，但是所使用的方法截然不同，根本原因是图片与文本文件有着截然不同的差异。而且传统基于CPU的文本文件图表提取方法速度慢耗时长，基于数字图像处理的提取技术准确性不高，而且对文档格式要求较高，必须基于规范的PDF协议或者openoffice协议。

技术实现思路

[0005]因此，本专利技术要解决的技术问题是解决现有技术中图表提取耗时长、准确度低且格式受限的缺陷，从而提供一种基于深度学习的图表提取方法及系统，通过将各种格式的文档转为图片格式，能够基于深度学习的方式对表格图片进行快速提取，兼容性更强，提取...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的图表提取方法，其特征在于，包括如下步骤：获取第一预设格式的文本文件，并将所述文本文件转换为第二预设格式的图片文件；通过预先训练好的定位识别检测模型对所述图片文件进行定位，获取所述图片文件中图表的位置信息；基于图表的位置信息，对所述图表进行表格结构分析，并根据表格结构分析结果对表格语义进行标注；通过xml解析获得所对应图表的标注信息，根据所述标注信息对图表进行结构重构及内容填充后存储至数据库。2.根据权利要求1所述的基于深度学习的图表提取方法，其特征在于，还包括：通过可视化工具将所述数据库中所存储图表以图形化形式进行展示；和/或，将所述数据库中所存储图表以电子表格文件形式导出。3.根据权利要求1所述的基于深度学习的图表提取方法，其特征在于，所述第一预设格式，包括：PDF格式、Word格式、PPT格式或HTML格式；所述第二预设格式，包括JPG格式或PNG格式。4.根据权利要求1所述的基于深度学习的图表提取方法，其特征在于，所述定位识别检测模型的训练过程，包括：获取第一预设数量的表格图片，并将所述表格图片插入预先生成的第二预设数量的幻灯片文本中；将所述幻灯片文本按页转换为图片文件，通过并获取其中表格图片的位置与形状；根据所述表格图片的位置与形状生成所述图片文件的标签，并根据所述标签对所述幻灯片文本进行标注；通过xml解析获得所述图片文件的标注信息，并将所述标注数据划分为训练集及测试集；构建初始化Yolo模型，并将所述训练集输入至所述初始化Yolo模型进行训练，得到初始定位识别检测模型；将所述测试集输入至所述初始定位识别检测模型中进行权值调整，直至获得最佳权值所对应的定位识别检测模型。5.根据权利要求4所述的基于深度学习的图表提取方法，其特征在于，所述获取第一预设数量的表格图片的过程，包括：获取不同预设格式的文本文件，并将所述文本文件转换为对应的可读标记文本；通过所述文本文件的对应协议，提取所述可读标记文本中的原始图片；按照预设分类标准将所述原始图片分为预设类型；通过正则表达式在所述可读标记文本中提取所述原始图片的标题与脚注；根据所述标题与脚注，并通过二次标注对所述原始表格图片的分类结...

【专利技术属性】
技术研发人员：吴珂皓，薛逢源，李博岩，
申请(专利权)人：珠海盈米基金销售有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人