一种PDF中表格信息的抽取方法和系统技术方案

技术编号：34372419 阅读：12 留言：0更新日期：2022-07-31 11:49

本发明专利技术涉及深度学习技术领域，提供一种PDF中表格信息的抽取方法和系统。方法包括：获取PDF文件，并识别文件中包括表格的图像页；分割图像页得到多个表格单元，输入运行表格结构识别模型，得到目标序列；将表格单元的文本识别结果整合至根据目标序列中，得到html代码形式的表格抽取结果。本发明专利技术通过基于图像分割得到的表格单元进行表格结构框架识别，即采用多示例学习训练得到的模型进行表格结构框架识别，能够更为有效、精准地识别抽取PDF中的表格信息；同时，基于html序列的表格结构框架输出格式更为契合多示例学习训练得到的模型，针对表格信息抽取任务、尤其是复杂场景下的表格信息抽取任务具有更好的效率和准确性。息抽取任务具有更好的效率和准确性。息抽取任务具有更好的效率和准确性。

A method and system for extracting table information from PDF

全部详细技术资料下载

【技术实现步骤摘要】
一种PDF中表格信息的抽取方法和系统

[0001]本专利技术涉及深度学习
，尤其涉及一种PDF中表格信息的抽取方法和系统。

技术介绍

[0002]对于PDF中表格数据信息的处理与应用在很多实际生产场景中有着广泛的需求，近年来，随着基于人工智能的计算机视觉 (Computer Vision)任务的相关算法技术蓬勃发展，利用AI技术进行PDF表格信息的抽取是一个十分具有价值和意义的方向。
[0003]在实际生产中，往往我们需要对PDF中的表格数据进行系统地分析与整理，通常一个PDF文件中就会有多个表格信息，如果是人工进行整理需要耗费大量的人力成本与时间成本，是一个及其枯燥乏味的工作，因此运用技术手段采用自动化或者半自动化的方式进行PDF表格信息的抽取成为了一个重要的研究课题，而如何提供一种高效准确的PDF中表格信息的抽取方法和系统成为了业内亟需解决的技术问题。

技术实现思路

[0004]本专利技术提供一种PDF中表格信息的抽取方法和系统，用以解决现有技术中PDF中表格信息提取所需的人力成本与时间成本高的缺陷，针对PDF中的表格信息实现更为高效准确的抽取。
[0005]本专利技术提供一种PDF中表格信息的抽取方法，包括：
[0006]获取PDF文件，并识别所述PDF文件中包括表格的图像页；
[0007]分割所述图像页得到多个表格单元，并以所述表格单元为输入运行表格结构识别模型，得到目标序列；所述目标序列为基于表格结构框架的html序列；
[0008]将所述表格单...

【技术保护点】

【技术特征摘要】
1.一种PDF中表格信息的抽取方法，其特征在于，包括：获取PDF文件，并识别所述PDF文件中包括表格的图像页；分割所述图像页得到多个表格单元，并以所述表格单元为输入运行表格结构识别模型，得到目标序列；所述目标序列为基于表格结构框架的html序列；将所述表格单元的文本识别结果整合至根据所述目标序列中，得到html代码形式的表格抽取结果；所述表格结构识别模型是通过样本训练得到的模型。2.根据权利要求1所述的PDF中表格信息的抽取方法，其特征在于，所述表格结构识别模型是编码器
‑
解码器结构的模型；所述编码器能够提取所述表格单元的局域特征、全局特征以及关联特征，并进行编码得到特征提取结果；所述解码器能够根据所述特征提取结果得到表格结构框架。3.根据权利要求2所述的PDF中表格信息的抽取方法，其特征在于，所述表格结构识别模型是基于自注意力机制的模型；所述编码器能够提取源序列元素的局域特征、全局特征、关联特征以及元素序列特征；所述源序列包括有序的所述多个表格单元；所述源序列元素是指所述表格单元，或者拆分所述表格单元得到的字符或字符串；所述解码器能够：根据所述源序列元素的局域特征、全局特征、关联特征以及元素序列特征得到所述目标序列的第1个元素特征；根据所述源序列元素的局域特征、全局特征、关联特征、元素序列特征，以及所述目标序列的第1个至第i
‑
1个元素特征，得到所述目标序列的第i个元素特征；根据所述目标序列的元素特征得到所述目标序列的元素；所述目标序列元素为html字符或字符串。4.根据权利要求1所述的PDF中表格信息的抽取方法，其特征在于，所述获取PDF文件，并识别所述PDF文件中包括的表格的图像页的步骤包括：获取PDF文件；根据预设的表格识别规则和/或预设的PDF识别模型，识别所述PDF文件中包括表格的图像页；所述PDF识别模型是以PDF文件为输入、以所述PDF文件中包括表格的图像页为输出、基于YOLOv5算法的模型通过样本和标签训练得到的。5.根据权利要求1所述的PDF中表格信息的抽取方法，其特征在于，所述将所述表格单元的文本识别结果整...

【专利技术属性】
技术研发人员：王则远，刘鹏，
申请(专利权)人：灵犀量子北京医疗科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人