基于大语言模型的多格式文档表格数据提取与对齐方法技术

技术编号:43880968 阅读:27 留言:0更新日期:2024-12-31 19:04
本发明专利技术公开了一种基于大语言模型的多格式文档表格数据提取与对齐方法,包括对可编辑文档/不可编辑文档进行表格提取,得到HTML格式的表格;基于大语言模型对HTML格式的表格进行分析,筛选出有用表格;采用大语言模型对筛选出的有用表格按照设定的标准字段进行对齐。本发明专利技术将基于人工规则的表格数据对齐标准化问题转化为基于大语言模型的语义识别的数据提取与对齐标准化问题,能够有效处理多类文档中的超长表格、跨页表格以及表格格式化问题,提取完整表格,并实现表格的标准化字段入库。

【技术实现步骤摘要】

本专利技术涉及数据处理,具体涉及基于大语言模型的多格式文档表格数据提取与对齐方法


技术介绍

1、随着信息技术的发展,企业和组织积累了大量的文档资料,这些文档既包括结构化数据(如excel表格),也涵盖了非结构化数据(如pdf报告、word文档等)。这些文档中常常包含了关键性的信息,尤其是以表格形式呈现的数据。然而,如何有效地从这些多类型文档中提取有用的信息,并进行数据对齐将其转化为可供分析和利用的标准结构化数据(数据对齐的目标是建立一个统一的数据字段命名规则和格式,不论原始表格来源于哪个文档或是使用了何种不同的术语,系统都可以辨认字段的各类同义词或类似表达,并将它们转换为一致的标准名称,从而保证数据的统一性和可比性),一直是信息处理领域面临的挑战。

2、对于多类文档表格的处理,目前尚未有全流程处理方法。对于表格数据对齐,目前的一种常见方法是利用专家先验知识来制定数据对齐规则,但其局限性在于规则需要人为制定和维护,十分耗时耗力。本专利技术提出一种全流程多格式文档表格提取和基于llm-agent的表格数据对齐技术,旨在解决这些问题,提供自动化和智本文档来自技高网...

【技术保护点】

1.基于大语言模型的多格式文档表格数据提取与对齐方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于大语言模型的多格式文档表格数据提取与对齐方法,其特征在于,所述可编辑文档包括Word文档、Excel文档和非扫描版PDF文件,可编辑文档的表格提取包括:采用Spire.Doc和DocX对Word文档进行表格提取、采用Xlrd、OpenpyXL和Pandas对Excel文档进行表格提取、采用Spire.PDF和pdfplumber对非扫描版PDF文件进行表格提取,得到HTML格式的表格;

3.根据权利要求1所述的基于大语言模型的多格式文档表格数据提取与对齐方...

【技术特征摘要】

1.基于大语言模型的多格式文档表格数据提取与对齐方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于大语言模型的多格式文档表格数据提取与对齐方法,其特征在于,所述可编辑文档包括word文档、excel文档和非扫描版pdf文件,可编辑文档的表格提取包括:采用spire.doc和docx对word文档进行表格提取、采用xlrd、openpyxl和pandas对excel文档进行表格提取、采用spire.pdf和pdfplumber对非扫描版pdf文件进行表格提取,得到html格式的表格;

3.根据权利要求1所述的基于大语言模型的多格式文档表格数据提取与对齐方法,其特征在于,所述对可编辑文档/不可编辑文档进行表格提取中包括跨页表格的识别与合并、html表格的文本转译、表格的表头识别。

4.根据权利要求3所述的基于大语言模型的多格式文档表格数据提取与对齐方法,其特征在于,所述跨页表格的识别与合并包括以下操作:sb1、创建一个临时存储空间;sb2、遍历非扫描版pdf文件或扫描版pdf文件每一页的每个表格:sb21、若表格不为页尾表格,则直接输出当前表格;若表格为页尾表格,将当前页尾表格保存于临时存储空间中,且遍历下一页所有表格;sb22、若下一页的第一个表格为页首表格且临时存储空间中有表格,并且页首表格的列数与临时存储空间的最后一个表格的列数、格式均一致,将当前页首表格保存于临时存储空间中,若第一个表格同时也为页尾表格,则继续处理再下一页,若第一个表格不是页首表格,则按先后顺序合并临时存储空间中所有表格并输出,且清空临时存储空间,输出的表格即为一个完整的跨页表格;sb23、重复sb21、sb22直至完成所有跨页表格的识别与合并。

5.根据权利要求4所述的基于大语言模型的多格式文档表格数据提取与对齐方法,其特征在于,对于表格是否处于页首或页尾的判断包括以下操作:由pdfplumber得到非扫描版pdf文件的页面信息、表格坐标的布局信息,或由layout模型得到扫描版pdf文件的页面信息、表格坐标的布局信息;根据布局信息和先验阈值来判断表格是否是处于页首或页尾。

6.根据权利要求3所述的基于大语言模型的多格式文档表格数据提取与对齐方法,其特征在于,所述html表格的文本转译包括以下操作:...

【专利技术属性】
技术研发人员:钟建林张振羽陶赵文张自平
申请(专利权)人:云筑信息科技成都有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1