一种文本结构化抽取方法、系统、终端及介质技术方案

技术编号:43840137 阅读:51 留言:0更新日期:2024-12-31 18:36
本发明专利技术提供的一种文本结构化抽取方法、系统、终端及介质,具体涉及自然语言处理和信息检索技术领域,方案包括:获取目标文本的解析文本,基于解析文本添加索引编号并拼接,获得目标拼接文本;根据多个文本获得多个训练数据集;利用多个训练数据集对预设大语言模型进行微调,得到微调大语言模型;基于目标拼接文本通过微调大语言模型进行处理,生成目标文本的结构化内容。该方案将索引编号融入到文本段落中,能够通过索引编号指向目标文本的关键信息,提高大语言模型对整篇文本结构进行准确且全面的理解能力,不仅能够确保生成的目标文本的结构化内容保留文本中各个段落之间的层次结构,而且能够提高目标文本的结构化内容的可读性和准确性。

【技术实现步骤摘要】

本专利技术涉及自然语言处理和信息检索,尤其涉及的是一种文本结构化抽取方法、系统、终端及介质


技术介绍

1、在自然语言处理和信息检索领域,现有的端到端模型通常专注于文本的连续表示,而缺乏对文档结构的显式建模,使得在处理具有复杂结构的文档,如学术论文、法律文件或报告时,模型往往难以捕捉和利用段落之间的关系和层次结构,从而影响输出的结构化质量和准确性。

2、基于此,现有的利用段落索引与端到端模型相结合的方式来输出结构化文档的方法,其是通过生成文档的元数据,并将元数据与大型语言模型结合,以实现检索和答案生成,该方法虽然利用文档结构元数据增强了模型提示,提高了模型对文档结构的理解能力。但是,在处理pdf、网页和ppt等结构化文档时,倾向于将它们简化为纯文本,不仅容易忽略文档的结构层次,并且在处理长文档时,往往受限于对设定窗口大小对应的上下文的理解,使得模型对整篇文档结构的理解不够准确和全面,从而导致输出的结构化文档不够准确。


技术实现思路

1、鉴于上述现有技术的不足,本专利技术的目的在于提供一种文本结构化本文档来自技高网...

【技术保护点】

1.一种文本结构化抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的文本结构化抽取方法,其特征在于,所述获取目标文本的解析文本,基于所述解析文本添加索引编号并拼接,获得目标拼接文本,包括:

3.根据权利要求1所述的文本结构化抽取方法,其特征在于,所述根据多个文本获得多个训练数据集,包括:

4.根据权利要求3所述的文本结构化抽取方法,其特征在于,所述根据所述多个文本得到拼接文本集,包括:

5.根据权利要求3所述的文本结构化抽取方法,其特征在于,所述基于所述拼接文本集通过预设第一大语言模型,得到第一训练数据集,包括:

6...

【技术特征摘要】

1.一种文本结构化抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的文本结构化抽取方法,其特征在于,所述获取目标文本的解析文本,基于所述解析文本添加索引编号并拼接,获得目标拼接文本,包括:

3.根据权利要求1所述的文本结构化抽取方法,其特征在于,所述根据多个文本获得多个训练数据集,包括:

4.根据权利要求3所述的文本结构化抽取方法,其特征在于,所述根据所述多个文本得到拼接文本集,包括:

5.根据权利要求3所述的文本结构化抽取方法,其特征在于,所述基于所述拼接文本集通过预设第一大语言模型,得到第一训练数据集,包括:

6.根据权利要求5所述的文本结构化抽取方法,其特征在于,更新所述每个拼接文本的第一标题和所述第一标题的索引编号,得到多个第一训练数据子集,包括:

7.根据权利要求3所述的文本结构化抽取方法,其特征在于,基于所述拼接文本集和所述第一训练数据集通过所述预设第一大语言模型,得到第二训练数据集,包括:

8.根据权利要求7所述的文本结构化抽取方法,其特征在于,通过所述第一训练数据集和预设的第一提示模板构建第二提示,基于所述第二提示和所述第一训练数据集通过所述预设第一大语言模型,得到每个拼接文本的结构化标题,包括:

9.根据权利要求7所述的文本结构化抽取方法,其特征在于,基于所述拼接文本集,更新所述每个拼接文本的结构化标题,得到多个第二训练数据子集,包括:

10.根据权利要求3所述的文本结构化抽取方法,其特征在于,根据所述拼接文本集构建第一提示集,包括:

11.根据权利要求3所述的文本结构化抽取方法,其特征在于,基于所述第一提示集通过所述预设第一大语言模型,得到第三训练数据集,包括:

12.根据权利要求3-11任一项所述的文本结...

【专利技术属性】
技术研发人员:刘晓辉孙双龙谢育涛
申请(专利权)人:粤港澳大湾区数字经济研究院福田
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1