System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理和信息检索,尤其涉及的是一种文本结构化抽取方法、系统、终端及介质。
技术介绍
1、在自然语言处理和信息检索领域,现有的端到端模型通常专注于文本的连续表示,而缺乏对文档结构的显式建模,使得在处理具有复杂结构的文档,如学术论文、法律文件或报告时,模型往往难以捕捉和利用段落之间的关系和层次结构,从而影响输出的结构化质量和准确性。
2、基于此,现有的利用段落索引与端到端模型相结合的方式来输出结构化文档的方法,其是通过生成文档的元数据,并将元数据与大型语言模型结合,以实现检索和答案生成,该方法虽然利用文档结构元数据增强了模型提示,提高了模型对文档结构的理解能力。但是,在处理pdf、网页和ppt等结构化文档时,倾向于将它们简化为纯文本,不仅容易忽略文档的结构层次,并且在处理长文档时,往往受限于对设定窗口大小对应的上下文的理解,使得模型对整篇文档结构的理解不够准确和全面,从而导致输出的结构化文档不够准确。
技术实现思路
1、鉴于上述现有技术的不足,本专利技术的目的在于提供一种文本结构化抽取方法、系统、终端及介质,旨在解决现有技术中用于生成结构化文档的方法的因对整篇文档结构的理解不够准确和全面,导致输出的结构化文档不够准确的问题。
2、为了实现上述目的,本专利技术第一方面提供一种文本结构化抽取方法,包括:
3、获取目标文本的解析文本,基于所述解析文本添加索引编号并拼接,获得目标拼接文本;
4、根据多个文本获得多个训练数据集;
5、利用所述多个训练数据集对预设大语言模型进行微调,得到微调大语言模型;
6、基于所述目标拼接文本通过所述微调大语言模型进行处理,生成所述目标文本的结构化内容。
7、可选的,所述获取目标文本的解析文本,基于所述解析文本添加索引编号并拼接,获得目标拼接文本,包括:
8、按照预设的文本解析格式,对所述目标文本的内容进行解析,得到解析文本;
9、获取所述解析文本中的各个段落;
10、分别为每个所述段落添加索引编号和标识符,获得若干添加索引编号的段落;
11、将所有所述添加索引编号的段落进行拼接,获得目标拼接文本。
12、可选的,所述根据多个文本获得多个训练数据集,包括:
13、根据所述多个文本得到拼接文本集;
14、基于所述拼接文本集通过预设第一大语言模型,得到第一训练数据集,其中所述第一训练数据集包含多个第一训练数据子集;
15、基于所述拼接文本集和所述第一训练数据集通过所述预设第一大语言模型,得到第二训练数据集;
16、根据所述拼接文本集构建第一提示集;
17、基于所述第一提示集通过所述预设第一大语言模型,得到第三训练数据集。
18、可选的,所述根据所述多个文本得到拼接文本集,包括:
19、获取由多个文本组成的初始文本集;
20、对所述初始文本集中的每个文本的每个段落依次添加索引编号和标识符后进行拼接,得到多个拼接文本;
21、组合所述多个拼接文本,得到所述拼接文本集。
22、可选的,所述基于所述拼接文本集通过预设第一大语言模型,得到第一训练数据集,包括:
23、基于所述拼接文本集中的每个拼接文本通过预设第一大语言模型,得到所述每个拼接文本的第一标题和所述第一标题的索引编号;
24、更新所述每个拼接文本的第一标题和所述第一标题的索引编号,得到多个第一训练数据子集;
25、根据所述多个第一训练数据子集,得到第一训练数据集。
26、可选的,更新所述每个拼接文本的第一标题和所述第一标题的索引编号,得到多个第一训练数据子集,包括:
27、根据所述拼接文本集中的每个拼接文本的标题和所述标题的索引编号,对对应的每个拼接文本的第一标题和所述第一标题的索引编号进行匹配和修改,得到每个拼接文本更新后的标题和对应的索引编号;
28、根据所述每个拼接文本更新后的标题和对应的索引编号,得到多个所述第一训练数据子集,其中一个第一训练数据子集对应一个拼接文本更新后的标题和所述更新后的标题对应的索引编号。
29、可选的,基于所述拼接文本集和所述第一训练数据集通过所述预设第一大语言模型,得到第二训练数据集,包括:
30、通过所述第一训练数据集和预设的第一提示模板构建第二提示,基于所述第二提示和所述第一训练数据集通过所述预设第一大语言模型,得到每个拼接文本的结构化标题;
31、基于所述拼接文本集,更新所述每个拼接文本的结构化标题,得到多个第二训练数据子集;
32、根据所述多个第二训练数据子集,得到第二训练数据集。
33、可选的,通过所述第一训练数据集和预设的第一提示模板构建第二提示,基于所述第二提示和所述第一训练数据集通过所述预设第一大语言模型,得到每个拼接文本的结构化标题,包括:
34、通过所述拼接文本的更新后的标题、所述标题对应的索引编号和预设的第一提示模板构建第二提示;
35、获取所述第一训练数据集中的每个第一训练数据子集;
36、将每个所述第一训练数据子集和所述第二提示通过所述预设第一大语言模型,得到每个拼接文本的结构化标题。
37、可选的,基于所述拼接文本集,更新所述每个拼接文本的结构化标题,得到多个第二训练数据子集,包括:
38、根据所述拼接文本集中的每个文本的标题对对应的每个拼接文本的结构化标题进行匹配和修改,得到所述每个拼接文本更新后的结构化标题;
39、根据得到的所述每个拼接文本更新后的结构化标题,得到多个所述第二训练数据子集,其中一个第二训练数据子集对应一个拼接文本更新后的结构化标题。
40、可选的,根据所述拼接文本集构建第一提示集,包括:
41、获取所述拼接文本集中每个拼接文本的提取对象;
42、根据所述每个拼接文本提取对象、所述每个拼接文本和预设的第二提示模板构建多个第一提示;
43、基于所述多个第一提示,得到第一提示集。
44、可选的,基于所述第一提示集通过所述预设第一大语言模型,得到第三训练数据集,包括:
45、基于所述第一提示集中的每个第一提示通过所述预设第一大语言模型,得到每个拼接文本的每个提取对象的索引编号;
46、根据所述每个拼接文本的每个提取对象的索引编号,得到第三训练数据集。
47、可选的,利用所述多个训练数据集对预设大语言模型进行微调,得到微调大语言模型,包括:
48、基于所述第一训练数据集、所述第二训练数据集和所述第三训练数据集利用微调技术对预设大语言模型进行训练,得到微调大语言模型。
49、可选的,基于所述目标拼接文本通过所述微调大语言模型进行处理,生成所述目标文本的结构化内容,包括:
50本文档来自技高网...
【技术保护点】
1.一种文本结构化抽取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的文本结构化抽取方法,其特征在于,所述获取目标文本的解析文本,基于所述解析文本添加索引编号并拼接,获得目标拼接文本,包括:
3.根据权利要求1所述的文本结构化抽取方法,其特征在于,所述根据多个文本获得多个训练数据集,包括:
4.根据权利要求3所述的文本结构化抽取方法,其特征在于,所述根据所述多个文本得到拼接文本集,包括:
5.根据权利要求3所述的文本结构化抽取方法,其特征在于,所述基于所述拼接文本集通过预设第一大语言模型,得到第一训练数据集,包括:
6.根据权利要求5所述的文本结构化抽取方法,其特征在于,更新所述每个拼接文本的第一标题和所述第一标题的索引编号,得到多个第一训练数据子集,包括:
7.根据权利要求3所述的文本结构化抽取方法,其特征在于,基于所述拼接文本集和所述第一训练数据集通过所述预设第一大语言模型,得到第二训练数据集,包括:
8.根据权利要求7所述的文本结构化抽取方法,其特征在于,通过所述第一训练数据集和预
9.根据权利要求7所述的文本结构化抽取方法,其特征在于,基于所述拼接文本集,更新所述每个拼接文本的结构化标题,得到多个第二训练数据子集,包括:
10.根据权利要求3所述的文本结构化抽取方法,其特征在于,根据所述拼接文本集构建第一提示集,包括:
11.根据权利要求3所述的文本结构化抽取方法,其特征在于,基于所述第一提示集通过所述预设第一大语言模型,得到第三训练数据集,包括:
12.根据权利要求3-11任一项所述的文本结构化抽取方法,其特征在于,所述利用所述多个训练数据集对预设大语言模型进行微调,得到微调大语言模型,包括:
13.根据权利要求7-11任一项所述的文本结构化抽取方法,其特征在于,基于所述目标拼接文本通过所述微调大语言模型进行处理,生成所述目标文本的结构化内容,包括:
14.根据权利要求13所述的文本结构化抽取方法,其特征在于,基于所述目标拼接文本通过微调大语言模型,得到目标拼接文本的结构化标题,包括:
15.根据权利要求13所述的文本结构化抽取方法,其特征在于,根据所述目标拼接文本构建第三提示,包括:
16.根据权利要求13所述的文本结构化抽取方法,其特征在于,对所述目标拼接文本、所述目标拼接文本的结构化标题、所述目标拼接文本的所有抽取对象及每个提取对象的索引编号进行处理,得到多个类型键值对,包括:
17.根据权利要求16所述的文本结构化抽取方法,其特征在于,基于所有所述键值对,生成所述目标文本的结构化内容后,包括:
18.根据权利要求16所述的文本结构化抽取方法,其特征在于,基于所有所述键值对,生成所述目标文本的结构化内容后,包括:
19.一种文本结构化抽取系统,其特征在于,应用于实现如权利要求1-18任意一项所述的文本结构化抽取方法的步骤,所述系统包括:
20.一种终端,其特征在于,所述终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的文本结构化抽取程序,所述文本结构化抽取程序被所述处理器执行时实现如权利要求1-18任意一项所述文本结构化抽取方法的步骤。
21.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文本结构化抽取程序,所述文本结构化抽取程序被处理器执行时实现如权利要求1-18任意一项所述文本结构化抽取方法的步骤。
...【技术特征摘要】
1.一种文本结构化抽取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的文本结构化抽取方法,其特征在于,所述获取目标文本的解析文本,基于所述解析文本添加索引编号并拼接,获得目标拼接文本,包括:
3.根据权利要求1所述的文本结构化抽取方法,其特征在于,所述根据多个文本获得多个训练数据集,包括:
4.根据权利要求3所述的文本结构化抽取方法,其特征在于,所述根据所述多个文本得到拼接文本集,包括:
5.根据权利要求3所述的文本结构化抽取方法,其特征在于,所述基于所述拼接文本集通过预设第一大语言模型,得到第一训练数据集,包括:
6.根据权利要求5所述的文本结构化抽取方法,其特征在于,更新所述每个拼接文本的第一标题和所述第一标题的索引编号,得到多个第一训练数据子集,包括:
7.根据权利要求3所述的文本结构化抽取方法,其特征在于,基于所述拼接文本集和所述第一训练数据集通过所述预设第一大语言模型,得到第二训练数据集,包括:
8.根据权利要求7所述的文本结构化抽取方法,其特征在于,通过所述第一训练数据集和预设的第一提示模板构建第二提示,基于所述第二提示和所述第一训练数据集通过所述预设第一大语言模型,得到每个拼接文本的结构化标题,包括:
9.根据权利要求7所述的文本结构化抽取方法,其特征在于,基于所述拼接文本集,更新所述每个拼接文本的结构化标题,得到多个第二训练数据子集,包括:
10.根据权利要求3所述的文本结构化抽取方法,其特征在于,根据所述拼接文本集构建第一提示集,包括:
11.根据权利要求3所述的文本结构化抽取方法,其特征在于,基于所述第一提示集通过所述预设第一大语言模型,得到第三训练数据集,包括:
12.根据权利要求3-11任一项所述的文本结...
【专利技术属性】
技术研发人员:刘晓辉,孙双龙,谢育涛,
申请(专利权)人:粤港澳大湾区数字经济研究院福田,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。