一种基于篇章级情境的目录提取方法、设备及存储介质技术

技术编号：40673020 阅读：5 留言：0更新日期：2024-03-18 19:10

本发明专利技术涉及文本处理技术领域，公开了一种基于篇章级情境的目录提取方法、设备及存储介质。方法包括步骤：S1.获取需要提取目录的文章以及该文章的文本段落信息。S2.对文章的每个段落进行语义提取，得到文章的段落语义特征。S3.将段落语义特征输入段落交互模型，从而提取基于篇章级情境的段落特征。S4.将段落特征输入条件随机场以计算文本段落信息取得正确目录层级链路的概率，从而递归地获得每个段落的目录层级标签，即完成目录提取任务。本发明专利技术直接采用深度学习方法进行任务建模，摒弃了繁琐的规则特征库构建过程。以数据驱动的方式来代替人工归纳的形式，极大地降低了人力成本，同时也提高了目录提取方法的泛化性与普适性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本处理，具体是一种基于篇章级情境的目录提取方法、设备及存储介质。

技术介绍

1、上市公司每年都会公开大量文档，用以向公众披露企业经营状况。在这些文档中，包括众多pdf文件和扫描文档，这些文档通常缺乏结构性信息，从而对后续的文档处理工作带来了严重挑战。在所有的文档结构信息中，目录信息具有关键重要性。目录不仅有助于划分文档的整体结构和逻辑，使读者更容易理解文章的组织和脉络，从而进行针对性阅读；还有助于文本处理人员快速定位文本解析范围，过滤无关内容，进而提高信息抽取的效率和准确性。因此，如何高效且准确地获取pdf等文档的目录结构信息是一项亟需解决的任务。

2、针对这一问题，现有方法大多通过人工构建目录规则特征库，利用规则匹配程度来判断并提取目录，例如申请号201910500726.4、201910973998.6、202310163468.1公开的目录提取技术。该思路主要通过人工归纳指示段落目录级别的特征词，如“第一章”、“第一节”等，对文章中所有段落进行遍历，采用正则匹配来判断是否具有相应特征词，从而完成目录提取任务。但该思路缺点同样明显。一方面，规则特征库需要人工花费大量精力去构建，同时无法保证已经穷举所有特征，对于库中没有的目录特征，会直接导致目录识别错误；另一方面，该方法无法保证获取的目录层级的准确性。不同文件的目录标签层级体系具有特异性。在某篇文档中，“第一节”可能属于一级目录；但在另一篇文档中，可能属于二级目录，仅仅根据规则特征来确定目录层级是不合理的。此外，特征工程方法通常不具备泛化性，因为不

3、为了克服上述缺点，部分研究人员将机器学习技术引入目录提取任务，该方法不依赖于人工构建规则库，而是依赖于模型学习数据中的模式，从而提高了适用性和泛化性。典型案例为申请号202211734526.3、202310291320.6公开的相关技术，主要采用分类模型来对每一段落是否是目录以及目录级别进行判断。该方法引入段落语义表征来对文章目录进行识别，缓解了对规则特征的过度依赖问题，但仍然无法保证目录层级识别的准确性。在不同的文章中，相似的语义表达可能属于不同的目录层级，仅仅依靠局部的语义表征同样无法处理文章的特异性。以上解决思路都只考虑到了目录规则与语义上的“共性”，而没有考虑到文章的“个性”。另外，目录层级间也具有一定的约束关系，例如一级目录后不会跳跃性出现三级目录，但以上方法在处理目录提取任务时均未考虑到这种目录层级间的联系。因此，如何有效处理目录提取任务，仍然是一个亟需解决的问题。

技术实现思路

1、为了避免和克服现有技术中存在的技术问题，本专利技术提供了一种基于篇章级情境的目录提取方法、设备及存储介质。本专利技术通过在处理目录提取任务时，剔除繁琐的规则库构建过程，同时基于篇章级语境学习到文章的特异性，最后采用条件随机场考虑目录层级间的关系性，从而提高目录提取任务的准确性。

2、为实现上述目的，本专利技术提供如下技术方案：

3、本专利技术公开一种基于篇章级情境的目录提取方法，包括以下步骤，即s1～s4。

4、s1.获取需要提取目录的文章以及该文章的文本段落信息。

5、s2.对文章的每个段落进行语义提取，得到文章的段落语义特征。

6、s3.将段落语义特征输入预先选取的段落交互模型，从而提取基于篇章级情境的段落特征。

7、s4.将段落特征输入条件随机场以计算文本段落信息取得正确目录层级链路的概率，从而递归地获得每个段落的目录层级标签，即完成目录提取任务。

8、作为上述方案的进一步改进，步骤s4中，文本段落信息取得正确目录层级链路的概率计算公式如下：

9、

10、式中，m∈[1,…,m-1]，m为文章的最大段落数量；ym为文章第m个段落的目录级别标签，tp为文章的文本段落信息；h(ym；tp)表示第m个段落tpm的目录级别预测为ym的得分，由段落特征经过一层以sigmoid作为激活函数的全连接层获得；g(ym；ym+1)表示由第m个段落的目录级别标签ym转移到第m+1个段落的目录级别标签ym+1的得分；z(tp)表示归一化因子，使最终结果符合概率分布。

11、作为上述方案的进一步改进，步骤s4中，采用viterbi算法递归地获得每个段落的目录层级标签。

12、作为上述方案的进一步改进，段落交互模型和条件随机场在应用之前参与联合训练以得到最优模型，训练过程如下：

13、采用最大似然法，以最大化目录层级链路的概率为目的设定目标函数。

14、设置最大迭代次数，利用反向传播和梯度下降法对目标函数进行训练，当达到最大迭代次数时停止训练，使目标函数达到最小，从而得到最优模型。

15、作为上述方案的进一步改进，步骤s3中，根据文章的最大段落数量选取段落交互模型，具体过程为：

16、当文章的最大段落数量不高于一个预设的文章段落数量阈值时，采用bert结构的段落交互模型。

17、当文章的最大段落数量高于文章段落数量阈值时，采用longformer结构的段落交互模型。

18、作为上述方案的进一步改进，步骤s3中，对选取的段落交互模型结构进行调整，删除词嵌入层，将段落语义特征输入该模型中，用以替代原始的词嵌入结果，从而提取基于篇章级情境的段落特征。

19、作为上述方案的进一步改进，步骤s1中，文章的文本段落信息提取方法具体包括以下步骤：

20、s11.将文章的所有文本行组成该文章的文本行信息。

21、s12.对文本行信息进行段落版式复原，采用段落识别模型实现由行到段的文本合并过程，从而获取文章的文本段落信息；文本段落信息由文章的所有文本段落组成。

22、作为上述方案的进一步改进，步骤s2中，将文章的每个段落依次输入预训练语言模型，得到段落的嵌入向量，从而获得文章的段落语义特征。

23、本专利技术还公开一种计算机设备，包括处理器和存储器，存储器存储有能够被处理器执行的计算机程序，处理器可执行计算机程序以实现上述基于篇章级情境的目录提取方法。

24、本专利技术还公开一种存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述基于篇章级情境的目录提取方法。

25、与现有技术相比，本专利技术的有益效果是：

26、1、本专利技术将目录提取问题转化为预测每一段落目录层级标签的序列标注问题。直接采用深度学习方法进行任务建模，摒弃了繁琐的规则特征库构建过程。以数据驱动的方式来代替人工归纳的形式，极大地降低了人力成本，同时也提高了目录提取方法的泛化性与普适性。

27、2、本专利技术充分考虑到文章的特异性。可通过transformer结构对文章所有段落进行交互式建模，有效提取文章的全文语境，从全文视角出发，能够充分考虑到不同文章的“个性”，从而为每篇文章“量身定制”目录层级体系，更本文档来自技高网...

【技术保护点】

1.一种基于篇章级情境的目录提取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于篇章级情境的目录提取方法，其特征在于，步骤S4中，文本段落信息取得正确目录层级链路的概率计算公式如下：

3.根据权利要求2所述的一种基于篇章级情境的目录提取方法，其特征在于，步骤S4中，采用viterbi算法递归地获得每个段落的目录层级标签。

4.根据权利要求2所述的一种基于篇章级情境的目录提取方法，其特征在于，所述段落交互模型和所述条件随机场在应用之前参与联合训练以得到最优模型，训练过程如下：

5.根据权利要求1所述的一种基于篇章级情境的目录提取方法，其特征在于，步骤S3中，根据文章的最大段落数量选取所述段落交互模型，具体过程为：

6.根据权利要求5所述的一种基于篇章级情境的目录提取方法，其特征在于，步骤S3中，对选取的段落交互模型结构进行调整，删除词嵌入层，将段落语义特征输入该模型中，用以替代原始的词嵌入结果，从而提取基于篇章级情境的段落特征。

7.根据权利要求1所述的一种基于篇章级情境的目录提取方法，其特征

8.根据权利要求1所述的一种基于篇章级情境的目录提取方法，其特征在于，步骤S2中，将文章的每个段落依次输入预训练语言模型，得到段落的嵌入向量，从而获得文章的段落语义特征。

9.一种计算机设备，包括处理器和存储器，其特征在于，所述存储器存储有能够被所述处理器执行的计算机程序，所述处理器可执行所述计算机程序以实现如权利要求1至8任意一项所述的一种基于篇章级情境的目录提取方法。

10.一种存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任意一项所述的一种基于篇章级情境的目录提取方法。

...

【技术特征摘要】

1.一种基于篇章级情境的目录提取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于篇章级情境的目录提取方法，其特征在于，步骤s4中，文本段落信息取得正确目录层级链路的概率计算公式如下：

3.根据权利要求2所述的一种基于篇章级情境的目录提取方法，其特征在于，步骤s4中，采用viterbi算法递归地获得每个段落的目录层级标签。

5.根据权利要求1所述的一种基于篇章级情境的目录提取方法，其特征在于，步骤s3中，根据文章的最大段落数量选取所述段落交互模型，具体过程为：

6.根据权利要求5所述的一种基于篇章级情境的目录提取方法，其特征在于，步骤s3中，对选取的段落交互模型结构进行调...

【专利技术属性】
技术研发人员：冯卫强，张友豪，徐旺，朱珊珊，
申请(专利权)人：合肥大智慧财汇数据科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人