基于篇章语义结构的多模长文本抽取方法及系统技术方案

技术编号：40675161 阅读：3 留言：0更新日期：2024-03-18 19:12

本发明专利技术涉及自然语言处理技术领域，公开了基于篇章语义结构的多模长文本抽取方法及系统。该抽取方法先获取待处理文本，构建待处理文本的文本信息、段落信息、句子信息以及标签集合；然后设计文本字符特征信息、篇章段落结构特征信息以及段落句子结构特征信息，再对各特征信息进行语义特征提取，随后将文本字符语义特征、篇章段落语义特征和段落句子语义特征进行融合，生成融合后篇章结构的语义特征；最后将篇章段落的语义特征、段落句子的语义特征以及篇章结构的语义特征输入至预先构建的多模文本抽取模型中，得到核心段落识别结果、段落有效句识别结果以及文本字符识别结果。本发明专利技术能获取更丰富的语义信息，提升长文本抽取效果，并节省成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，具体是基于篇章语义结构的多模长文本抽取方法及系统。

技术介绍

1、当今互联网的深入普及，数据信息呈现爆炸式增长，这些数据蕴含着丰富的信息和知识，可以用于商业决策、市场预测、舆情分析等。通过对非结构化文本数据进行信息抽取，可以发现隐藏在数据中的潜在规律、关联和趋势，有助于形成新的知识和认识，其具有重要的理论和实际意义，可以为各行各业提供有益的支持。

2、随着深度学习的兴起，许多神经网络方法已成功应用于非结构化文本抽取问题。然而，使用深度学习模型时，模型输入长度的限制会导致在进行长文本抽取时，进行文本截取时损失部分语义信息，这将使得部分文本的语义信息无法被准确捕捉，从而导致数据分析结果的不准确或不完整。目前，针对长文本主要方式为直接进行文本截取或采用滑窗机制进行规避，也易导致信息损失。

3、现研究阶段的文本抽取模型未能充分挖掘篇章的语义结构信息，从而无法在多个角度和维度上进行特征学习。此外，还有学者提出了采用图像视觉信息用于改善长文本信息抽取，但是需要额外标注信息，成本较高。故研究一种通用的长文本抽取方法具有重要意义。

技术实现思路

1、为了避免和克服现有技术中存在长文本信息抽取效果欠佳且成本较高的技术问题，本专利技术提供了基于篇章语义结构的多模长文本抽取方法及系统。

2、为实现上述目的，本专利技术提供如下技术方案：

3、本专利技术公开基于篇章语义结构的多模长文本抽取方法，包括以下步骤，即s1至s5。

<p>4、s1.获取待处理文本，并构建待处理文本的文本信息、段落信息、句子信息以及标签集合。其中，文本信息由文本字符组成。标签集合由核心段落标签、有效句子标签以及文本标签组成，核心段落标签以及有效句子标签均是由文本标签中的结构位置信息进行映射获得。

5、s2.设计文本字符特征信息、篇章段落结构特征信息以及段落句子结构特征信息。其中，文本字符特征信息用于表达文本标签与文本字符的映射关系，篇章段落结构特征信息用于表达段落信息与核心段落标签的映射关系，段落句子结构特征信息用于表达句子信息与有效句标签的映射关系。

6、s3.分别对步骤s2中设计的各种特征信息进行语义特征提取，获取文本字符语义特征、篇章段落语义特征和段落句子语义特征。

7、s4.将文本字符语义特征、篇章段落语义特征和段落句子语义特征进行融合，生成融合后篇章结构的语义特征。

8、s5.将篇章段落的语义特征、段落句子的语义特征以及篇章结构的语义特征输入至预先构建的多模文本抽取模型中，得到核心段落识别结果、段落有效句识别结果以及文本字符识别结果。

9、作为上述方案的进一步改进，步骤s1中，核心段落标签的取值范围为：{b-核心段,i-核心段,e-核心段,s-核心段,o1}。其中，b-核心段表示核心段开始，i-核心段表示核心段中间，e-核心段表示核心段结束，s-核心段表示单个核心段，o1表示与核心段落无关的信息。

10、有效句子标签的取值范围为：{b-有效句,i-有效句,e-有效句,s-有效句,o2}。其中，b-有效句表示有效句开始，i-有效句表示有效句中间，e-有效句表示有效句结束，s-有效句表示单个有效句，o2表示与有效句子无关的信息。

11、文本标签的取值范围为：{b-实体,i-实体,e-实体,s-实体,o3}。其中，b-实体表示实体开始，i-实体表示实体中间，e-实体表示实体结束，s-实体表示单个实体，o3表示与实体无关的信息。

12、其中，文本标签信息通过人工标注获得，出现文本标签中实体相关标签的段落即为核心段落，出现文本标签中实体相关标签的句子即为有效句子。

13、作为上述方案的进一步改进，步骤s2中，在设计文本字符特征信息、篇章段落结构特征信息以及段落句子结构特征信息之前，还设定最大文本长度max_txtlen、最大段落个数max_paraamo、段落最大句子个数max_senamo，采用统一预处理操作对待处理文本进行清洗，保留区块标签，去除无关的标签和样式。区块标签包括段落标签和换行符。

14、其中，根据预处理后的文本，去除无效标签生成文本字符特征信息。

15、根据区块标签对预处理后的文本进行切分，获取基于篇章的段落集合以及段落间位置结构，从而生成篇章段落结构特征信息。

16、根据标点符号将段落集合中的每个段落进行切分，获取基于段落的句子集合以及句子间位置结构信息，从而生成段落句子结构特征信息。

17、作为上述方案的进一步改进，步骤s3中，对文本字符特征信息、篇章段落结构特征信息和段落句子结构特征信息分别采用预训练模型进行语义特征提取。

18、其中，当文本字符特征信息中的字符总数大于最大文本长度max_txtlen时，则采用大小为max_txtlen的窗口进行滑窗方式的文本字符语义特征提取；当最后的滑窗结构小于最大文本长度max_txtlen时，则进行填充操作。

19、当所述篇章段落结构特征信息中的段落总数小于最大段落个数max_paraamo时，则进行段落填充操作；反之则按照max_paraamo对多余的段落进行截断处理。

20、当段落句子结构特征信息中的句子总数小于段落最大句子个数max_senamo时，则进行句子填充操作；反之则按照max_senamo对多余的句子进行截断处理。

21、作为上述方案的进一步改进，步骤s4中，对篇章段落语义特征进行时序特征融合，得到篇章时序语义特征。对段落句子语义特征进行时序特征融合，得到段落句子时序语义特征。

22、随后，将篇章时序语义特征、段落句子时序语义特征和文本字符语义特征进行拼接，并采用注意力机制进行自适应融合，从而得到篇章结构的语义特征。

23、作为上述方案的进一步改进，采用bilstm进行时序特征融合。

24、作为上述方案的进一步改进，步骤s5中，由核心段落识别模型、段落有效句识别模型以及篇章结构文本抽取模型组建多模文本抽取模型。其中，核心段落识别模型、段落有效句识别模型以及篇章结构文本抽取模型均采用bilstm+crf模型结构。

25、作为上述方案的进一步改进，多模文本抽取模型的训练过程如下：

26、采用如下的多模损失函数作为多模文本抽取模型的目标函数wj：

27、wj＝λplossp+λslosss+λclossc

28、式中，lossp、losss、lossc分别表示核心段落识别模型、段落有效句识别模型、篇章结构文本抽取模型的损失函数，λp、λs、λc分别表示核心段落识别模型、段落有效句识别模型、篇章结构文本抽取模型的系数，且λp∈{0,1}，λs∈{0,1}，λc∈{0,1}。

29、设置最大迭代次数，使用反向传播和梯度下降算法对目标函数wj进行训练，使目标函数达到最小，并将最优模型进行保存，从而完成多模文本抽取模型的训练。

...

【技术保护点】

1.基于篇章语义结构的多模长文本抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于篇章语义结构的多模长文本抽取方法，其特征在于，步骤S1中，

3.根据权利要求1所述的基于篇章语义结构的多模长文本抽取方法，其特征在于，步骤S2中，在设计文本字符特征信息、篇章段落结构特征信息以及段落句子结构特征信息之前，还设定最大文本长度max_txtlen、最大段落个数max_paraamo、段落最大句子个数max_senamo，采用统一预处理操作对所述待处理文本进行清洗，保留区块标签，去除无关的标签和样式；所述区块标签包括段落标签和换行符；

4.根据权利要求3所述的基于篇章语义结构的多模长文本抽取方法，其特征在于，步骤S3中，对所述文本字符特征信息、所述篇章段落结构特征信息和所述段落句子结构特征信息分别采用预训练模型进行语义特征提取；

5.根据权利要求1所述的基于篇章语义结构的多模长文本抽取方法，其特征在于，步骤S4中，对所述篇章段落语义特征进行时序特征融合，得到篇章时序语义特征；对所述段落句子语义特征进行时序特征融合，得到段落句子时序语义特征；

6.根据权利要求5所述的基于篇章语义结构的多模长文本抽取方法，其特征在于，采用BiLSTM进行时序特征融合。

7.根据权利要求6所述的基于篇章语义结构的多模长文本抽取方法，其特征在于，步骤S5中，由核心段落识别模型、段落有效句识别模型以及篇章结构文本抽取模型组建所述多模文本抽取模型；其中，核心段落识别模型、段落有效句识别模型以及篇章结构文本抽取模型均采用BiLSTM+CRF模型结构。

8.根据权利要求7所述的基于篇章语义结构的多模长文本抽取方法，其特征在于，所述多模文本抽取模型的训练过程如下：

9.根据权利要求8所述的基于篇章语义结构的多模长文本抽取方法，其特征在于，核心段落识别模型、段落有效句识别模型和篇章结构文本抽取模型均采用以下公式计算损失函数Loss：

10.基于篇章语义结构的多模长文本抽取系统，其特征在于，用于实现如权利要求1至9中任一项所述的基于篇章语义结构的多模长文本抽取方法，该系统包括：

...

【技术特征摘要】

1.基于篇章语义结构的多模长文本抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于篇章语义结构的多模长文本抽取方法，其特征在于，步骤s1中，

3.根据权利要求1所述的基于篇章语义结构的多模长文本抽取方法，其特征在于，步骤s2中，在设计文本字符特征信息、篇章段落结构特征信息以及段落句子结构特征信息之前，还设定最大文本长度max_txtlen、最大段落个数max_paraamo、段落最大句子个数max_senamo，采用统一预处理操作对所述待处理文本进行清洗，保留区块标签，去除无关的标签和样式；所述区块标签包括段落标签和换行符；

4.根据权利要求3所述的基于篇章语义结构的多模长文本抽取方法，其特征在于，步骤s3中，对所述文本字符特征信息、所述篇章段落结构特征信息和所述段落句子结构特征信息分别采用预训练模型进行语义特征提取；

5.根据权利要求1所述的基于篇章语义结构的多模长文本抽取方法，其特征在于，步骤s4中，对所述篇章段落语义特征进行时序特征融合，得到篇章时序语义特征；...

【专利技术属性】
技术研发人员：冯卫强，张友豪，陈丹丹，闫文杰，
申请(专利权)人：合肥大智慧财汇数据科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人