一种基于篇章结构图卷积的隐式篇章关系分析方法和系统技术方案

技术编号：25709540 阅读：28 留言：0更新日期：2020-09-23 02:56

本发明专利技术提供一种基于篇章结构图卷积网络的隐式篇章关系分析方法和系统，包括S1，输入文章；S2，通过分类器识别篇章关系，其中，分类器的构建方法包括：S21、获取语料库样本和篇章关系类别，对样本进行预处理以获得篇章段落和样本的词向量；S22、将篇章段落中的论元输入Bi‑LSTM编码，获取样本的局部句子特征；S23、构建篇章结构图；S24、篇章结构图卷积，以获得样本的全局句子特征；S25、融合样本的全局句子特征和局部句子特征，并作为输入，将篇章关系类别作为输出，训练分类器。通过本发明专利技术，有效利用了上下文信息，提升了隐式篇章关系识别的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于篇章结构图卷积的隐式篇章关系分析方法和系统
本专利技术涉及一种隐式篇章关系分析方法，特别涉及一种基于篇章结构图卷积的隐式篇章关系分析方法和系统，属于自然语言处理应用

技术介绍
隐式篇章关系分析是篇章关系分析的重要分支，也是当前丞待解决的难点。隐式篇章关系建立在词法和句法分析之上，旨在篇章级别对没有篇章连接词连接的句际关系进行识别与归类。由于句子(亦称论元)之间缺乏篇章连接词，模型只能通过理解文本中的深层语义来识别句间的隐式关系，这十分具有挑战性。现有方法大多专注于论元本身的局部语义，而忽略篇章中的上下文信息。但是，篇章中的句子并非独立存在，而是往往围绕同一个话题并相互关联。有时，两个论元在不同的语境之中会产生不同的关系。因此掌握篇章的上下文信息，抽取结合篇章语境的论元表示十分有助于正确判断论元间篇章关系的类别。Dai等人初次在利用篇章上下文语义上前进了一步，他们引入一种篇章级别的神经网络，该模型基于序列模型双向LSTM实现，对篇章单元之间的相互依存以及篇章关系的连贯性进行建模，获得全局信息帮助分类。但这种基于序列模型的篇章建模方法有一定局限性。首先，序列模型自左向右或自右向左对篇章编码，会面临长距离遗忘的问题。其次，序列模型难以建模一些非连续的依赖，弱化了一些至关重要的关联信息，极易造成模型判断失误。综上所述，本专利技术创新性地提出利用论元间共指关系、词汇链关系及连接关系构造篇章结构图，并利用图卷积网络从篇章结构图中抽取融合上下文信息的论元表示帮助分类。在英文语料集PDTB2.0上的...

【技术保护点】
1.一种基于篇章结构图卷积网络的隐式篇章关系分析方法，其特征在于，包括以下步骤：/nS1，输入文章；/nS2，通过分类器识别篇章关系。/n

【技术特征摘要】
1.一种基于篇章结构图卷积网络的隐式篇章关系分析方法，其特征在于，包括以下步骤：
S1，输入文章；
S2，通过分类器识别篇章关系。

2.根据权利要求1所述的方法，其特征在于，所述分类器的构建方法包括：
S21、获取语料库样本和篇章关系类别，对样本进行预处理以获得篇章段落和样本的词向量；
S22、将篇章段落中的论元输入Bi-LSTM编码，获取样本的局部句子特征；
S23、构建篇章结构图；
S24、篇章结构图卷积，以获得样本的全局句子特征；
S25、融合样本的全局句子特征和局部句子特征，并作为输入，将篇章关系类别作为输出，训练分类器。

3.根据权利要求2所述的方法，其特征在于，所述步骤S21中，对样本进行预处理以获得段落和样本的词向量包括：
S211、对所有的样本进行分词，构建词表；
S212、针对样本，抽取所述样本在语料库中的若干句上文与所述样本构成篇章段落；
S213、对篇章段落中的每句论元进行词向量初始化。

4.根据权利要求3所述的方法，其特征在于，在所述步骤S213中，采用ELMo方法进行词向量初始化。

5.根据权利要求2所述的方法，其特征在于，在所述步骤S23中，构建篇章结构图的方法包括：
S231、以论元生成节点；
S232、通过以下三种方式生成边：
(1)通过指代链识别，为包含指代同一对象的节点生成边；
(2)通过词汇链识别，为包含词汇链中词汇的节点生成边；
(3)通过连接关系识别，为存在连接词的...

【专利技术属性】
技术研发人员：鉴萍，张映雪，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人