一种基于篇章结构图卷积的隐式篇章关系分析方法和系统技术方案

技术编号:25709540 阅读:28 留言:0更新日期:2020-09-23 02:56
本发明专利技术提供一种基于篇章结构图卷积网络的隐式篇章关系分析方法和系统,包括S1,输入文章;S2,通过分类器识别篇章关系,其中,分类器的构建方法包括:S21、获取语料库样本和篇章关系类别,对样本进行预处理以获得篇章段落和样本的词向量;S22、将篇章段落中的论元输入Bi‑LSTM编码,获取样本的局部句子特征;S23、构建篇章结构图;S24、篇章结构图卷积,以获得样本的全局句子特征;S25、融合样本的全局句子特征和局部句子特征,并作为输入,将篇章关系类别作为输出,训练分类器。通过本发明专利技术,有效利用了上下文信息,提升了隐式篇章关系识别的准确度。

【技术实现步骤摘要】
一种基于篇章结构图卷积的隐式篇章关系分析方法和系统
本专利技术涉及一种隐式篇章关系分析方法,特别涉及一种基于篇章结构图卷积的隐式篇章关系分析方法和系统,属于自然语言处理应用

技术介绍
隐式篇章关系分析是篇章关系分析的重要分支,也是当前丞待解决的难点。隐式篇章关系建立在词法和句法分析之上,旨在篇章级别对没有篇章连接词连接的句际关系进行识别与归类。由于句子(亦称论元)之间缺乏篇章连接词,模型只能通过理解文本中的深层语义来识别句间的隐式关系,这十分具有挑战性。现有方法大多专注于论元本身的局部语义,而忽略篇章中的上下文信息。但是,篇章中的句子并非独立存在,而是往往围绕同一个话题并相互关联。有时,两个论元在不同的语境之中会产生不同的关系。因此掌握篇章的上下文信息,抽取结合篇章语境的论元表示十分有助于正确判断论元间篇章关系的类别。Dai等人初次在利用篇章上下文语义上前进了一步,他们引入一种篇章级别的神经网络,该模型基于序列模型双向LSTM实现,对篇章单元之间的相互依存以及篇章关系的连贯性进行建模,获得全局信息帮助分类。但这种基于序列模型的篇章建模方法有一定局限性。首先,序列模型自左向右或自右向左对篇章编码,会面临长距离遗忘的问题。其次,序列模型难以建模一些非连续的依赖,弱化了一些至关重要的关联信息,极易造成模型判断失误。综上所述,本专利技术创新性地提出利用论元间共指关系、词汇链关系及连接关系构造篇章结构图,并利用图卷积网络从篇章结构图中抽取融合上下文信息的论元表示帮助分类。在英文语料集PDTB2.0上的实验证明了考虑篇章上下文信息可有效提升隐式篇章关系分类的效果,且基于图结构的篇章建模方法优于层级化LSTM模型的建模方法。
技术实现思路
针对以上问题,本专利技术提出将篇章中各个句子之间的关联抽象为图结构,形成篇章结构图,并基于该图使用图卷积网络抽取融合篇章整体语义的论元表示以帮助分类,提升隐式篇章关系分析的效果。本专利技术技术方案的思想是:首先根据篇章中句子之间的共指关系、词汇链关系和连接关系构建篇章结构图。篇章结构图以单个论元为节点,有关联的论元之间相连。从文本的链接方式和篇章的特点这两个角度出发,我们确定了共指关系、词汇链关系和连接关系三种关系来构造图中的边,拟合句子之间长距离且非连续的依赖。其次,构建BiLSTM模型获取每句话的整体表示,用于初始化篇章结构图的节点。最后,应用图卷积网络在篇章结构图上抽取融合了篇章上下文语义的论元表示。该表示与BiLSTM的输出拼接作为最终的分类特征输入到分类器中。根据本专利技术的一个方面,提出一种基于篇章结构图卷积网络的隐式篇章关系分析方法,包括以下步骤:S1,输入文章;S2,通过分类器识别篇章关系。进一步的,所述分类器的构建方法包括:S21、获取语料库样本和篇章关系类别,对样本进行预处理以获得篇章段落和样本的词向量;S22、将篇章段落中的论元输入Bi-LSTM编码,获取样本的局部句子特征;S23、构建篇章结构图;S24、篇章结构图卷积,以获得样本的全局句子特征;S25、融合样本的全局句子特征和局部句子特征,并作为输入,将篇章关系类别作为输出,训练分类器。进一步的,所述步骤S21中,对样本进行预处理以获得段落和样本的词向量包括:S211、对所有的样本进行分词,构建词表;S212、针对样本,抽取所述样本在语料库中的若干句上文与所述样本构成篇章段落;S213、对篇章段落中的每句论元进行词向量初始化。进一步的,在所述步骤S213中,采用ELMo方法进行词向量初始化。进一步的,在所述步骤S23中,构建篇章结构图的方法包括:S231、以论元生成节点;S232、通过以下三种方式生成边:(1)通过指代链识别,为包含指代同一对象的论元节点生成边;(2)通过词汇链识别,为包含词汇链中词汇的论元节点生成边;(3)通过连接关系识别,为存在连接词的论元节点生成边。进一步的,词汇链的构建方法包括:(1)通过文本匹配识别篇章段落中重复出现的名词或名词短语;(2)利用wordnet中的关系与所述篇章关系类别,识别篇章段落中与所述重复出现的名词或名词短语相关的词,从而构成词汇链。进一步的,在所述步骤S24中,利用篇章结构图,使用GCN网络抽取论元融合上下文信息的全局句子特征。进一步的,在所述步骤S25中,通过双层感知机进行训练。根据本专利技术的另一方面,提出一种基于篇章结构图卷积网络的隐式篇章关系分析系统,包括分类器构建模块和篇章关系分析模块,其中,篇章关系分析模块用于接收篇章,将所述篇章输入分类器,并将分类器的输出结果呈现给用户。进一步的,分类器构建模块包括:样本获取单元、预处理单元、局部特征获取单元、篇章结构图构建单元、全局特征获取单元和训练单元;其中,样本获取单元,用于获取语料库中的样本或形成样本以及样本中的关系类别;预处理单元,用于对样本进行预处理以获得篇章段落和样本的词向量;局部特征获取单元,用于获取样本的局部句子特征;篇章结构图构建单元,用于构建篇章结构图;全局特征获取单元,用于对篇章结构图卷积,以获得样本的全局句子特征;训练单元,用于融合样本的全局句子特征和局部句子特征,并作为输入,将关系类别作为输出,训练分类器。本专利技术的有益效果是:通过构建篇章结构图有效利用上下文信息,提升了隐式篇章关系识别的准确度。附图说明图1为根据本专利技术一个实施例的方法流程图;图2为根据本专利技术一个实施例的系统架构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。下面结合附图和具体实施方式对本专利技术作进一步说明。本专利技术提出一种基于篇章结构图卷积的隐式篇章关系分析方法,该方法包括以下步骤:S1,输入文章;S2,通过分类器识别篇章关系。在步骤S2中,如图1所示,构建分类器的方法包括:S21、获取语料库样本和篇章关系类别,对样本进行预处理以获得篇章段落和样本的词向量;S22、将篇章段落中的论元输入Bi-LSTM编码,获取样本的局部句子特征;S23、构建篇章结构图;S24、篇章结构图卷积,以获得样本的全局句子特征;S25、融合样本的全局句子特征和局部句子特征,并作为输入,将篇章关系类别作为输出,训练分类器。在步骤S21中,获取语料库样本和篇章关系类别,对样本进行预处理。例如,选用PDTB2.0为语料集。PDTB2.0是当前最大的隐式篇章关系的数据集,其中包含16224个隐式样本。每个样本文档来自技高网
...

【技术保护点】
1.一种基于篇章结构图卷积网络的隐式篇章关系分析方法,其特征在于,包括以下步骤:/nS1,输入文章;/nS2,通过分类器识别篇章关系。/n

【技术特征摘要】
1.一种基于篇章结构图卷积网络的隐式篇章关系分析方法,其特征在于,包括以下步骤:
S1,输入文章;
S2,通过分类器识别篇章关系。


2.根据权利要求1所述的方法,其特征在于,所述分类器的构建方法包括:
S21、获取语料库样本和篇章关系类别,对样本进行预处理以获得篇章段落和样本的词向量;
S22、将篇章段落中的论元输入Bi-LSTM编码,获取样本的局部句子特征;
S23、构建篇章结构图;
S24、篇章结构图卷积,以获得样本的全局句子特征;
S25、融合样本的全局句子特征和局部句子特征,并作为输入,将篇章关系类别作为输出,训练分类器。


3.根据权利要求2所述的方法,其特征在于,所述步骤S21中,对样本进行预处理以获得段落和样本的词向量包括:
S211、对所有的样本进行分词,构建词表;
S212、针对样本,抽取所述样本在语料库中的若干句上文与所述样本构成篇章段落;
S213、对篇章段落中的每句论元进行词向量初始化。


4.根据权利要求3所述的方法,其特征在于,在所述步骤S213中,采用ELMo方法进行词向量初始化。


5.根据权利要求2所述的方法,其特征在于,在所述步骤S23中,构建篇章结构图的方法包括:
S231、以论元生成节点;
S232、通过以下三种方式生成边:
(1)通过指代链识别,为包含指代同一对象的节点生成边;
(2)通过词汇链识别,为包含词汇链中词汇的节点生成边;
(3)通过连接关系识别,为存在连接词的...

【专利技术属性】
技术研发人员:鉴萍张映雪
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1