当前位置: 首页 > 专利查询>苏州大学专利>正文

基于结点表示法的指代消解方法技术

技术编号:21361694 阅读:26 留言:0更新日期:2019-06-15 09:24
本发明专利技术公开了一种基于结点表示法的指代消解方法,包括:结点表示法:给定成分句法树,通过后序遍历得到其对应的结点序列,然后通过“字词嵌入替换法”获得其初始表示,通过双向长短时记忆网络获得其上下文表示;特征补充法:从成分句法树上提出每个结点的特征集加入初始表示中,丰富节点的表示;结点更新法:结合注意力机制与门控机制,利用孩子节点序列更新双亲结点的表示;结点枚举策略。本发明专利技术的有益效果:通过“结点表示法”、“特征补充法”、“节点更新法”与节点枚举策略,将整棵成分句法树的信息编码加入模型中,弥补了传统模型忽略结构信息与句法信息的不足,增强了句法结构信息在指代消解系统中的表达。

Anaphora Resolution Method Based on Node Representation

The invention discloses a node representation-based anaphora resolution method, which includes: node representation: given component syntax tree, the corresponding sequence of nodes is obtained by post-order traversal, then the initial representation is obtained by \word embedding replacement method\, and the context representation is obtained by two-way long-term short-term memory network; feature complementation method: each node is proposed from component syntax tree. The feature set of points is added to the initial representation to enrich the representation of nodes; node updating method: combining attention mechanism and gated mechanism, using child node sequence to update the representation of parent nodes; node enumeration strategy. The beneficial effect of the present invention is that the information coding of the whole constituent syntax tree is added into the model by means of \node representation\, \feature complementation\, \node update\ and node enumeration strategy, which makes up for the deficiency of neglecting structural information and syntactic information in the traditional model and enhances the expression of the syntactic structure information in the anaphora resolution system.

【技术实现步骤摘要】
基于结点表示法的指代消解方法
本专利技术涉及机器语言处理领域,具体涉及一种基于结点表示法的指代消解方法。
技术介绍
指代是一种常见的语言现象,大量出现在篇章或者对话中。它保持了语言的简练,减少了冗余。比如句子“玛丽居里开创了放射性理论,专利技术了放射性同位素的技术。在她的指导下,人们第一次将放射性同位素用于治疗肿瘤”中,“她”指代“玛丽居里”。在语言学中,用于指向的语言单位成为照应语,如例中的“她”;所指向的对象或者内容成为先行词,如例中的“玛丽居里”。一般情况下,指代分为两种:回指和共指。回指是指当前的照应语与上文出现的词、短语或句子存在密切的语义关联性,指代依存于上下文语义中,在不同的语言环境中可能指代不同的实体,具有非对称性与非传递性;共指是指两个名词或者名词短语指向真实世界中的同一参照体,这种指代脱离上下文依然存在。目前的指代消解研究偏重于共指消解,本文亦然。指代消解的研究历史悠久。早期的研究主要通过专家构建领域知识,形成消解规则进行指代消解。近年来,得益于自然语言处理会议的召开和其公布的标注良好的指代消解语料,指代消解的研究转向了数据驱动的方法。特别是随着深度学习技术的兴起和发展,越来越多的学者开始应用深度学习方法于指代消解研究。目前深度学习技术在指代消解任务上应用最为广泛。其中典型的工作是Lee等人[1]于2017年提出的基于神经网络的端到端指代消解框架,该框架构成如图1所示。对于输入文本ND为文本D所包含的单词数,从中抽取出短语集合S={s1,s2,...,sn},其中bi与ei分别表示短语si的开始位置与结束位置的单词的下标,故1≤bi≤ei≤ND,si的宽度为ei-bi+1。该模型的主要思想是利用嵌入层、上下文表示层与注意力机制对短语进行表示,然后通过前馈神经网络对短语进行打分,并根据得分进行修剪,保留置信度较高的短语成为待消解项;对于每一个待消解项,与之前的所有候选先行词分别配对,并使用前馈神经网络计算其间存在指代关系的置信度,取置信度最高的候选先行词作为最终的消解结果。下面对图中的每一层进行简要阐述:嵌入层:对于通过字、词嵌入,得到单词对应的嵌入表示其中wi与ci分别表示单词wi的词嵌入向量与字嵌入向量。上下文表示层:给定使用双向LSTM作为表示层来获得xi对应的上下文表示短语表示层与修剪层:给定短语设定该短语的向量表示为:其中fi表示额外的特征向量(此处编码短语的宽度特征),通过以下注意力机制计算得出:得到所有短语的向量表示后,使用前馈神经网络对其进行打分:scorem(i)=FFNNm(si)(0.17)然后取得分最高的前k个短语作为待消解项集合A,参与后续的消解操作。消解层:给定待消解项si与其候选先行词sj,其中si∈A,sj∈{ε}∪{sk|1≤k≤i-1},0≤j<i≤k。当j=0时,sj=ε,表示si不存在任何候选先行词。类似地,使用前馈神经网络来获得si与sj之间的先行词得分:scorea(i,j)=FFNNa([si,sj,si⊙sj,fi,j])(0.18)其中,fi,j编码si与sj之间的讲述者、篇章类型与距离特征。进一步地,可以得到si与sj之间的指代得分:最终,取si的候选先行词集合中与si指代得分最高的sj*=argmaxjscore(i,j)作为si的最终消解结果。传统技术存在以下技术问题:大量的研究表明结构信息对于指代消解任务来说至关重要。同时语料中存在的大量的表述间嵌套情况也侧面反映了结构信息的普遍性与研究意义。但是基准平台只编码了文本的线性结构,忽略了文本内部潜在的树形结构信息。参考文献:[1]LeeK,HeL,LewisM,etal.End-to-endNeuralCoreferenceResolution[C]//Proceedingsofthe2017ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.2017:188-197.
技术实现思路
本专利技术要解决的技术问题是提供一种基于结点表示法的指代消解方法,将成分句法树“扁平化”为节点序列,通过结合双向LSTM、特征工程、门控与注意力机制对节点序列进行编码与表示,并最终加入神经指代消解模型中,增强模型中结构信息的表达。为了解决上述技术问题,本专利技术提供了一种基于结点表示法的指代消解方法,包括:节点表示法:给定句法树t,通过后序遍历得到结点序列其中nt表示t中结点的总数(不包括“单词结点”);然后利用“字词嵌入替换法”初始化节点序列的表示:首先使用零向量对其进行初始化,然后,对序列中与“单词结点”连接结点对应位置的向量表示,替换为对应单词的字词嵌入表示:使用特征集进一步丰富序列中结点的表征:特征集包括左右兄弟数、标签与路径特征,其定义如下:结点x的左右兄弟数:如果两个结点拥有相同的双亲,则称它们为兄弟;由于成分句法树是有序数,定义结点x的左右兄弟数为:[x左侧(或之前)兄弟的数目,x左右(或之后)兄弟的数目];结点x的标签:即结点x在成分句法树中的标签;结点x的路径:从结点x到根结点的简单路径所经过结点的标签序列,标签序列以x的标签开始,以根结点的标签结束;将加入特征集的O(t)作为上下文表示层的输入,使得上下文表示层能够学习到序列潜在的层次结构表示,而不仅仅是简单的线性结构;得到对应O(t)的上下文表示:使用“结点更新法”进一步增强结构信息的表示:具体地,对于结点序列中的任意结点将其孩子结点序列记为并利用以下公式计算孩子结点序列的固定维度的向量表示:这里,使用注意力机制实现Γ函数,公式如下:然后结合门控机制,更新结点的表示:显然,当时,最终再利用新的上下文表示层对h′i(t)进行重新编码,得到新的上下文表示,这里仍将其结果记为得到新的H(t);由于后续的操作(即短语的表示)只需要单词序列的上下文表示,因此需要再从H(t)中提取出叶子结点(即单词)序列的上下文表示L(t):对文档D中的每一个成分句法树应用相同的操作,然后按照句子的顺序将其拼接起来,得到文档D的新的上下文表示:其中,一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。本专利技术的有益效果:通过“结点表示法”、“特征补充法”、“节点更新法”与节点枚举策略,将整棵成分句法树的信息编码加入模型中,弥补了传统模型忽略结构信息与句法信息的不足,增强了句法结构信息在指代消解系统中的表达。附图说明图1是
技术介绍
中的基于神经网络的端到端指代消解框架的示意图。图2是本专利技术基于结点表示法的指代消解方法中的结点的表示与更新示意图。图3是本专利技术基于结点表示法的指代消解方法中的成分句法树示例。图4是本专利技术基于结点表示法的指代消解方法中的后序遍历后的成分句法树示例。图5是本专利技术基于结点表示法的指代消解方法中的注意力机制示例。具体实施方式下面结合附图和具体实施例对本专利技术作进一步说明,以使本领域的技术人员可以更好地理解本专利技术并能予以实施,但所举实施例不作为对本本文档来自技高网
...

【技术保护点】
1.一种基于结点表示法的指代消解方法,其特征在于,包括:节点表示法:给定句法树t,通过后序遍历得到结点序列

【技术特征摘要】
1.一种基于结点表示法的指代消解方法,其特征在于,包括:节点表示法:给定句法树t,通过后序遍历得到结点序列其中nt表示t中结点的总数(不包括“单词结点”);然后利用“字词嵌入替换法”初始化节点序列的表示:首先使用零向量对其进行初始化,然后,对序列中与“单词结点”连接结点对应位置的向量表示,替换为对应单词的字词嵌入表示:使用特征集进一步丰富序列中结点的表征:特征集包括左右兄弟数、标签与路径特征,其定义如下:结点x的左右兄弟数:如果两个结点拥有相同的双亲,则称它们为兄弟;由于成分句法树是有序数,定义结点x的左右兄弟数为:[x左侧(或之前)兄弟的数目,x左右(或之后)兄弟的数目];结点x的标签:即结点x在成分句法树中的标签;结点x的路径:从结点x到根结点的简单路径所经过结点的标签序列,标签序列以x的标签开始,以根结点的标签结束;将加入特征集的O(t)作为上下文表示层的输入,使得上下文表示层能够学习到序列潜在的层次结构表示,而不仅仅是简单的线性结构;得到对应O(t)的上下文表示:使用“结点更新法”进一步增...

【专利技术属性】
技术研发人员:孔芳付建周国栋
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1