The invention discloses a node representation-based anaphora resolution method, which includes: node representation: given component syntax tree, the corresponding sequence of nodes is obtained by post-order traversal, then the initial representation is obtained by \word embedding replacement method\, and the context representation is obtained by two-way long-term short-term memory network; feature complementation method: each node is proposed from component syntax tree. The feature set of points is added to the initial representation to enrich the representation of nodes; node updating method: combining attention mechanism and gated mechanism, using child node sequence to update the representation of parent nodes; node enumeration strategy. The beneficial effect of the present invention is that the information coding of the whole constituent syntax tree is added into the model by means of \node representation\, \feature complementation\, \node update\ and node enumeration strategy, which makes up for the deficiency of neglecting structural information and syntactic information in the traditional model and enhances the expression of the syntactic structure information in the anaphora resolution system.
【技术实现步骤摘要】
基于结点表示法的指代消解方法
本专利技术涉及机器语言处理领域,具体涉及一种基于结点表示法的指代消解方法。
技术介绍
指代是一种常见的语言现象,大量出现在篇章或者对话中。它保持了语言的简练,减少了冗余。比如句子“玛丽居里开创了放射性理论,专利技术了放射性同位素的技术。在她的指导下,人们第一次将放射性同位素用于治疗肿瘤”中,“她”指代“玛丽居里”。在语言学中,用于指向的语言单位成为照应语,如例中的“她”;所指向的对象或者内容成为先行词,如例中的“玛丽居里”。一般情况下,指代分为两种:回指和共指。回指是指当前的照应语与上文出现的词、短语或句子存在密切的语义关联性,指代依存于上下文语义中,在不同的语言环境中可能指代不同的实体,具有非对称性与非传递性;共指是指两个名词或者名词短语指向真实世界中的同一参照体,这种指代脱离上下文依然存在。目前的指代消解研究偏重于共指消解,本文亦然。指代消解的研究历史悠久。早期的研究主要通过专家构建领域知识,形成消解规则进行指代消解。近年来,得益于自然语言处理会议的召开和其公布的标注良好的指代消解语料,指代消解的研究转向了数据驱动的方法。特别是随着深度学习技术的兴起和发展,越来越多的学者开始应用深度学习方法于指代消解研究。目前深度学习技术在指代消解任务上应用最为广泛。其中典型的工作是Lee等人[1]于2017年提出的基于神经网络的端到端指代消解框架,该框架构成如图1所示。对于输入文本ND为文本D所包含的单词数,从中抽取出短语集合S={s1,s2,...,sn},其中bi与ei分别表示短语si的开始位置与结束位置的单词的下标,故1≤bi≤e ...
【技术保护点】
1.一种基于结点表示法的指代消解方法,其特征在于,包括:节点表示法:给定句法树t,通过后序遍历得到结点序列
【技术特征摘要】
1.一种基于结点表示法的指代消解方法,其特征在于,包括:节点表示法:给定句法树t,通过后序遍历得到结点序列其中nt表示t中结点的总数(不包括“单词结点”);然后利用“字词嵌入替换法”初始化节点序列的表示:首先使用零向量对其进行初始化,然后,对序列中与“单词结点”连接结点对应位置的向量表示,替换为对应单词的字词嵌入表示:使用特征集进一步丰富序列中结点的表征:特征集包括左右兄弟数、标签与路径特征,其定义如下:结点x的左右兄弟数:如果两个结点拥有相同的双亲,则称它们为兄弟;由于成分句法树是有序数,定义结点x的左右兄弟数为:[x左侧(或之前)兄弟的数目,x左右(或之后)兄弟的数目];结点x的标签:即结点x在成分句法树中的标签;结点x的路径:从结点x到根结点的简单路径所经过结点的标签序列,标签序列以x的标签开始,以根结点的标签结束;将加入特征集的O(t)作为上下文表示层的输入,使得上下文表示层能够学习到序列潜在的层次结构表示,而不仅仅是简单的线性结构;得到对应O(t)的上下文表示:使用“结点更新法”进一步增...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。