一种基于深度学习的动词短语省略消解方法技术

技术编号:19215661 阅读:128 留言:0更新日期:2018-10-20 06:42
一种基于深度学习的动词短语省略消解方法,它属于计算机人工智能技术领域。本发明专利技术解决了现有动词短语省略消解方法存在的触发词判断和先行短语识别准确率低的问题。本发明专利技术对确定好的数据集1和数据集2进行预处理;判断触发词的过程加入了对句子上下文特征和句子级特征的提取,将提取的句子特征转化为向量输入支持向量机,进而根据支持向量机的输出结果确定输入句子的触发词;最后利用多层感知机,从触发词生成的多个候选先行短语中识别出正确的先行短语。本发明专利技术提取句子特征时加入了上下文特征和句子级特征,可以使触发词判断的准确率达到90%左右,先行短语识别的准确率达到85%以上。本发明专利技术可以应用于计算机人工智能技术领域用。

【技术实现步骤摘要】
一种基于深度学习的动词短语省略消解方法
本专利技术属于计算机人工智能
,具体涉及一种基于深度学习的动词短语省略消解方法。
技术介绍
聊天机器人是一种利用自然语言处理技术来模拟人类交流并和人类进行对话的计算机程序。聊天机器人的起源最早可以追溯到1950年图灵在《Mind》上发表的文章《ComputingMachineryandIntelligence》,该文提出了经典的“图灵测试”(TuringTest),这一测试数十年来一直被视为计算机人工智能的终极目标。在聊天机器人中,多轮对话聊天是一个核心模块。动词短语省略是省略了口头组成部分的照应性结构。在英语中,动词短语省略的实例由两部分组成:触发词和先行短语。触发词,通常是辅助或模态动词,表示动词短语省略现象的存在。先行短语,是被消解元素指代的动词短语(Bos和Spenader,2011;Dalrymple等人,1991)。例如,“Thegovernmentincludesmoneyspentonresidentialrenovation;Dodgedoesnot”,触发词“does”指代的是先前的短语“includesmoneyspentonresidentialrenovation”。动词短语省略消解对于对话任务特别重要,例如在非正式的对话中,动词短语省略经常出现。大多数当前的对话系统忽略动词短语省略,并通过从句子的浅层依赖分析中读取信息来派生出一些结构化的语义表示。这种方法不仅会漏掉消岐动词及其参数之间的许多有效联系,而且如果直接应用于辅助触发词,也可能产生无意义的提取。在上面的例子中,一个不完善的方法可能会产生一个无益的语义三元组,如(Dodge,agent,do)。目前已经有一些关于动词短语省略的实证研究(Hardt,1997;Nielsen,2005;BosandSpenader,2011;Bos,2012;Liuetal.,2016)。但是许多先前的方法仅限于解决动词短语省略的特定子类问题。例如,由do触发的动词短语省略(Bos,2012),或者依靠简单的启发式方法来解决动词短语省略消解问题,例如通过选择最近的触发词之前的从句来作为先行短语。(Kianetal.2016)开发了一个动词短语省略消解流水线,将任务分成两个步骤。第一步,检测是否存在动词短语省略,并且找出触发词;第二步,先行短语识别,识别出包含先行短语的从句以及确定先行短语的确切边界(边界往往难以界定)。(Kianetal.2016)将早期工作中丰富的语言学分析和Margin-Infused-Relaxed-Algorithm运用到动词短语省略消解中,并且将动词短语省略消解任务分成了两步:检测是否存在动词短语省略,并找出触发词和识别先行短语,但他们只是使用了简单的机器学习方法,触发词判断和先行短语识别的准确率较低。
技术实现思路
本专利技术的目的是为解决现有动词短语省略消解方法中存在的触发词判断和先行短语识别准确率低的问题。本专利技术为解决上述技术问题采取的技术方案是:一种基于深度学习的动词短语省略消解的方法,该方法的具体步骤为:步骤一、确定数据集1和数据集2中包含的句子;对数据集1中句子进行预处理时,得到OpenNMT编码器;对数据集2中句子进行预处理时,将每个句子中的各动词短语和形容词短语依次作为该句的候选先行短语,对应的将该句分成候选先行短语、候选先行短语之前部分、候选先行短语之后部分和触发词四个部分;步骤二、提取数据集2句子的助动词特征、句法特征、上下文特征和句子级特征,并将提取特征转化为标明正例和负例的输入向量;支持向量机对所述输入向量分类,根据支持向量机的输出结果判断句子的触发词;步骤三、将数据集2句子的候选先行短语、候选先行短语之前部分、候选先行短语之后部分和触发词四个部分输入多层感知机;多层感知机使用OpenNMT编码器获取候选先行短语、候选先行短语之前部分和选先行短语之后部分的句子级向量表示,使用字级别表示词向量模型得到触发词的字级别向量表示,以识别动词短语省略现象中的先行短语。本专利技术的有益效果是:本专利技术提供了一种基于深度学习的动词短语省略消解的方法,本专利技术对确定好的数据集1和数据集2中的句子分别进行预处理过程,在现有方法的基础上,本专利技术加入了对句子上下文特征和句子级特征的提取,将提取的句子特征转化为向量输入支持向量机,进而根据支持向量机的输出结果确定输入句子的触发词;最后将输入句子的候选先行短语、候选先行短语之前部分、候选先行短语之后部分和触发词四个部分输入多层感知机来识别动词短语省略现象中的先行短语。本专利技术提取句子特征时加入了上下文特征和句子级特征,可以使触发词判断的准确率达到90%左右,先行短语识别的准确率达到85%以上。本专利技术对存在动词短语省略现象句子的触发词的判断和先行短语的识别的准确率提高起到很好的作用。附图说明图1为本专利技术所述的一种基于深度学习的动词短语省略消解的方法流程图;图2为本专利技术所述的将句子分成先行短语、先行短语之前部分、先行短语之后部分和触发词的一个英文示例;图3为本专利技术所述的识别先行短语模型的工作示意图;图4为本专利技术向量相加方法的示意图;图5为本专利技术递归神经网络方法的示意图;其中,hq是OpenNMT编码器最后一个时刻的隐层输出;图6为本专利技术含有注意力机制的递归神经网络方法的示意图;其中和vq分别为短语中第一个词的词向量、第二个词的词向量和最后一个词的词向量。具体实施方式下面结合附图对本专利技术的技术方案作进一步的说明,但并不局限于此,凡是对本专利技术技术方案进行修改或者等同替换,而不脱离本专利技术技术方案的精神和范围,均应涵盖在本专利技术的保护范围中。具体实施方式一:本实施方式所述的一种基于深度学习的动词短语省略消解的方法,该方法的具体步骤为:步骤一、确定数据集1(PennTreebank2WallStreetJournal)和数据集2(AnannotatedcorpusfortheanalysisofVPellipsisByJohanBosandJenniferSpenader)中包含的句子;对数据集1中句子进行预处理时,得到OpenNMT编码器;对数据集2中句子进行预处理时,将每个句子中的各动词短语和形容词短语依次作为该句的候选先行短语,对应的将该句分成候选先行短语、候选先行短语之前部分、候选先行短语之后部分和触发词四个部分;步骤二、提取数据集2句子的助动词特征、句法特征、上下文特征和句子级特征,并将提取特征转化为标明正例和负例的输入向量;支持向量机对所述输入向量分类,根据支持向量机的输出结果判断句子的触发词;步骤三、将数据集2句子的候选先行短语、候选先行短语之前部分、候选先行短语之后部分和触发词四个部分输入多层感知机;多层感知机使用OpenNMT编码器获取候选先行短语、候选先行短语之前部分和选先行短语之后部分的句子级向量表示,使用字级别表示词向量模型得到触发词的字级别向量表示,以识别动词短语省略现象中的先行短语。本实施方式中的数据集1主要用来得到OpenNMT编码器和字级别表示词向量模型,然后利用OpenNMT编码器来获取候选先行短语、候选先行短语之前部分和候选先行短语之后部分的句子级向量表示;利用字级别表示词向量模型得到触发词的字级别向量表示本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的动词短语省略消解的方法,其特征在于,该方法的具体步骤为:步骤一、确定数据集1和数据集2中包含的句子;对数据集1中句子进行预处理时,得到OpenNMT编码器;对数据集2中句子进行预处理时,将每个句子中的各动词短语和形容词短语依次作为该句的候选先行短语,对应的将该句分成候选先行短语、候选先行短语之前部分、候选先行短语之后部分和触发词四个部分;步骤二、提取数据集2句子的助动词特征、句法特征、上下文特征和句子级特征,并将提取特征转化为标明正例和负例的输入向量;支持向量机对所述输入向量分类,根据支持向量机的输出结果判断句子的触发词;步骤三、将数据集2句子的候选先行短语、候选先行短语之前部分、候选先行短语之后部分和触发词四个部分输入多层感知机;多层感知机使用OpenNMT编码器获取候选先行短语、候选先行短语之前部分和选先行短语之后部分的句子级向量表示,使用字级别表示词向量模型得到触发词的字级别向量表示,以识别动词短语省略现象中的先行短语。

【技术特征摘要】
1.一种基于深度学习的动词短语省略消解的方法,其特征在于,该方法的具体步骤为:步骤一、确定数据集1和数据集2中包含的句子;对数据集1中句子进行预处理时,得到OpenNMT编码器;对数据集2中句子进行预处理时,将每个句子中的各动词短语和形容词短语依次作为该句的候选先行短语,对应的将该句分成候选先行短语、候选先行短语之前部分、候选先行短语之后部分和触发词四个部分;步骤二、提取数据集2句子的助动词特征、句法特征、上下文特征和句子级特征,并将提取特征转化为标明正例和负例的输入向量;支持向量机对所述输入向量分类,根据支持向量机的输出结果判断句子的触发词;步骤三、将数据集2句子的候选先行短语、候选先行短语之前部分、候选先行短语之后部分和触发词四个部分输入多层感知机;多层感知机使用OpenNMT编码器获取候选先行短语、候选先行短语之前部分和选先行短语之后部分的句子级向量表示,使用字级别表示词向量模型得到触发词的字级别向量表示,以识别动词短语省略现象中的先行短语。2.根据权利要求1所述的一种基于深度学习的动词短语省略消解的方法,其特征在于,所述步骤一的数据集2中的数据由JohanBos和JenniferSpenader提供先行短语和触发词标注,且数据集2中的句子均存在动词短语省略现象。3.根据权利要求2所述的一种基于深度学习的动词短语省略消解的方法,其特征在于,所述步骤一对数据集1和数据集2的预处理过程为:利用NLTK工具中的word_tokenize对数据集1中句子进行分词处理;利用OpenNMT-py训练数据集1的分词处理结果,得到OpenNMT编码器;所述OpenNMT编码器有两个输出,其中一个输出为最后一个词对应的隐层状态输出,另一个输出为每个词对应的隐层状态输出;提取JohanBos和JenniferSpenader标注后的数据集2,利用BIOEST对提取的数据集2中每个句子进行标注,并将每个标注句子分成先行短语、先行短语之前部分、先行词短语之后部分和触发词四个部分,将先行短语、先行短语之前部分、先行词短语之后部分和触发词作为对应句子的正例;利用berkeleyparser对标注后数据集2的句子语法分析处理,得到每个句子对应的语法树,采用NLTK工具的tree方法提取每棵语法树的语法结构,抽取每个句子的所有动词短语和形容词短语,以分别作为对应句子的候选先行短语,将对应句子分成候选先行短语、候选先行短语之前部分、候选先行短语之后部分和触发词四个部分,并将其中与正例不同的情况作为负例。4.根据权利要求3所述的一种基于深度学习的动词短语省略消解的方法,其特征在于,所述步骤二判断数据集2中句子的触发词的具体过程为:将数据集2的每个句子中所有动词和常见触发词依次作为该句的当前词,对应的分别提取该句子的助动词特征、句法特征、上下文特征和句子级特征,以得到对应的31维长度的向量作为x值,数据正例和负例标签作为y值,即若当前词为预处理过程中标注的触发词,则y值为1,否则y值为0;将(x,y)作为输入向量输入支持...

【专利技术属性】
技术研发人员:张伟男刘元兴宋皓宇刘挺
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1