一种基于深度学习的动词短语省略消解方法技术

技术编号：19215661 阅读：128 留言：0更新日期：2018-10-20 06:42

一种基于深度学习的动词短语省略消解方法，它属于计算机人工智能技术领域。本发明专利技术解决了现有动词短语省略消解方法存在的触发词判断和先行短语识别准确率低的问题。本发明专利技术对确定好的数据集1和数据集2进行预处理；判断触发词的过程加入了对句子上下文特征和句子级特征的提取，将提取的句子特征转化为向量输入支持向量机，进而根据支持向量机的输出结果确定输入句子的触发词；最后利用多层感知机，从触发词生成的多个候选先行短语中识别出正确的先行短语。本发明专利技术提取句子特征时加入了上下文特征和句子级特征，可以使触发词判断的准确率达到90％左右，先行短语识别的准确率达到85％以上。本发明专利技术可以应用于计算机人工智能技术领域用。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的动词短语省略消解方法
本专利技术属于计算机人工智能
，具体涉及一种基于深度学习的动词短语省略消解方法。
技术介绍
聊天机器人是一种利用自然语言处理技术来模拟人类交流并和人类进行对话的计算机程序。聊天机器人的起源最早可以追溯到1950年图灵在《Mind》上发表的文章《ComputingMachineryandIntelligence》，该文提出了经典的“图灵测试”(TuringTest)，这一测试数十年来一直被视为计算机人工智能的终极目标。在聊天机器人中，多轮对话聊天是一个核心模块。动词短语省略是省略了口头组成部分的照应性结构。在英语中，动词短语省略的实例由两部分组成：触发词和先行短语。触发词，通常是辅助或模态动词，表示动词短语省略现象的存在。先行短语，是被消解元素指代的动词短语(Bos和Spenader，2011；Dalrymple等人，1991)。例如，“Thegovernmentincludesmoneyspentonresidentialrenovation；Dodgedoesnot”，触发词“does”指代的是先前的短语“includesmoneyspentonresidentialrenovation”。动词短语省略消解对于对话任务特别重要，例如在非正式的对话中，动词短语省略经常出现。大多数当前的对话系统忽略动词短语省略，并通过从句子的浅层依赖分析中读取信息来派生出一些结构化的语义表示。这种方法不仅会漏掉消岐动词及其参数之间的许多有效联系，而且如果直接应用于辅助触发词，也可能产生无意义的提取。在上面的例子中，一个不完善的方...

【技术保护点】
1.一种基于深度学习的动词短语省略消解的方法，其特征在于，该方法的具体步骤为：步骤一、确定数据集1和数据集2中包含的句子；对数据集1中句子进行预处理时，得到OpenNMT编码器；对数据集2中句子进行预处理时，将每个句子中的各动词短语和形容词短语依次作为该句的候选先行短语，对应的将该句分成候选先行短语、候选先行短语之前部分、候选先行短语之后部分和触发词四个部分；步骤二、提取数据集2句子的助动词特征、句法特征、上下文特征和句子级特征，并将提取特征转化为标明正例和负例的输入向量；支持向量机对所述输入向量分类，根据支持向量机的输出结果判断句子的触发词；步骤三、将数据集2句子的候选先行短语、候选先行短语之前部分、候选先行短语之后部分和触发词四个部分输入多层感知机；多层感知机使用OpenNMT编码器获取候选先行短语、候选先行短语之前部分和选先行短语之后部分的句子级向量表示，使用字级别表示词向量模型得到触发词的字级别向量表示，以识别动词短语省略现象中的先行短语。

【技术特征摘要】
1.一种基于深度学习的动词短语省略消解的方法，其特征在于，该方法的具体步骤为：步骤一、确定数据集1和数据集2中包含的句子；对数据集1中句子进行预处理时，得到OpenNMT编码器；对数据集2中句子进行预处理时，将每个句子中的各动词短语和形容词短语依次作为该句的候选先行短语，对应的将该句分成候选先行短语、候选先行短语之前部分、候选先行短语之后部分和触发词四个部分；步骤二、提取数据集2句子的助动词特征、句法特征、上下文特征和句子级特征，并将提取特征转化为标明正例和负例的输入向量；支持向量机对所述输入向量分类，根据支持向量机的输出结果判断句子的触发词；步骤三、将数据集2句子的候选先行短语、候选先行短语之前部分、候选先行短语之后部分和触发词四个部分输入多层感知机；多层感知机使用OpenNMT编码器获取候选先行短语、候选先行短语之前部分和选先行短语之后部分的句子级向量表示，使用字级别表示词向量模型得到触发词的字级别向量表示，以识别动词短语省略现象中的先行短语。2.根据权利要求1所述的一种基于深度学习的动词短语省略消解的方法，其特征在于，所述步骤一的数据集2中的数据由JohanBos和JenniferSpenader提供先行短语和触发词标注，且数据集2中的句子均存在动词短语省略现象。3.根据权利要求2所述的一种基于深度学习的动词短语省略消解的方法，其特征在于，所述步骤一对数据集1和数据集2的预处理过程为：利用NLTK工具中的word_tokenize对数据集1中句子进行分词处理；利用OpenNMT-py训练数据集1的分词处理结果，得到OpenNMT编码器；所述OpenNMT编码器有两个输出，其中一个输出为最后一个词对应的隐层状态输出，另一个输出为每个词对应的隐层状态输出；提取JohanBos和JenniferSpenader标注后的数据集2，利用BIOEST对提取的数据集2中每个句子进行标注，并将每个标注句子分成先行短语、先行短语之前部分、先行词短语之后部分和触发词四个部分，将先行短语、先行短语之前部分、先行词短语之后部分和触发词作为对应句子的正例；利用berkeleyparser对标注后数据集2的句子语法分析处理，得到每个句子对应的语法树，采用NLTK工具的tree方法提取每棵语法树的语法结构，抽取每个句子的所有动词短语和形容词短语，以分别作为对应句子的候选先行短语，将对应句子分成候选先行短语、候选先行短语之前部分、候选先行短语之后部分和触发词四个部分，并将其中与正例不同的情况作为负例。4.根据权利要求3所述的一种基于深度学习的动词短语省略消解的方法，其特征在于，所述步骤二判断数据集2中句子的触发词的具体过程为：将数据集2的每个句子中所有动词和常见触发词依次作为该句的当前词，对应的分别提取该句子的助动词特征、句法特征、上下文特征和句子级特征，以得到对应的31维长度的向量作为x值，数据正例和负例标签作为y值，即若当前词为预处理过程中标注的触发词，则y值为1，否则y值为0；将(x,y)作为输入向量输入支持...

【专利技术属性】
技术研发人员：张伟男，刘元兴，宋皓宇，刘挺，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：黑龙江,23

全部详细技术资料下载我是这个专利的主人