当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于强化双通道序列学习的对话回复生成方法及系统技术方案

技术编号:19342416 阅读:48 留言:0更新日期:2018-11-07 13:59
本发明专利技术公开了一种基于强化双通道序列学习的对话回复生成方法及系统,本发明专利技术方法的步骤如下:(1)对上下文进行建模,获取上下文语义向量;(2)利用编码器将当前对话和上下文语义向量结合学习,得到当前对话向量以及编码器向量;(3)将上下文语义向量和当前对话向量输入解码器,得到第一通道对话回复草稿以及解码器向量;(4)将编码器向量与解码器向量以及第一通道对话回复草稿输入润饰器进行润饰,生成第二通道经过润饰的对话回复;(5)利用强化学习算法优化目标函数;(6)模型训练完毕,生成对话回复并输出。利用本发明专利技术,可以使对话生成模型对全局信息的把握更加深入,生成更加符合对话场景的有实质性内容的回复。

A method and system for dialogue recovery based on enhanced dual channel sequential learning

The invention discloses a dialogue response generation method and system based on enhanced two-channel sequential learning. The steps of the method are as follows: (1) modeling the context to obtain context semantic vectors; (2) combining current dialogue and context semantic vectors with learning by encoder to obtain current dialogue vectors and encoding. (3) input the context semantic vector and the current dialogue vector into the decoder to get the first channel dialogue reply draft and decoder vector; (4) input the encoder vector and decoder vector as well as the first channel dialogue reply draft into the polisher for polishing, and generate the second channel polished dialogue reply; (5) benefit. The objective function is optimized by the reinforcement learning algorithm; (6) after the model training is completed, the dialogue is returned and output. By using the invention, the dialog generation model can grasp the global information more deeply and generate substantive replies more in line with the dialog scene.

【技术实现步骤摘要】
一种基于强化双通道序列学习的对话回复生成方法及系统
本专利技术涉及自然语言处理对话系统领域,具体涉及一种基于强化双通道序列学习的对话回复生成方法及系统。
技术介绍
近年来,我们目睹了人机交互系统的繁荣发展。伴随着大量公开可利用的网上在线对话语料库,对话系统受到了广泛来自工业界和学术界研究者的关注。诸如苹果siri助手,微软的cortana助手以及小冰聊天机器人等的出现,让人机交互系统走入了千家万户。本专利技术的主要研究领域,是对话系统中最核心的技术——对话回复生成。在给定对话上下文语境的前提下,模型被要求能够根据当前对话内容,自动生成符合正常聊天逻辑的对话回复。一个高效的对话回复生成模型,需要能够明确捕捉上下文语境信息,以及对当前对话的语义理解,并能够生成符合人类口语,且具有逻辑的合理回复。目前,主流的对话生成技术,主要依赖Bahdanau等人在2014年ComputerScience期刊上提出的编码器-解码器生成框架Attn-Seq2Seq《NeuralMachineTranslationbyJointlyLearningtoAlignandTranslate》。即输入一句对话,框架先对这句对话进行编码,得到一个对该句话整体的表示向量。再利用解码器,以该向量作为输入,一个词一个词地生成另一句话,生成的这句话,可以看出就是机器生成的对话回复。众多的对话生成算法,都是基于该框架的基础上,做出自己的相应改进。2016年美国人工智能协会AssociationfortheAdvancementofArtificialIntelligence在会上收录的《Buildingend-to-enddialoguesystemsusinggenerativehierarchicalneuralnetworkmodels》一文中,提出HRED模型,通过将编码器进行多层结构的分解,从单词层到句子层再到对话层,使得编码器获取到的信息更加多元化。而2017年同样在美国人工智能协会上,HRED模型的作者Serban等人在《AHierarchicalLatentVariableEncoder-DecoderModelforGeneratingDialogues》一文中提出HRED的改进版VHRED,通过引入变量结构参数,提高了对话生成的多样性。还有在2017年康奈尔大学Arxiv网站上的技术文章《Learningdiscourse-leveldiversityforneuraldialogmodelsusingconditionalvariationalautoencoders.》中,公布了名为CVAE的模型,利用变分自动编码器方式捕捉对话多样性,从而仅仅利用贪心解码策略即可生成多样性对话回复。在众多编码器-解码器改进版的算法中,最为有效的方法还是结合强化学习来完成的。在2016年的第54届计算语言学协会AnnualMeetingoftheAssociationforComputationalLinguistics上的一篇文章《DeepReinforcementLearningfordialoguegeneration》提出利用三种奖励策略,提高对话系统的可扩展性的方法,名为RL-Seq2Seq。这些方法的提出,在一定程度上提高了对话回复生成的质量和多样性。然而,目前主流的编码器-解码器框架,忽略了一个很重要的文本生成要点。在训练过程中,利用解码器生成句子是一个单词一个单词的组合而成的。每个新的单词仅仅利用到了之前已经生成的词汇,却无法利用还未生成的单词。这种文本生成技术,违背了人类天然的语言组织规律。对于人类来说,人类往往是先在脑子里有想要表达意思的完整概念,再组织语言将意思表达出来。也就是说,人类是先有了全局的意思表达概念,再有了文本生成步骤。而编码器-解码器这一框架,直接跳过了全局概念生成过程,直接就组织生成完整的对话回复。这就好比最终的输出只是一个草稿,并没有经过润饰,也没有学习到全局想要表达的概念。
技术实现思路
本专利技术提供了一种基于强化双通道序列学习的对话回复生成方法及系统,使对话生成模型在最终生成的对话效果中,能够对全局信息的把握更加深入,生成更加符合对话场景的有实质性内容的回复,提高文本生成质量。一种基于强化双通道序列学习的对话回复生成方法,包括以下步骤:(1)对上下文进行建模,获取上下文语义向量;(2)利用编码器将当前对话和上下文语义向量结合学习,得到当前对话向量以及编码器向量;(3)将上下文语义向量和当前对话向量输入解码器,得到第一通道对话回复草稿以及解码器向量;(4)将编码器向量与解码器向量以及第一通道对话回复草稿输入润饰器进行润饰,生成第二通道经过润饰的对话回复;(5)利用强化学习算法优化目标函数;(6)模型训练完毕,生成对话回复并输出。在多轮对话中,生成的回复必须参考上下文语境,才能避免出现跑题偏题现象。由于对话均为序列型数据,步骤(1)中,采用深度循环神经网络和注意力机制相结合的方式进行上下文信息建模,所述上下文语义向量的计算公式为:其中,Cu表示上下文语义向量,a表示注意力值,M为,wj为,aj,t为,计算公式为:其中,ht为第t个当前单词的隐含状态表示,zj为训练到第j个上下文单词时,受与它相近的前后词影响:zj=tanh(Wm-1zj-1+Wm+1zj+1+bm)其中,zj表示为第j个单词在上下文语境中的语义表示,zj-1和zj+1为前个单词和后个单词隐含表示,Wm-1,Wm+1,bm是训练得到的参数。Tanh是激活函数。也就是说,在上下文语境中,第j个单词受到它上个单词和下一个单词的共同影响。在所有上下文语境组成的单词中,上下文的最终表示向量,由经过深度循环神经网络学习到的隐含因袭平均值获得。在整个对话上下文的建模中,我们把上下文出现的所有单词都看成了一个整体,从而可以用整段话的学习方式来表示上下文信息。步骤(2)中,所述编码器向量Cx由下面方式计算得出:其中,Cx为初始编码器得到的上下文语义表示,可以理解成生成的第一版本草稿。αi代表初始解码器受到上下文语境Cu和当前单词学习到的隐含状态的注意力权重。三个均为可学习的参数。Tanh为正切激活函数,控制注意力权重的范围。步骤(3)中,所述第一通道对话回复草稿的具体生成步骤为:其中,hi是通过深度循环神经网络学习到对话的原始隐含状态,Cu为对话的上下文信息,表示第一通道解码器最终生成的第i个单词隐含信息,s*表示一系列组合而成的完整表示。通过softmax函数,最终的每个生成隐含信息可以用来从多模态信息中采样得到由隐含函数决定的第一通道生成的单词。步骤(3)中,所述的解码器向量计算公式为:该步骤与第二步骤有一定的相似度。其中,βi表示上下文信息与第一通道生成的第i个单词之间的注意力权重,表示第二通道生成的上下文语义信息,理解成草稿经过润饰后的第二个上下文理解版本。同样为可学习参数,tanh为激活函数。从第一通道编码器-解码器框架中,模型得到所生成的回复草稿y*以及两个上下文表示Cx和这意味着现在已经有了一份即将生成的对话原始草稿,以及通过这份草稿和两个上下文全局的理解,生成模型可以跳出所生成单词的局部限制,从全局角度来重新润饰草稿,得到更加有全局本文档来自技高网
...

【技术保护点】
1.一种基于强化双通道序列学习的对话回复生成方法,其特征在于,包括以下步骤:(1)对上下文进行建模,获取上下文语义向量;(2)利用编码器将当前对话和上下文语义向量结合学习,得到当前对话向量以及编码器向量;(3)将上下文语义向量和当前对话向量输入解码器,得到第一通道对话回复草稿以及解码器向量;(4)将编码器向量与解码器向量以及第一通道对话回复草稿输入润饰器进行润饰,生成第二通道经过润饰的对话回复;(5)利用强化学习算法优化目标函数;(6)模型训练完毕,生成对话回复并输出。

【技术特征摘要】
1.一种基于强化双通道序列学习的对话回复生成方法,其特征在于,包括以下步骤:(1)对上下文进行建模,获取上下文语义向量;(2)利用编码器将当前对话和上下文语义向量结合学习,得到当前对话向量以及编码器向量;(3)将上下文语义向量和当前对话向量输入解码器,得到第一通道对话回复草稿以及解码器向量;(4)将编码器向量与解码器向量以及第一通道对话回复草稿输入润饰器进行润饰,生成第二通道经过润饰的对话回复;(5)利用强化学习算法优化目标函数;(6)模型训练完毕,生成对话回复并输出。2.根据权利要求1所述的基于强化双通道序列学习的对话回复生成方法,其特征在于,步骤(1)中,采用深度循环神经网络和注意力机制相结合的方式进行上下文信息建模,所述上下文语义向量的计算公式为:其中,Cu表示上下文语义向量,aj,t表示第j个单词受到第t个隐含状态影响的注意力权重,M为上下文出现的所有单词个数,wj为上下文中出现第j个单词的词向量表示,aj,t计算公式为:其中,ht为第t个当前单词的隐含状态表示,zj为第j个单词在上下文语境中的语义表示,zj的计算公式为:zj=tanh(Wm-1zj-1+Wm+1zj+1+bm)其中,zj-1和zj+1为前个单词和后个单词隐含表示,Wm-1,Wm+1,bm是训练得到的参数,tanh是正切激活函数。3.根据权利要求1所述的基于强化双通道序列学习的对话回复生成方法,其特征在于,步骤(2)中,所述的编码器向量计算公式为:其中,Cx为初始编码器得到的上下文语义表示,αi代表初始解码器受到上下文语境Cu和当前单词学习到的隐含状态的注意力权重,为学习的参数,tanh为正切激活函数,控制注意力权重的范围。4.根据权利要求1所述的基于强化双通道序列学习的对话回复生成方法,其特征在于,步骤(3)中,所述第一通道对话回复草稿生成的公式为:其中,hi是通过深度循环神经网络学习到对话的原始隐含状态,Cu为对话的上下文信息,表示第一通道解码器最终生成的第i个单词隐含信息,s*表示一系列组合而成的完整表示:通过softmax函数,最终的每个生成隐含信息用来从多模态信息中采样得到由隐含函数决定的第一通道生成的单词。5.根据权利要求1所述的基于强化双通道序列学习的对话回复生成方法,其特征在于,步骤(3)中,所述的解码器向量计算公式为:其中,βi表示上下文信息与第一通道生成的第i个单词之间的注意力权重,表示第二通道生成的上...

【专利技术属性】
技术研发人员:陈哲乾蔡登赵洲何晓飞
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1