一种基于多模态词向量的生成式对话系统编码方法及编码器技术方案

技术编号:22817272 阅读:19 留言:0更新日期:2019-12-14 13:12
本发明专利技术公开了一种基于多模态词向量的生成式对话系统编码方法及编码器。本方法为:1)根据当前语料与单词的上下文语境训练多模态词向量,其中每个单词生成多个词向量;2)使用双向LSTM神经网络与词向量对问句进行编码,然后将每个单词对应的前向神经网络的隐层状态与后向神经网络的隐层状态进行拼接作为该单词的上下文表示;3)将该单词的上下文表示与该单词的每一词向量分别计算相关度得分,取得分最高的词向量作为该单词的词向量;4)使用LSTM与该问句的各单词词向量对该问句进行编码,得到该问句的分布表示;5)对该问句的分布进行随机采样得到该问句的编码。本发明专利技术提高了句子编码的精准性。

【技术实现步骤摘要】
一种基于多模态词向量的生成式对话系统编码方法及编码器
本专利技术涉及一种基于多模态词向量的生成式对话系统编码方法及编码器,属于计算机软件

技术介绍
传统编码器已经可以很好对句子语义和语序等信息进行表示。然而该编码所使用的词向量通常是one-hot或word2vec等单一词向量,在这种词向量表示法中,一个单词通常只有一个词向量进行表示。然而在很多时候,一个单词的语义往往因为上下文的不同而有所改变。如“Iwouldliketobuyappleratherthanandriod”,在这句话里apple的意思是苹果手机,“Appleandpearareallmyfavoritefruits.”这里的苹果则是水果的意思。而这种基于单一词向量的编码方式对这种一词多义的情况很难做出区分,从而影响编码的精度,进而影响回复的生成质量。在实际情况中,一个问题通常会对应多种回复。然而因为传统的编码器总是将句子编码为一个固定长度的向量,因此解空间中通常只有一种回复被生成作为问题的答案。并且由于天然语料中通用性回复出现的频率较高,导致了解空间中被选中的解往往是通用性回复。传统的编码方法不能根据单词的上下文语义进行改变。
技术实现思路
本专利技术旨在提出一种基于多模态词向量的生成式对话系统编码方法及编码器,本专利技术提高了句子编码的精准性,从而为编码端生成高质量的回复打下良好的基础。本专利技术的技术关键点在于:1)提出一种基于词级别注意力机制的单词向量生成方法,使得单词的词向量与单词的上下文更加的对应,从而获得更加精准的单词词向量。2)本专利技术提出一种将句子编码为一种分布的方法,不同于传统将句子编码为一个固定长度的向量的方法,本专利技术编码器将问句编码为该问句答案对应的解空间,该解空间为正态分布,然后在该空间中随机采样,从而获得问句的编码,最后解码器使用该编码向量进行解码,从而得到回复。本专利技术首先使用基于多模态词向量的方法对单词词向量进行预训练。然后使用注意力机制来对单词词向量进行挑选,使得挑选出的单词词向量更符合对应单词的上下文语境,然后使用这些挑选出的与单词上下文相关的词向量进行句子编码。此外,为了提高句子回复多样性,本专利技术将句子编码为一个分布,然后从中进行采样得到问句的编码。本专利技术采用的技术方案如下:一种基于多模态词向量的编码方法,包括以下步骤:1)训练多模态词向量;2)使用注意力机制根据单词的上下文来挑选与当前语境更为适合的单词词向量;3)使用提取的单词词向量进行编码得到问句对应的解空间;4)从解空间中随机采样产生问句的编码并生成问句的回复。进一步地,步骤1)的训练多模态词向量的方法是根据当前语料与单词的上下文语境,使用multimodalworddistribution模型(AthiwaratkunB,WilsonAG.Multimodalworddistributions[J].arXivpreprintarXiv:1704.08424,2017)来进行单词词向量的预训练,其中每个单词拥有k个词向量,每个词向量分别对应单词不同方面的意思。进一步地,步骤2)首先使用双向LSTM对输入的句子进行编码,然后通过将前向和后向神经网络的每一步进行拼接得到问句中每个单词的上下文表示,之后本专利技术将每个单词的上下文表示应用于注意力机制中挑选与单词的上下文相关的词向量。进一步地,步骤3)使用步骤2)中得到的单词词向量对句子编码,不同于传统的编码器将句子编码为一个固定长度的向量,本专利技术将句子编码成为一个分布,也就是该句子对应的解空间。进一步地,步骤4)根据步骤3)所得到的问句对应的解空间,从其中进行随机采样得到问句的编码,从而送往解码端进行回复的生成。进一步地,本专利技术假设问句编码和多模态词向量一样服从正态分布,然后计算句子编码对应的解空间的均值和方差,用于随机采样以得到句子的编码。进一步地,应用在词向量挑选过程中的注意力机制步骤如下:1)计算每一个单词的上下文表示;即首先使用双向LSTM对输入的句子进行编码,然后通过将前向和后向神经网络的每一步进行拼接得到问句中每个单词的下文表示;2)使用全连接神经网络计算单词的上下文表示与对应单词每个词向量的相关度;3)选出相关度最大的词向量作为单词的词向量表示。4)得到上下文相关的词向量表示后,就可以使用双向LSTM得到句子的向量。一种基于多模态词向量的生成式对话系统编码器,其特征在于,包括多模态词向量训练模块、单词的上下文表示生成模块、单词的词向量表示选取模块和编码模块;其中,多模态词向量训练模块,用于根据当前语料与单词的上下文语境训练多模态词向量,其中每个单词生成多个词向量,每个词向量分别对应单词不同方面的意思;单词的上下文表示生成模块,用于使用双向LSTM神经网络与词向量对问句进行编码,然后将每个单词对应的前向神经网络的隐层状态与后向神经网络的隐层状态进行拼接作为该单词的上下文表示;单词的词向量表示选取模块,用于将该单词的上下文表示与该单词的每一词向量分别计算相关度得分,取得分最高的词向量作为该单词的词向量;编码模块,用于使用LSTM与该问句的各单词词向量对该问句进行编码,得到该问句的分布表示;然后对得到的该问句的分布进行随机采样得到该问句的编码。进一步的,使用multimodal词向量模型对当前语料进行训练多模态词向量,构建词向量矩阵;其中,语料中每一单词训练得到k个词向量。进一步的,首先使用双向LSTM对问句进行编码,然后将前向和后向神经网络的每一步进行拼接得到问句中每个单词的下文表示,然后利用注意力机制对每个单词的上下文表示进行挑选,得到与单词的上下文相关的词向量。进一步的,所述编码模块首先将问句表示为其对应解空间的均值和方程的形式,从而得到问句的一组正态分布形式,然后对该问句的正态分布形式进行随机采样,最终得到句子的一种编码,即句子向量。与现有技术相比,本专利技术的积极效果为:1)本专利技术可以根据单词的上下文来选择对应语义的单词词向量。本专利技术首先对多模态词向量进行预训练,从而可以得到每个单词不同意义的表示,然后通过词级别的注意力机制,根据单词的上下文来对单词的词向量进行筛选,从而获得与上下文相关的单词词向量,提高了模型的编码的精准度。2)本专利技术首先在编码器端生成问题对应的解空间分布,然后通过在解空间中随机采样一个样本来作为问句的编码,问句的分布产生方式确定了问句与生成回复的对应性,而随机采样则提高了其他非通用性回复被生成的可能性,从而提高回复生成的多样性。3)实验结果表明,对比于传统的端到端生成式对话系统,无论是在BLEU值还是perplxiety值的评价标准下,本专利技术均取得了一定程度上的效果提升。附图说明图1是基于多模态词向量的的结构示意图。图2是基于VAE模型的编码器的结构示意图。具体实施方式下面结合附图对本专利技术的技术方案做进一步的详细本文档来自技高网...

【技术保护点】
1.一种基于多模态词向量的生成式对话系统编码方法,其步骤包括:/n1)根据当前语料与单词的上下文语境训练多模态词向量,其中每个单词生成多个词向量,每个词向量分别对应单词不同方面的意思;/n2)使用双向LSTM神经网络与步骤1)得到的词向量对问句进行编码,然后将每个单词对应的前向神经网络的隐层状态与后向神经网络的隐层状态进行拼接作为该单词的上下文表示;/n3)将该单词的上下文表示与该单词的每一词向量分别计算相关度得分,取得分最高的词向量作为该单词的词向量;/n4)使用LSTM与该问句的各单词词向量对该问句进行编码,得到该问句的分布表示;/n5)对步骤4)得到的该问句的分布进行随机采样得到该问句的编码。/n

【技术特征摘要】
1.一种基于多模态词向量的生成式对话系统编码方法,其步骤包括:
1)根据当前语料与单词的上下文语境训练多模态词向量,其中每个单词生成多个词向量,每个词向量分别对应单词不同方面的意思;
2)使用双向LSTM神经网络与步骤1)得到的词向量对问句进行编码,然后将每个单词对应的前向神经网络的隐层状态与后向神经网络的隐层状态进行拼接作为该单词的上下文表示;
3)将该单词的上下文表示与该单词的每一词向量分别计算相关度得分,取得分最高的词向量作为该单词的词向量;
4)使用LSTM与该问句的各单词词向量对该问句进行编码,得到该问句的分布表示;
5)对步骤4)得到的该问句的分布进行随机采样得到该问句的编码。


2.如权利要求1所述的方法,其特征在于,使用multimodal词向量模型对当前语料进行训练多模态词向量,构建词向量矩阵;其中,语料中每一单词训练得到k个词向量。


3.如权利要求1或2所述的方法,其特征在于,步骤4)中,将问句编码为其对应解空间的均值与方差,得到问句的一组正态分布形式;然后步骤5)中,对该问句的正态分布形式进行随机采样得到问句的编码。


4.如权利要求1所述的方法,其特征在于,步骤2)中,首先使用双向LSTM对问句进行编码,然后将前向和后向神经网络的每一步进行拼接得到问句中每个单词的下文表示,然后利用注意力机制对每个单词的上下文表示进行挑选,得到与单词的上下文相关的词向量。


5.如权利要求4所述的方法,其特征在于,利用注意力机制对每个单词的上下文表示进行挑选的方法为:
21)计算每一个单词的上下文表示;
22)使用全连接神经网络计算单词的上下文表示与对应单词每个词向量的相关度...

【专利技术属性】
技术研发人员:林政付鹏刘欢王伟平
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1