短文本对话方法、装置、设备及存储介质制造方法及图纸

技术编号:23343559 阅读:29 留言:0更新日期:2020-02-15 03:57
本申请公开了一种短文本对话方法、装置、设备及存储介质,所述方法包括:获取查询文本;调用基于语言模型的短对话生成模型对所述查询文本进行预测,得到回复文本;所述基于语言模型的短对话生成模型中设置有混合注意力层,所述混合注意力层同时包括自注意力机制和用于监督所述查询文本的注意力机制;输出所述回复文本。本申请通过将S2S框架替换为基于语言模型的短文本对话模型,同时利用该模型中的混合注意力层对查询文本的隐层表示进行监督,使得短文本对话模型既能捕获长短距离依赖,也可以在预测时着重考虑查询文本的信息,能够生成语义上与查询文本密切相关,同时形式上较为丰富的回复文本。

Short text conversation method, device, equipment and storage medium

【技术实现步骤摘要】
短文本对话方法、装置、设备及存储介质
本申请涉及自然语言处理领域,特别涉及一种短文本对话方法、装置、设备及存储介质。
技术介绍
短文本对话任务(ShortTextConversation,STC),也称为“单轮对话任务”,是现在自然语言处理领域的热门问题。STC任务通常被规划为一个查询(query)文本到回复(response)文本的机器翻译任务。序列到序列(SequencetoSequence,S2S)已经成为STC任务的标准解决方案。S2S的核心组件包括一个编码器(Encoder)和一个解码器(Decoder)。具体的流程包括:1、编码器将离散的查询词(即查询文本中的单词)映射到连续空间,然后利用特征变换器将查询词在该连续空间的表示向量转换为编码端的语义向量序列;2、解码器通过注意力机制计算当前时刻之前的词和查询词的对齐概率,然后将概率和查询语义向量序列加权并输入到前向神经网络中得到当前时刻解码器端的向量表示;3、解码器计算当前时刻解码器端的语义向量与回复词表中每个词的向量的语义相似度,相似度最高的一个词作为最终的输出;4、解码器重本文档来自技高网...

【技术保护点】
1.一种短文本对话方法,其特征在于,所述方法包括:/n获取查询文本;/n调用基于语言模型的短对话生成模型对所述查询文本进行预测,得到回复文本;所述基于语言模型的短对话生成模型中设置有混合注意力机制,所述混合注意力机制同时包括自注意力机制和用于监督所述查询文本的注意力机制;/n输出所述回复文本。/n

【技术特征摘要】
1.一种短文本对话方法,其特征在于,所述方法包括:
获取查询文本;
调用基于语言模型的短对话生成模型对所述查询文本进行预测,得到回复文本;所述基于语言模型的短对话生成模型中设置有混合注意力机制,所述混合注意力机制同时包括自注意力机制和用于监督所述查询文本的注意力机制;
输出所述回复文本。


2.根据权利要求1所述的方法,其特征在于,所述基于短文本对话模型包括L个级联的基于变换器的解码层以及输出网络,每个所述基于变换器的解码层中包括所述混合注意力机制;所述查询文本包括按序排列的m个查询词;
所述将所述查询文本输入至短对话生成模型中得到回复文本,包括:
在第t1个时刻,调用所述L个级联的基于变换器的解码层,对所述m个查询词中的前t1个查询词应用所述自注意力机制,得到所述第t1个时刻的语义表示向量;调用所述输出网络对所述第t1个时刻的语义表示向量进行预测,得到所述第t1个时刻的回复词,t1小于m;
在第t2个时刻,调用所述L个级联的基于变换器的解码层,对所述m个查询词和当前时刻之前已输出的t2-m个回复词应用所述混合注意力机制,得到所述第t2个时刻的语义表示向量,调用所述输出网络对所述当前时刻的语义表示向量进行预测,得到所述当前时刻的回复词,t2≥m;
重复上述步骤直至解码出用于代表结束的结束回复词,根据第m个时刻至第n个时刻输出的回复词所组成的序列,得到所述回复文本,所述第n个时刻是所述结束回复词对应的时刻。


3.根据权利要求2所述的方法,其特征在于,每个所述基于变换器的解码层包括:具有掩模的自注意力层、监督源注意力层和前馈神经网络层;
所述在第t2个时刻,调用所述L个级联的基于变换器的解码层,对所述m个查询词和当前时刻之前已输出的t2-m个回复词进行解码,得到所述第t2个时刻的语义表示向量,包括:
对于所述L个级联的基于变换器的解码层中的第j个解码层,调用所述第j个解码层中的所述自注意力层对输入向量进行解码,得到第一前文表示向量序列,所述自注意力层是同时监督所述m个查询词和所述已输出的t2-m个回复词的注意力层;
调用所述第j个解码层中的所述监督源注意力层对所述第一前文表示向量序列进行解码,得到第二前文表示向量序列,所述监督源注意力层是监督所述m个查询词的注意力层;
调用所述第j个解码层中的所述前馈神经网络层对所述第一前文表示向量序列和所述第二前文表示向量序列进行压缩,得到所述第j个解码层的输出向量;
其中,所述j为不大于L-1的正整数,第1个解码层的输入向量是所述m个查询词的词嵌入向量和位置嵌入向量以及所述已输出的t2-m个回复词的词嵌入向量和位置嵌入向量,除所述第1个解码层之外的其他L-1个解码层的输入向量是前一层的输出向量,第L个解码层的输出向量是所述当前时刻的语义表示向量。


4.根据权利要求1至3任一所述的方法,其特征在于,所述输出网络包括:主题推理层和输出层;
所述调用所述输出网络对所述当前时刻的语义表示向量进行预测,得到所述当前时刻的回复词,包括:
调用所述主题推理层根据所述当前时刻的语义表示向量,输出主题相关的前文表示向量;
调用所述输出层根据所述当前时刻的语义表示向量和所述主题相关的前文表示向量进行预测,得到所述当前时刻的回复词。


5.根据权利要求4所述的方法,其特征在于,所述调用所述输出层根据所述当前时刻的语义表示向量和所述主题相关的前文表示向量进行预测,得到所述当前时刻的回复词,包括:
调用所述输出层根据所述当前时刻的语义表示向量和所述主题相关的前文表示向量,得到按照预测概率由高到低排序的多个候选回复词;
在所述多个候选回复词中的前k个候选回复词中,随机抽样得到所述当前时刻的回复词。


6.一种短文本对话装置,其特征在于,所述装置包括:
获取模块,用于获取查询文本;
调用模块...

【专利技术属性】
技术研发人员:李昕李丕绩闭玮刘晓江
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1