一种增强文本特征的对话生成方法和系统技术方案

技术编号：36040919 阅读：10 留言：0更新日期：2022-12-21 10:47

本发明专利技术涉及人机对话领域，具体涉及一种增强文本特征的对话生成方法和系统；该方法包括获取问题文本和回复文本，通过TextRank算法提取问题文本中的关键词，得到关键词序列；引入关键词编码器，关键词编码器通过注意力机制对每一个关键词进行编码得到对应的关键词向量；将关键词向量与语义向量拼接后输入第一多层感知机，得到包含丰富语义的关键词语义向量；将关键词语义向量与问题文本向量拼接后通过第二多层感知机，得到输入向量；根据输入向量训练对话生成模型，采用损失函数计算损失值并反向传播，调整对话生成模型的参数；本发明专利技术加强关键词的权重，增强对文本的特征表达，达到生成更高质量的对话文本的目的。生成更高质量的对话文本的目的。生成更高质量的对话文本的目的。

全部详细技术资料下载

【技术实现步骤摘要】
一种增强文本特征的对话生成方法和系统

[0001]本专利技术涉及人机对话领域，特别涉及增强对话特征表达的开放领域生成模型，具体涉及一种增强文本特征的对话生成方法和系统。

技术介绍

[0002]人机对话主要分为面向任务和非任务的对话(开放领域)应用系统。与任务型的对话系统相比，开放领域的对话系统不需要执行特定的任务，所生成的回复相较任务型也更随意。聊天机器人目前可分为三种类型，即检索式，生成式和知识图谱式。检索式的聊天机器人利用排序和匹配等技术从已有的对话语料库中抽取最合适的回复，但这种方法只能生成语料库中存在的文本，无法实现对话的多样性，若语料库中的对话较多，生成回复的速度就会变慢，影响聊天的体验感。
[0003]随着端到端深度学习模型的深入发展，开放领域的对话系统模型已经解决相应部分问题，使所生成的对话回复更为丰富。其中，生成式的聊天机器人所使用的端到端的编码器解码器模型，通过将对话编码为特定的特征向量,由解码器从词表中采样得到生成对话的每一个词，使生成语料库中没有的对话得以生成，弥补了检索式对话只能按照语料库的模板生成对话的缺陷，使得回复更加丰富。但由于该生成模型从词表中采样，然后再将采样得到的词按采样顺序组合成回复的句子，对对话特征的表示不够完整，使得它极易产生低质量或不相关的语义反应。
[0004]以Seq2seq模型为例详细说明这类问题，Seq2seq是最早的端到端生成模型，对文本生成领域做出了重大的贡献。后续的聊天机器人基本都是基于seq2seq的范式。其包含两个循环神经网络(RNN)，分...

【技术保护点】

【技术特征摘要】
1.一种增强文本特征的对话生成方法，其特征在于，包括以下步骤：S1.获取问题文本和回复文本，通过TextRank算法提取问题文本中的关键词，得到关键词序列；通过输入编码器获取问题文本的问题文本向量；S2.引入关键词编码器，关键词编码器通过注意力机制对关键词序列进行编码得到关键词向量；S3.将关键词向量与语义向量拼接后输入第一多层感知机，得到包含丰富语义的关键词语义向量；S4.将关键词语义向量与问题文本向量拼接后通过第二多层感知机，得到输入向量；S5.根据输入向量和回复文本训练对话生成模型，采用损失函数计算损失值并反向传播，调整对话生成模型的参数；S6.将待回复文本输入训练好的对话生成模型中生成对话。2.根据权利要求1所述的一种增强文本特征的对话生成方法，其特征在于，步骤S4还包括：采用输出编码器获取回复文本的回复文本向量；将关键词语义向量和问题文本向量拼接后通过第二层感知机，得到第一融合特征，将第一融合特征输入先验网络获取先验分布参数；将关键词语义向量、问题文本向量和回复文本向量拼接后通过第三层感知机，得到第二融合特征，将第二融合特征输入识别网络获取近似后验分布参数；对近似后验分布参数进行重参数化得到隐变量，通过线性变换将隐变量初始化，得到输入向量。3.根据权利要求1所述的一种增强文本特征的对话生成方法，其特征在于，关键词编码器通过注意力机制对关键词序列进行编码得到关键词向量，包括：h
t
＝Enc
key
(e(K))Enc
key
(e(k
i
))＝LSTM(input
i
))其中，Enc
key
()表示关键词编码器，K＝k1,k2,...,k
t
表示关键词序列，k
i
表示第i个关键词，h
t
表示关键词向量，e()表示计算单词...

【专利技术属性】
技术研发人员：王烨，廖靖波，于洪，雷大江，黄昌豪，杨峻杰，卞政轩，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人