一种基于上下文的多轮对话方法、装置、设备及存储介质制造方法及图纸

技术编号：24043883 阅读：49 留言：0更新日期：2020-05-07 04:19

本发明专利技术实施例公开了一种基于上下文的多轮对话方法、装置、设备及存储介质。所述方法包括：获取待匹配历史对话信息；根据所述待匹配历史对话信息进行词特征提取，得到历史对话词特征向量；获取候选回答信息；根据所述候选回答信息进行词特征提取，得到候选回答词特征向量；根据所述历史对话词特征向量、所述候选回答词特征向量进行局部语义关系匹配，得到历史对话局部匹配向量、候选回答局部匹配向量；根据所述历史对话局部匹配向量、所述候选回答局部匹配向量进行匹配概率计算，得到候选回答匹配概率；根据所述候选回答信息、所述候选回答匹配概率确定匹配回答信息。本发明专利技术实现了上下文与回答的充分匹配，提升了上下文与回答匹配的准确性。

A context based multi round dialogue method, device, device and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】一种基于上下文的多轮对话方法、装置、设备及存储介质
本专利技术涉及自然语言处理
，尤其涉及一种基于上下文的多轮对话方法、装置、设备及存储介质。
技术介绍
建立能与人类交互的智能人机对话系统是人工智能领域的一个重要研究方向。对话系统可粗略分为单轮对话系统和多轮对话系统。单轮对话通常不涉及到上下文信息，系统没有记忆功能，轮次与轮次之间是独立的。多轮对话则需要考虑到上下文信息，相比单轮对话，实现多轮对话系统更具有挑战性。目前，多轮对话系统建模主要有生成和检索式两种方法。基于生成的方法通常是用大量的语料学习出一个包含编码器-解码器框架的回答生成模型；基于检索的方法是指从候选库中为多轮上下文选出最佳的回答。典型的选择回答的方法又可以分为两种：基于层次结构的方法和基于序列的方法。基于序列的方法通常将上下文连成一个长序列,基于层次的方法分别对每句话建模，再显示地对句子之间的交互进行建模。然而现有的模型在上下文和回答序列具有不同特点时，通常存在上下文与回答匹配不充分的问题，从而影响多轮对话选出最佳的回答。因此，开发一种在上下文...

【技术保护点】
1.一种基于上下文的多轮对话方法，所述方法包括：/n获取待匹配历史对话信息；/n根据所述待匹配历史对话信息进行词特征提取，得到历史对话词特征向量；/n获取候选回答信息；/n根据所述候选回答信息进行词特征提取，得到候选回答词特征向量；/n根据所述历史对话词特征向量、所述候选回答词特征向量进行局部语义关系匹配，得到历史对话局部匹配向量、候选回答局部匹配向量；/n根据所述历史对话局部匹配向量、所述候选回答局部匹配向量进行匹配概率计算，得到候选回答匹配概率；/n根据所述候选回答信息、所述候选回答匹配概率确定匹配回答信息。/n

【技术特征摘要】
【国外来华专利技术】1.一种基于上下文的多轮对话方法，所述方法包括：
获取待匹配历史对话信息；
根据所述待匹配历史对话信息进行词特征提取，得到历史对话词特征向量；
获取候选回答信息；
根据所述候选回答信息进行词特征提取，得到候选回答词特征向量；
根据所述历史对话词特征向量、所述候选回答词特征向量进行局部语义关系匹配，得到历史对话局部匹配向量、候选回答局部匹配向量；
根据所述历史对话局部匹配向量、所述候选回答局部匹配向量进行匹配概率计算，得到候选回答匹配概率；
根据所述候选回答信息、所述候选回答匹配概率确定匹配回答信息。

2.根据权利要求1所述的基于上下文的多轮对话方法，其特征在于，所述获取待匹配历史对话信息，包括：
获取历史对话信息；
按预设词长度从所述历史对话信息中进行往前获取得到所述待匹配历史对话信息。

3.根据权利要求1所述的基于上下文的多轮对话方法，其特征在于，所述根据所述待匹配历史对话信息进行词特征提取，得到历史对话词特征向量，包括：
将所述待匹配历史对话信息进行词例提取，得到待预测历史对话词例；
将所述待预测历史对话词例输入预训练模型进行预测，得到所述历史对话词特征向量。

4.根据权利要求3所述的基于上下文的多轮对话方法，其特征在于，所述将所述待匹配历史对话信息进行词例提取，得到待预测历史对话词例，包括：
将所述待匹配历史对话信息用分句符及分轮符进行连接，得到历史对话序列；
将所述历史对话序列进行分词，得到待处理历史对话词例；
按预设历史对话长度从所述待处理历史对话词例中进行提取，得到标准历史对话词例；
在所述标准历史对话词例的头端插入分类符及末端插入分隔符，得到所述待预测历史对话词例。

5.根据权利要求4所述的基于上下文的多轮对话方法，其特征在于，所述按预设历史对话长度从所述待处理历史对话词例中进行提取，得到标准历史对话词例，包括：
获取所述预设历史对话长度；
当所述待处理历史对话词例的词例数量大于所述预设历史对话长度时，则从所述待处理历史对话词例的头端开始删除词例，直至所述待处理历史对话词例的词例数量等于所述预设历史对话长度，将所述待处理历史对话词例留下的词例作为所述标准历史对话词例；
当所述待处理历史对话词例的词例数量小于或等于所述预设历史对话长度时，则将所述待处理历史对话词例作为所述标准历史对话词例。

6.根据权利要求1所述的基于上下文的多轮对话方法，其特征在于，所述根据所述候选回答信息进行词特征提取，得到候选回答词特征向量，包括：
将所述候选回答信息进行词例提取，得到待预测候选回答词例；
将所述待预测候选回答词例输入预训练模型进行预测，得到所述候选回答词特征向量。

7.根据权利要求6所述的基于上下文的多轮对话方法，其特征在于，所述将所述候选回答信息进行词例提取，得到待预测候选回答词例，包括：
将所述候选回答信息进行分词，得到待处理候选回答词例；
按预设候选回答长度从待处理候选回答词例中进行提取，得到标准候选回答词例；
在所述标准候选回答词例的头端插入分类符及末端插入分隔符，得到所述待预测候选回答词例。

8.根据权利要求7所述的基于上下文的多轮对话方法，其特征在于，所述按预设候选回答长度从待处理候选回答词例中进行提取，得到标准候选回答词例，包括：
获取所述预设候选回答长度；
当所述待处理候选回答词例的词例数量大于所述预设候选回答长度时，则从所述待处理候选回答词例的末端开始删除词例，直至所述待处理候选回答词例的词例数量等于所述预设候选回答长度，将所述待处理候选回答词例留下...

【专利技术属性】
技术研发人员：邵池，黄东延，丁万，熊友军，
申请(专利权)人：深圳市优必选科技股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人