一种对话数据扩展方法、装置及设备制造方法及图纸

技术编号：35043811 阅读：17 留言：0更新日期：2022-09-24 23:23

本申请实施例涉及人工智能领域，公开了一种对话数据扩展方法、装置及设备。本申请实施例涉及对话数据扩展方法包括：获取对话语料库；拆分对话语料库，得到第一角色训练集以及第二角色训练集；分别依据第一角色训练集以及第二角色训练集对第一对话模型以及第二对话模型进行训练，得到第一角色以及第二角色对话模型；将第一角色对话模型与所述第二角色对话模型进行对话，得到目标对话数据集。可见，将完整的对话信息作为训练样本，得到每个角色可用于生成目标对话数据集的对话模型，并汇总最后的目标数据集作为训练样本数据，实现对话数据的扩展。这样，保证了最终得到的训练样本在对话过程中上下文逻辑的连贯性。话过程中上下文逻辑的连贯性。话过程中上下文逻辑的连贯性。

全部详细技术资料下载

【技术实现步骤摘要】
一种对话数据扩展方法、装置及设备

[0001]本专利技术实施例涉及人工智能领域，尤其涉及一种对话数据扩展方法、装置及设备。

技术介绍

[0002]对话模型，常被应用于为用户提供聊天交流服务的对话系统中。对话模型为用户提供聊天交流服务通常包括：对等型聊天以及非对等型聊天。所谓对等型聊天，通常是指对话模型与用户在对话过程中没有严格的上下文逻辑连贯要求，主要用于为用户提供闲聊消遣服务；非对等型聊天，通常是指对话模型与用户在对话过程中具有明确的身份限定，并且具有较为严格的上下文逻辑连贯要求，例如：在咨询场景中的提问者与解答者针对某一项问题进行咨询的过程。
[0003]为了使对话模型能够为用户提供更好的服务，需要提前完成对话模型的训练。相对于其它类型的模型训练，对话模型需要大量对话数据作为训练样本，然而对于训练样本的获取难度和成本较高，为了得到充足的对话模型所用的训练样本，需要对已有的训练样本进行数据扩展，以得到更多的对话数据用于对话模型的训练。现阶段对于对话模型所用的训练样本的数据扩展方式通常为词替换法。但是，基于词替换法进行的数据扩展得到的对话模型训练样本，由于存在关键词被替换的现象，使得训练样本之间的上下文逻辑连贯性较低，用此训练样本训练得到的模型，无法适用于应用在非对等型聊天场景。

技术实现思路

[0004]本申请实施例提供了一种对话数据扩展方法、装置及设备，以解决现有对话数据扩展方法中由于关键词被替换导致训练样本之间上下文逻辑连贯较低的问题。
[0005]第一方面，本申请实施例提供了一...

【技术保护点】

【技术特征摘要】
1.一种对话数据扩展方法，其特征在于，所述方法包括：获取对话语料库，所述对话语料库包括：至少一组第一角色与第二角色的对话信息，所述第一角色与所述第二角色为非对等型聊天关系；对所述对话语料库进行拆分，得到第一角色训练集以及第二角色训练集；依据所述第一角色训练集对第一对话模型进行训练，得到第一角色对话模型；依据所述第二角色训练集对第二对话模型进行训练，得到第二角色对话模型；调用所述第一角色对话模型与所述第二角色对话模型进行对话场景训练，得到目标对话数据集，以实现数据扩展。2.如权利要求1所述的方法，其特征在于，所述对话语料库由所述第一角色与所述第二角色的历史对话记录得到。3.如权利要求1所述的方法，其特征在于，所述至少一组第一角色与第二角色的对话信息中的每一个，包括：第一角色对应的语境信息、第二角色对应的语境信息、第一角色应答信息以及第二角色应答信息。4.如权利要求1所述的方法，其特征在于，所述至少一组第一角色与第二角色的对话信息中的每一个，还包括：话题类别以及情绪类别，每个第一角色与第二角色的对话信息对应一个话题类别以及一个情绪类别。5.如权利要求1或3所述的方法，其特征在于，所述第一角色训练集包括：至少一组第一角色对话训练信息，第一角色对话训练信息包括：所述第一角色响应于所述第二角色对应的语境信息输出的第一角色应答信息；所述第二角色训练集包括：至少一组第二角色对话训练信息，第二角色对话训练信息包括：所述第二角色响应于所述第一角色对应的语境信息输出的第二角色应答信息。...

【专利技术属性】
技术研发人员：彭立彪，郑银河，黄民烈，
申请(专利权)人：北京聆心智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人