人机对话系统及方法技术方案

技术编号:33994047 阅读:54 留言:0更新日期:2022-07-02 10:26
本申请实施例提供了一种人机对话系统及方法,其中,人机对话系统包括:语音交互层,用于接收来自用户的语音对话,并将语音对话转换为对话文本;预训练模型层,用于对对话文本进行语义分析,生成语义表示;对话引擎层,用于对语义表示进行意图分析,确定是否获得了对话文本的意图;若已获得,则根据所述意图,基于对话构建层预先构建的对话流程确定对话回复;若未获得,则根据语义表示确定与用户进行再次对话交互,以获得再次对话交互文本;基于再次对话交互文本和所述对话文本,确定对应的意图;根据确定的意图,基于对话构建层预先构建的对话流程确定对话回复;语音交互层,还用于将对话回复转换为语音,以通过语音与用户进行对话交互。互。互。

【技术实现步骤摘要】
人机对话系统及方法


[0001]本申请实施例涉及人机交互
,尤其涉及一种人机对话系统及方法。

技术介绍

[0002]人机对话技术是人与机器的一种新型交互方式,其目标是使机器能够理解和运用人类的自然语言实现人机之间的通信,以使机器能代替人类的部分脑力劳动,起到延伸人类大脑的作用。
[0003]人机对话技术中,任务导向型人机对话系统是目前应用最广泛的形式。任务导向型人机对话系统旨在帮助用户完成某些特定任务(例如查找产品、预订住宿和餐馆等)。该人机对话系统首先理解人类给出的信息,将其表示为一个内部状态,然后根据策略和对话状态选择一些动作,最后把动作转化为自然语言的表达形式。目前,人机对话系统在从日常工作中的预约会议到政务、金融、教育、文娱、健康、旅游等的诸多场景中均有使用。
[0004]然而,传统的任务导向型人机对话系统仍然存在着一些局限,包括: 构建成本高、采用一问一答形式导致交互效率低下等等缺陷。因此,如何以较低成本构建一个更为智能的、交互效率更高的人机对话系统成为亟待解决的问题。

技术实现思路
<br/>[0005]本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种人机对话系统,至少包括:对话构建层、对话引擎层和语音交互层;其中:所述对话构建层,用于预先基于对话数据样本的语义表示,对所述对话数据样本进行意图聚类,基于聚类结果构建所述对话数据样本对应的对话流程;所述对话引擎层,用于获取所述语音交互层接收的用户的语音对话对应的语义表示,对所述语义表示进行意图分析,获得意图分析结果;根据所述意图分析结果和所述对话构建层预先构建的对话流程,确定对话回复并通过所述语音交互层与所述用户进行所述对话回复的语音交互;其中,所述对话回复为针对所述语音对话的答案回复,或者,为用于澄清所述语音对话的对话意图的澄清回复。2.根据权利要求1所述的系统,其中,所述对话构建层,用于预先基于对话数据样本的语义表示,对所述对话数据样本进行对话语义簇切分;根据切分获得的语义簇和所述对话数据样本对应的对话表示向量进行分层密度聚类,根据聚类结果获得至少一个开启意图及各个开启意图对应的对话数据;针对各个开启意图,基于该开启意图对应的对话数据进行对话路径挖掘,根据挖掘结果构建所述对话数据样本对应的对话流程。3.根据权利要求2所述的系统,其中,所述对话构建层在根据挖掘结果构建所述对话数据样本对应的对话流程时:根据挖掘结果获得所述对话数据对应的用户和机器客服分别对应的对话语义簇;根据用户和机器客服分别对应的对话语义簇,构建关键对话转移矩阵;根据所述关键对话转移矩阵生成用于指示对话流程的对话路径,将生成的对话路径挂载至该开启意图上以构建所述对话数据样本对应的对话流程。4.根据权利要求1

3任一项所述的系统,其中,所述语音交互层,还用于在与所述用户进行对话交互的过程中,进行以下操作至少之一:检测是否存在设定话语插入时机,并在检测到插入时机时插入设定话语;在与所述用户进行语音对话交互的过程中,检测到所述用户的插入语音,若判定所述插入语音对应的意图为打断对话语音,则对所述插入语音进行处理;对所述用户在对话交互过程中的停顿进行检测,若检测结果指示所述停顿对应的对话未完成,则插入引导语引导所述用户完成所述对话。5.一种人机对话系统,包括:预训练模型层、对话构建层、对话引擎层和语音交互层;其中:所述预训练模型层以获得的对话数据样本为预训练对话模型的训练样本,对所述预训练对话模型进行半监督训练,以获得能够输出所述对话数据样本对应的语义表示的模型,其中,每个所述对话数据样本包括多轮对话数据,每轮对话数据包括角色信息、和轮次信息;所述对话构建层基于所述预训练模型层输出的语义表示,对所述对话数据样本进行意图聚类,并基于所述意图聚类结果进行对话流程挖掘,基于挖掘结果构建所述对话数据样本对应的对话流程;所述对话引擎层基于所述预训练模型层输出的语义表示,进行所述对话引擎层的第二
机器学习模型的训练,以获得能够进行对话回复的模型;所述语音交互层用于分别对语音识别模型和语音转换模型进行训练,以获得对应的能够进行语音识别的模型和进行从文本到语音转换的模型。6.根据权利要求5所述的系统,其中,所述对话数据样本中的部分样本为有标签数据,另一部分样本为无标签数据;所述预训练模型层以获得的对话数据样本为预训练对话模型的训练样本,对所述预训练对话模型进行半监督训练,包括:确定所述对话数据样本的每轮对话数据对应的表示向量,所述表示向量包括词表示向量、角色表示向量、轮次表示向量和位置表示向量;以每个所述对话数据样本包括的多轮对话数据分别对应的表示向量为输入,基于预设的半监督损失函数,对所述预训练对话模型进行半监督训练;其中,所述半监督损失函数包括针对所述有标签数据的第一子损失函数和针对所述无标签数据的第二子损失函数。7.根据权利要求6所述的系统,其中,所述第一子损失函数基于针对对话回复选择任务的损失函数、基于对话回复生成任务的损失函数、基于对话动作预测的损失函数和双向KL正则损失函数生成;所述第二子损失函数基于针对对话回复选择任务的损失函数、基于对话回复生成任务的损失函数、和基于门机制的双向KL正则损失函数生成。8.根据权利要求6所述的系统,其中,所述以每个所述对话数据样本包括的多轮对话数据分别对应的表示向量为输入,基于预设的半监督损失函数,对所述预训练对话模型进行半监督训练,包括:以每个所述对话数据样本包括的多轮对话数据分别对应的表示向量为输入,分别进行短词维度的语义特征提取...

【专利技术属性】
技术研发人员:李永彬武玉川黎航宇马文涛林廷恩戴音培孙健
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1