【技术实现步骤摘要】
多轮对话方法、系统、介质及装置
[0001]本专利技术属于语音交互
,具体涉及一种多轮对话方法、系统、介质及装置。
技术介绍
[0002]在人机交互系统中往往会使用智能对话技术,系统通过与用户对话进行信息收集、信息处理以完成既定目标。通常称这种对话形式为任务型对话,是由任务驱动多轮对话的,系统需要协助用户完成某种任务,例如智能导购(订餐、订票)、智能认证等。现有技术中,一种智能任务型的对话管线pipeline实现原理如图8所示,主要包括几个部分(模块):槽值填充SLU、对话状态追踪DST、对话策略学习DPL、意图识别NLG(自然语言生成)。在智能门禁这一应用场景下,任务式多轮对话系统可以引导用户进行多轮对话交互,收集必要信息从而完场特定场景下的任务。比如:用户的语音转换成文本(Text Utterance)即语音识别后,输入到SLU分析信息槽的槽值,进而预计了用户的行为传送到对话管理部分的DST预测出对话的状态,再将状态提供给DPL更新整个系统行为,然后通过NLG给用户提供识别了用户意图的系统响应(语音回答)。在整个系 ...
【技术保护点】
【技术特征摘要】
1.一种多轮对话的决策模型训练方法,其特征在于,包括:根据第m次对话的任务目标,为预测的系统行为,生成对应的用户的模拟行为,以形成t轮对话;为所述第m次对话中所形成的每一轮对话计算一单轮奖励值,并在所述第m次对话结束时给予所述第m次对话一单次奖励值;根据N次对话中每一次对话的单次奖励值、所述每一次对话中所有轮对话的单轮奖励值、和强化学习算法对所述决策模型进行N次训练并更新所述决策模型;其中,t、m、N为大于等于1的自然数。2.如权利要求1所述的方法,其特征在于,所述“根据第m次对话的任务目标,为预测的系统行为,生成对应的用户的模拟行为,以形成t轮对话”之前包括:构建第m次对话的任务目标以确定生成模拟行为的规则或模型;根据存储的历史对话状态,为接收的任一结构化数据,进行当前对话状态预测;通过所述决策模型,为所述当前对话状态,进行所述系统行为预测;其中,接收的任一结构化数据为任何一轮对话中的所述系统行为或所述模拟行为;所述“根据第m次对话的任务目标,为预测的系统行为,生成对应的用户的模拟行为,以形成t轮对话”具体包括:根据所述任务目标确定的所述规则或所述模型、结合历史对话状态以及一所述系统行为,生成对应的一模拟用户回应所述系统行为的当前对话行为,作为所述模拟行为,以完成一轮交互对话;并且,根据历史对话状态,为所述当前对话行为,进行新的当前对话状态预测;将完成的一轮交互对话中的所述系统行为记为a
t
、所述当前对话状态记为s
t
、新的所述当前对话状态记为s
t+1
、计算的所述单轮奖励值记为r
t
;以及,将单轮对话状态元组记为(s
t
,a
t
,r
t
,s
t+1
),并加入到单次对话状态列表中。3.如权利要求1所述的方法,其特征在于,所述“为形成的每一轮对话计算一单轮奖励值”具体包括:根据每一轮对话所处的轮数,以线性递减方式给予一个负奖励值(统计每次对话下的多轮对话分别对应的轮数,基于统计出的轮数为每轮对话设置一个负奖励值);根据在所述每一轮对话后所述任务目标中的信息槽内填入的正确的目标槽值的数量计算一个正奖励值;将所述负奖励值与正奖励值累加获得所述每一轮对话的所述奖励值r
t
;其中,对应的轮数越大,给予的所述负奖励值越小;其中,所述正确的目标槽值的数量越多,计算的所述正奖励值越大。4.如权利要求3所述的方法,其特征在于,所述“根据第m次对话的任务目标,为预测的系统行为,生成对应的用户的模拟行为,以形成t轮对话”之后还包括:判断所述第m次对话是否结束;如果是,则结束所述第m次对话;所述“在所述第m次对话结束时给予所述第m次对话一单次奖励值”具体包括:统计结束时所述任务目标中的信息槽内正确的目标槽值数量;
根据所述正确的目标槽值数量,确定所述第m次对话的单次奖励值。5.如权利要求4所述的方法,其特征在于,判断所述第m次对话是否结束具体包括:判断所述第m次对话的所述任务目标中的信息槽是否已经全部被填满,或者,判断所述第m次对话中的多轮对话的轮数达到阈值M,其中,M为大于等于1的自然数。6.如权利要求1至5中任一项所述的方法,其特征在于,所述“根据N次对话中每一次对话的单次奖励值、所述每一次中所有轮对话的单轮奖励值和强化学习算法对所述决策模型进行N次训练并更新所述决策模型”具体包括:当进行了N次对话后,通过所述强化学习算法,以每一次对话中所有轮对话的单轮奖励值与所述每一次对话的单次奖励值的累加和的最大化作为优化目标,对所述决策模型进行训练;对N次对话的数据训练完后,更新所述决策模型的参数获得更新后的决策模型。7.一种多轮对话方法,包括:通过语音识别将用户输入的声音转换为自然语言文本;将所述自然语言文本翻译为结构化数据;根据历史对话状态预测对应所述结构化数据的当前对话状态;根据所述当前对话状态预测对应的系统行为;输出所述系统行为并转换为自然语言文本;将所述系统行为对应的所述自然语言文本转换为语音信号并播放,以形成一轮对话;等待下一轮用户输入的声音进行下一轮对话;其特征在于,所述根据所述当前对话状态预测对应的系统行为具体包括:根据所述当前对话状态,通过权利要求1至6中任一项所述的多轮对话的决策模型训练方法所训练的多轮对话的决策模型来预测所述系统行为。8.一种多轮对话的决策模型训练系统,其特征在于,包括:用户模拟器,用于根据第m次对话的任务目标,为预测的系统行为,生成对应的用户的模拟行为,以形成t轮对话,并为所述第m次对话中所形成的每一轮对话计算一单轮奖励值,以及,判断所述第m次对话是否结束并在所述第m次对话结束时给予所述第m次对话一单次奖励值;训练模块,...
【专利技术属性】
技术研发人员:杨球松,苏磊,
申请(专利权)人:云从科技集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。