【技术实现步骤摘要】
对话处理、信息处理、模型训练方法、设备及存储介质
[0001]本申请涉及数据处理
,尤其涉及一种对话处理、信息处理、模型训练方法、设备及存储介质。
技术介绍
[0002]人工智能时代的交互特色用一个词来概括就是“对话”,用人类最自然的交互方式,或者是语音或者是文字,给机器发送指令,与机器进行交互。
[0003]目前,使用较少训练数据训练出的对话模型的对话准确率较低。
技术实现思路
[0004]本申请的多个方面提供一种对话处理、信息处理、模型训练方法、设备及存储介质,用以提供人机协作对话模型的准确率。
[0005]本申请实施例提供一种模型训练方法,包括:
[0006]获得针对当前会话的系统回复内容样本和对话历史内容样本;
[0007]获得所述系统回复内容的系统回复向量,以及,所述对话历史内容的对话状态向量;
[0008]根据所述系统回复向量和所述对话状态向量,获得所述对话模型的增强学习损失函数和交叉熵损失函数;
[0009]根据所述增强学习损失函数和所述交叉熵损失函数,得到联合损失函数;
[0010]根据所述联合损失函数,对模型的网络参数进行训练,得到对话模型。
[0011]本申请实施例还提供一种对话处理方法,利用上述的对话模型进行对话处理,包括:
[0012]接收当前对话的问题;
[0013]根据所述当前对话的问题,获得针对当前对话的系统回复内容和对话历史内容;
[0014]生成所述系统回复内容的系统回复向量 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获得针对当前会话的系统回复内容样本和对话历史内容样本;获得所述系统回复内容的系统回复向量,以及,所述对话历史内容的对话状态向量;根据所述系统回复向量和所述对话状态向量,获得模型的增强学习损失函数和交叉熵损失函数;根据所述增强学习损失函数和所述交叉熵损失函数,得到联合损失函数;根据所述联合损失函数,对模型的网络参数进行训练,得到对话模型。2.根据权利要求1所述的方法,其特征在于,根据所述联合损失函数,对模型的网络参数进行训练,得到对话模型,包括:利用元学习方法中的MAML算法对所述联合损失函数进行优化,训练模型的网络参数,得到对话模型。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:获得所述元学习方法的训练数据;根据所述训练数据构造多个元学习任务,每个元学习任务包含支撑集和问询集。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:利用所述一个或多个元学习任务的支撑集和问询集训练系统回复候选集和对话历史内容;所述系统回复候选集用于根据当前会话的输入生成系统回复内容;所述对话历史内容用于提供当前会话的对话历史。5.一种对话处理方法,其特征在于,利用所述权利要求1至4中任一项所述的对话模型进行对话处理,包括:接收当前对话的问题;根据所述当前对话的问题,获得针对当前对话的系统回复内容和对话历史内容;生成所述系统回复内容的系统回复向量,以及,所述对话历史内容的对话状态向量;根据所述系统回复向量和所述对话状态向量生成当前对话的问题的回复内容。6.一种对话处理方法,其特征在于,包括:获取用于对话回复的系统回复候选集和当前对话历史,其中,当前对话历史包括用户当前轮次的问题和历史轮次的对话;将系统回复候选集和当前对话历史,输入预先训练出的人机协作对话模型,以供人机协作对话模型确定针对当前轮次的问题进行回复使用的回复模式;以及接收所述人机协作对话模型在确定采用系统回复模式时从系统回复候选集中选择并输出的针对所述当前轮次的问题的回复;其中,人机协作对话模型是采用元学习训练方法对系统回复候选集样本和对话历史样本进行训练得到的。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:接收所述人机协作对话模型在确定采用人工回复模式时协作提供方设备返回的针对所述当前轮次的问题的回复。8.根据权利要求6所述的方法,其特征在于,将系统回复候选集和当前对话历史,输入预先训练出的人机协作对话模型,以供人机协作对话模型确定针对当前轮次的问题进行回
复使用的回复模式,以及接收所述人机协作对话模型在确定采用系统回复模式时从系统回复候选集中选择并输出的针对所述当前轮次的问题的回复,包括:在人机协作对话模型内部,利用判决器确定是否采用人工回复模式;若确定采用系统回复模式,则利用预测器从系统回复候选集中选择出针对所述当前轮次的问题的回复;输出所述当前轮次的问题的回复。9.根据权利要求8所述的方法,其特征在于,利用判决器确定是否采用人工回复模式,包括:将所述系统回复候选集输入回复编码器,利用回复编码器对系统回复候选集进行向量化处理,得到系统回复向量;将所述当前对话历史输入历史编码器,利用历史编码器对当前对话历史进行向量化处理,得到对话状态向量;将所述系统回复向量和对话状态向量输入判决器中,以供判决器确定是否采用人工回复模式。10.根据权利要求8所述的方法,其特征在于,所述方法还包括:若确定采用人工回复模式,则向协作提供方设备发送人工回复请求,以供协作提供方设备获取人工输入的所述当前轮次的问题的回复;接收协作提供方设备发送的当前轮次的问题的回复。11.一种模型训练方法,其特征在于,包括:获取系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本;根据系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本,采用元学习的方...
【专利技术属性】
技术研发人员:戴音培,孙健,唐呈光,黎航宇,李永彬,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。