【技术实现步骤摘要】
本专利技术属于人工智能,具体涉及一种基于情景适配的共情对话训练方法及系统。
技术介绍
1、随着深度学习技术在自然语言处理领域中的发展应用,对话系统任务取得突破性进展。对话系统一般分为任务完成型、闲聊型和问答型。任务完成型对话主要帮助用户达成预设目标;闲聊型对话主要通过多轮对话模拟人类的正常交流;问答型对话一般利用知识图谱及检索方法解决获取知识的需求。目前对话系统主要专注解决内容生成质量和上下文相关,缺乏对话双方的情感变化和个性化特征的考虑,忽视了对话过程中情景、情感的变化以及情感与知识的协调性,使对话双方无法产生共鸣,甚至有情感与知识冲突的现象,使得对话无法深入和持续。
技术实现思路
1、(一)要解决的技术问题
2、本专利技术要解决的技术问题是:提出一种基于情景适配的共情对话训练方法及系统,通过联邦强化学习,分布式训练对话生成模型,在引入外部知识的同时,融入人设背景及情感特征,将知识与情感统一,每个客户端进行差异化训练。
3、(二)技术方案
4、为了解决
...【技术保护点】
1.一种基于情景适配的共情对话训练方法,其特征在于,包括以下步骤:
2.如权利要求1所述的方法,其特征在于,步骤1中,gpt-2模型训练还使用基于最大似然估计的交叉熵函数,通过梯度下降算法进行参数优化。
3.如权利要求1所述的方法,其特征在于,PPO是一种基于策略梯度的优化算法,它在每一步迭代中都会尝试计算新的策略,以让损失函数最小化,同时还能保证与上一步迭代的策略间的偏差相对较小。
4.如权利要求1所述的方法,其特征在于,优化gpt-2模型的具体流程如下:
5.如权利要求1所述的方法,其特征在于,服务端收到参数后通过动
...【技术特征摘要】
1.一种基于情景适配的共情对话训练方法,其特征在于,包括以下步骤:
2.如权利要求1所述的方法,其特征在于,步骤1中,gpt-2模型训练还使用基于最大似然估计的交叉熵函数,通过梯度下降算法进行参数优化。
3.如权利要求1所述的方法,其特征在于,ppo是一种基于策略梯度的优化算法,它在每一步迭代中都会尝试计算新的策略,以让损失函数最小化,同时还能保证与上一步迭代的策略间的偏差相对较小。
4.如权利要求1所述的方法,其特征在于,优化gpt-2模型的具体流程如下:
5.如权利要求1所述的方法,其特征在...
【专利技术属性】
技术研发人员:王斌,郭青松,吴朝雄,吴桐,王哲,
申请(专利权)人:北京计算机技术及应用研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。