一种基于情景适配的共情对话训练方法及系统技术方案

技术编号:40645903 阅读:22 留言:0更新日期:2024-03-13 21:25
本发明专利技术涉及一种基于情景适配的共情对话训练方法及系统,属于人工智能技术领域。本发明专利技术的基于情景适配的共情对话训练方法及系统能够使参与方A和B共同训练一个对话生成模型,以生成个性化的医疗和旅行领域对话回复;通过联邦学习框架,保护了参与方的数据隐私和安全,提高了训练效率;模型参数的聚合和全局模型的下发和更新确保了模型在各参与方之间的知识共享和迭代优化,提高了对话生成模型的性能和适应性;同时,该方法具备广泛的应用前景,在其他领域的对话生成任务中同样适用,如客服对话、智能助理等。

【技术实现步骤摘要】

本专利技术属于人工智能,具体涉及一种基于情景适配的共情对话训练方法及系统


技术介绍

1、随着深度学习技术在自然语言处理领域中的发展应用,对话系统任务取得突破性进展。对话系统一般分为任务完成型、闲聊型和问答型。任务完成型对话主要帮助用户达成预设目标;闲聊型对话主要通过多轮对话模拟人类的正常交流;问答型对话一般利用知识图谱及检索方法解决获取知识的需求。目前对话系统主要专注解决内容生成质量和上下文相关,缺乏对话双方的情感变化和个性化特征的考虑,忽视了对话过程中情景、情感的变化以及情感与知识的协调性,使对话双方无法产生共鸣,甚至有情感与知识冲突的现象,使得对话无法深入和持续。


技术实现思路

1、(一)要解决的技术问题

2、本专利技术要解决的技术问题是:提出一种基于情景适配的共情对话训练方法及系统,通过联邦强化学习,分布式训练对话生成模型,在引入外部知识的同时,融入人设背景及情感特征,将知识与情感统一,每个客户端进行差异化训练。

3、(二)技术方案

4、为了解决上述技术问题,本专利本文档来自技高网...

【技术保护点】

1.一种基于情景适配的共情对话训练方法,其特征在于,包括以下步骤:

2.如权利要求1所述的方法,其特征在于,步骤1中,gpt-2模型训练还使用基于最大似然估计的交叉熵函数,通过梯度下降算法进行参数优化。

3.如权利要求1所述的方法,其特征在于,PPO是一种基于策略梯度的优化算法,它在每一步迭代中都会尝试计算新的策略,以让损失函数最小化,同时还能保证与上一步迭代的策略间的偏差相对较小。

4.如权利要求1所述的方法,其特征在于,优化gpt-2模型的具体流程如下:

5.如权利要求1所述的方法,其特征在于,服务端收到参数后通过动态加权的聚合算法将参...

【技术特征摘要】

1.一种基于情景适配的共情对话训练方法,其特征在于,包括以下步骤:

2.如权利要求1所述的方法,其特征在于,步骤1中,gpt-2模型训练还使用基于最大似然估计的交叉熵函数,通过梯度下降算法进行参数优化。

3.如权利要求1所述的方法,其特征在于,ppo是一种基于策略梯度的优化算法,它在每一步迭代中都会尝试计算新的策略,以让损失函数最小化,同时还能保证与上一步迭代的策略间的偏差相对较小。

4.如权利要求1所述的方法,其特征在于,优化gpt-2模型的具体流程如下:

5.如权利要求1所述的方法,其特征在...

【专利技术属性】
技术研发人员:王斌郭青松吴朝雄吴桐王哲
申请(专利权)人:北京计算机技术及应用研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1