一种联合进化更新的任务型对话方法及系统技术方案

技术编号:37354426 阅读:33 留言:0更新日期:2023-04-27 07:05
本发明专利技术公开了一种联合进化更新的任务型对话方法及系统,所述方法包括如下步骤:A1:使用公开数据集得到训练集数据;A2:使用所述训练集数据构建预训练语言模型输入序列数据;A3:根据所述预训练语言模型输入序列数据得到用户模拟器和对话系统;A4:根据所述用户模拟器和对话系统得到在线对话数据池,基于在线强化学习对所述在线对话数据池进行优化,并联合更新用户模拟器和对话系统。本发明专利技术能够实现通过不断优化在线对话数据池中数据以获得高质量的对话数据池,为在线数据收集构建了高质量的循环,从而得到更优的用户模拟器和对话系统,提升整体的对话成功率。提升整体的对话成功率。提升整体的对话成功率。

【技术实现步骤摘要】
dialog systems:A review[J].Proceedings of the IEEE,2013,101(5):1160

1179.
[0012][5]Hosseini

Asl E,Mccann B,Wu C S,et al.A Simple Language Model for Task

Oriented Dialogue[J].2020.
[0013][6]Arora K,Asri L E,Bahuleyan H,et al.Why Exposure Bias Matters:An Imitation Learning Perspective of Error Accumulation in Language Generation[J].2022.
[0014][7]Keneshloo Y,Shi T,Ramakrishnan N,et al.Deep Reinforcement Learning For Sequence to Sequence Models[J].2018.
...

【技术保护点】

【技术特征摘要】
1.一种联合进化更新的任务型对话方法,其特征在于,包括如下步骤:A1:使用公开数据集得到训练集数据;A2:使用所述训练集数据构建预训练语言模型输入序列数据;A3:根据所述预训练语言模型输入序列数据得到用户模拟器和对话系统;A4:根据所述用户模拟器和对话系统得到在线对话数据池,基于在线强化学习对所述在线对话数据池进行优化,并联合更新用户模拟器和对话系统,从而提高对话成功率。2.根据权利要求1所述的联合进化更新的任务型对话方法,其特征在于,步骤A4中,所述优化包括如下步骤:A41:前向过滤,用于滤去偏差样本,从而能够使预训练语言模型在在线强化学习初始阶段稳定地训练优化;A42:后向约束,用于权衡在线强化学习的风险和多样化;A43:分层奖励,用于赋予整体在线强化学习优化过程中的奖励。3.根据权利要求2所述的联合进化更新的任务型对话方法,其特征在于,步骤A4中,所述优化还包括:构建用户模拟器评价网络和对话系统评价网络,使用PPO2强化学习算法优化所述在线对话数据池。4.根据权利要求2所述的联合进化更新的任务型对话方法,其特征在于,所述前向过滤包括:判断所述在线对话数据池中数据是否属于严重错误对话,若属于,则将该对话从在线对话数据池中剔除;若不属于,则将该对话从在线对话数据池中保留。5.根据权利要求2所述的联合进化更新的任务型对话方法,其特征在于,所述后向约束包括:通过判断在线对话数据池中数据的状态转移不确定性来赋予惩罚奖励;在用户模拟器和对话系统上均执行后向约束。6.根据权利要求2所述的联合进化更新的任务型对话方法,其特征在于,所述分层奖励包括:根据用户模拟器和对话系统在各个对话单轮次、子领域以及完整对话的完成度分别赋予层级奖励,并将各个层级奖励相加构成整体在线强化学习优化过程中的奖励。7.根据权利要求3所述的联合进化更新的任务...

【专利技术属性】
技术研发人员:董宇涵池达丰李志德张凯
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1