一种人机对话模型的训练方法、系统、设备及介质技术方案

技术编号:38751104 阅读:12 留言:0更新日期:2023-09-09 11:17
本发明专利技术提出了一种人机对话模型的训练方法、系统、设备及介质,涉及人工智能技术领域。该方法中对于无标签的原始对话文本,在进行增强前后分别进行相应的处理,得到对应的意图识别结果和情绪识别结果,然后将可以结合增强前与增强后进行计算得到意图识别无监督损失值和情绪识别无监督损失值;接着对于进行标注处理得到的有标签对话文本,分别进行意图识别和情绪识别处理,并基于识别处理的结果计算对应的有监督损失,分别得到意图识别有监督损失值和情绪识别有监督损失值;最后即可利用各个损失值进行加权求和得到总体损失值。其通过将意图识别与情绪识别进行联合建模,利用两个任务之间的特征信息交互与共享,提高了意图识别和情绪识别的准确率。情绪识别的准确率。情绪识别的准确率。

【技术实现步骤摘要】
一种人机对话模型的训练方法、系统、设备及介质


[0001]本专利技术涉及人工智能
,具体而言,涉及一种人机对话模型的训练方法、系统、设备及介质。

技术介绍

[0002]随着社会经济的发展,智能对话系统已经被广泛应用到了社会生活的方方面面,例如:车载机器人,智能客服等,智能对话系统能有效降低人工成本,代替人工客服,提升智能解决率。
[0003]意图识别与情绪识别是智能对话系统的两大核心任务,智能对话系统通过识别用户意图与情绪来理解用户的表达,给予相应回复,并协助用户办理相关业务,用户的情绪与意图往往具有相关性,意图与情绪往往会相互影响与作用。然而,在现有技术中对于意图识别与情绪识别方法是将两者进行分开建模,这样忽略了两者的联系,将影响意图识别与情绪识别的效果。此外,在进行对话系统模型训练的时候,往往会遇到有标签数据不足,而存在大量无标签数据无法使用的情况,严重的影响了对应模型的训练效果。

技术实现思路

[0004]本专利技术的目的在于提供一种人机对话模型的训练方法、系统、设备及介质,通过将意图识别与情绪识别进行联合建模,利用两个任务之间的特征信息交互与共享,提高了意图识别和情绪识别的准确率,并结合数据增强,同步联合优化有监督情绪识别、无监督情绪识别、有监督意图识别及无监督意图识别,进一步提高了情绪识别与意图识别的效果。
[0005]本专利技术的实施例是这样实现的:
[0006]第一方面,本申请实施例提供一种人机对话模型的训练方法,包括以下步骤:
[0007]获取用户的对话文本,得到无标签的原始对话文本,并基于对话文本进行标注处理,得到有标签对话文本。基于有标签对话文本分别进行意图识别和情绪识别处理,并基于识别处理的结果计算对应的有监督损失,分别得到意图识别有监督损失值和情绪识别有监督损失值。基于原始对话文本分别进行意图识别和情绪识别处理,分别得到无标签意图识别结果和无标签情绪识别结果。基于原始对话文本进行数据增强处理,得到对应的增强文本数据。基于增强文本数据分别进行意图识别和情绪识别处理,分别得到增强意图识别结果和增强情绪识别结果。基于无标签意图识别结果和增强意图识别结果计算对应的无监督损失,得到意图识别无监督损失值。基于无标签情绪识别结果和增强情绪识别结果计算对应的无监督损失,得到情绪识别无监督损失值。基于意图识别有监督损失值、情绪识别有监督损失值、意图识别无监督损失值和情绪识别无监督损失值基于预设权重设置信息进行加权求和处理,得到总体损失值。
[0008]在本专利技术的一些实施例中,上述基于有标签对话文本分别进行意图识别和情绪识别处理,并基于识别处理的结果计算对应的有监督损失的步骤具体包括:
[0009]将有标签对话文本输入Roberta模型的Embedding层,并将Embedding层的输出,输
入至多层transformer encoder结构中进行处理,得到对应的第一CLS向量;将第一CLS向量分别输入至意图分类器和情绪分类器进行分类识别,得到对应的有监督的意图识别结果和情绪识别结果。
[0010]在本专利技术的一些实施例中,上述基于原始对话文本分别进行意图识别和情绪识别处理,分别得到无标签意图识别结果和无标签情绪识别结果的步骤具体包括:
[0011]将原始对话文本输入Roberta模型的Embedding层,并将Embedding层的输出,输入至多层transformer encoder结构中进行处理,得到对应的第二CLS向量;将第二CLS向量分别输入至意图分类器和情绪分类器进行分类识别,得到对应的无标签意图识别结果和无标签情绪识别结果。
[0012]在本专利技术的一些实施例中,上述基于增强文本数据分别进行意图识别和情绪识别处理,分别得到增强意图识别结果和增强情绪识别结果的步骤包括:
[0013]将增强文本数据输入Roberta模型的Embedding层,并将Embedding层的输出,输入至多层transformer encoder结构中进行处理,得到对应的第三CLS向量;将第三CLS向量分别输入至意图分类器和情绪分类器进行分类识别,得到对应的增强意图识别结果和增强情绪识别结果。
[0014]在本专利技术的一些实施例中,上述基于原始对话文本进行数据增强处理包括利用回译或关键词替换的方式进行数据增强处理。
[0015]在本专利技术的一些实施例中,上述基于无标签意图识别结果和增强意图识别结果计算对应的无监督损失以及基于无标签情绪识别结果和增强情绪识别结果计算对应的无监督损失的步骤中均采用KL散度进行计算。
[0016]在本专利技术的一些实施例中,上述KL散度的计算公式为:H(p,q)=


x
p(x)log q(x),其中,H(p,q)为KL散度值,p表示真实数据的分布,q表示预测结果的分布。
[0017]第二方面,本申请实施例提供一种人机对话模型的训练系统,其包括:
[0018]对话文本处理模块,用于获取用户的对话文本,得到无标签的原始对话文本,并基于对话文本进行标注处理,得到有标签对话文本。有监督损失计算模块,用于基于有标签对话文本分别进行意图识别和情绪识别处理,并基于识别处理的结果计算对应的有监督损失,分别得到意图识别有监督损失值和情绪识别有监督损失值。原始对话文本识别模块,用于基于原始对话文本分别进行意图识别和情绪识别处理,分别得到无标签意图识别结果和无标签情绪识别结果。数据增强处理模块,用于基于原始对话文本进行数据增强处理,得到对应的增强文本数据。增强文本数据识别模块,用于基于增强文本数据分别进行意图识别和情绪识别处理,分别得到增强意图识别结果和增强情绪识别结果。意图识别无监督损失模块,用于基于无标签意图识别结果和增强意图识别结果计算对应的无监督损失,得到意图识别无监督损失值。情绪识别无监督损失模块,用于基于无标签情绪识别结果和增强情绪识别结果计算对应的无监督损失,得到情绪识别无监督损失值。总体损失计算模块,用于基于意图识别有监督损失值、情绪识别有监督损失值、意图识别无监督损失值和情绪识别无监督损失值基于预设权重设置信息进行加权求和处理,得到总体损失值。
[0019]第三方面,本申请实施例提供一种电子设备,其包括存储器,用于存储一个或多个程序;处理器。当上述一个或多个程序被上述处理器执行时,实现如上述第一方面中任一项上述的方法。
[0020]第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项上述的方法。
[0021]相对于现有技术,本专利技术的实施例至少具有如下优点或有益效果:
[0022](1)通过将意图识别与情绪识别联合建模,利用两个任务之间的特征信息交互与共享,提高了意图识别和情绪识别的准确率;
[0023](2)对于有标签数据不足的情况,可以充分利用无标签数据,通过对有标签数据进行监督学习,对于无标签数据以及增强后的数据进行无监督学习,并同步联合优化有监督情绪识别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人机对话模型的训练方法,其特征在于,包括有监督部分和无监督部分,包括以下步骤:获取用户的对话文本,得到无标签的原始对话文本,并基于对话文本进行标注处理,得到有标签对话文本;基于有标签对话文本分别进行意图识别和情绪识别处理,并基于识别处理的结果计算对应的有监督损失,分别得到意图识别有监督损失值和情绪识别有监督损失值;基于原始对话文本分别进行意图识别和情绪识别处理,分别得到无标签意图识别结果和无标签情绪识别结果;基于原始对话文本进行数据增强处理,得到对应的增强文本数据;基于增强文本数据分别进行意图识别和情绪识别处理,分别得到增强意图识别结果和增强情绪识别结果;基于无标签意图识别结果和增强意图识别结果计算对应的无监督损失,得到意图识别无监督损失值;基于无标签情绪识别结果和增强情绪识别结果计算对应的无监督损失,得到情绪识别无监督损失值;基于意图识别有监督损失值、情绪识别有监督损失值、意图识别无监督损失值和情绪识别无监督损失值基于预设权重设置信息进行加权求和处理,得到总体损失值。2.如权利要求1所述的一种人机对话模型的训练方法,其特征在于,所述基于有标签对话文本分别进行意图识别和情绪识别处理,并基于识别处理的结果计算对应的有监督损失的步骤具体包括:将有标签对话文本输入Roberta模型的Embedding层,并将Embedding层的输出,输入至多层transformer encoder结构中进行处理,得到对应的第一CLS向量;将第一CLS向量分别输入至意图分类器和情绪分类器进行分类识别,得到对应的有监督的意图识别结果和情绪识别结果。3.如权利要求1所述的一种人机对话模型的训练方法,其特征在于,所述基于原始对话文本分别进行意图识别和情绪识别处理,分别得到无标签意图识别结果和无标签情绪识别结果的步骤具体包括:将原始对话文本输入Roberta模型的Embedding层,并将Embedding层的输出,输入至多层transformer encoder结构中进行处理,得到对应的第二CLS向量;将第二CLS向量分别输入至意图分类器和情绪分类器进行分类识别,得到对应的无标签意图识别结果和无标签情绪识别结果。4.如权利要求1所述的一种人机对话模型的训练方法,其特征在于,所述基于增强文本数据分别进行意图识别和情绪识别处理,分别得到增强意图识别结果和增强情绪识别结果的步骤包括:将增强文本数据输入Roberta模型的Embedding层,并将Embedding层的输出,输入至多层transformer encoder结构中进行处理,得到对应的第三CLS向量;将第三CLS向量分别输入至意图分类器和情...

【专利技术属性】
技术研发人员:刘波孙芃李明超徐小龙
申请(专利权)人:天翼电子商务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1