【技术实现步骤摘要】
基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质
[0001]本申请涉及一种对话情绪识别网络模型、构建方法、电子设备及存储介质,尤其涉及一种基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质,属于自然语言处理
技术介绍
[0002]情绪是人类的基本特征,由于其在我们日常生活中扮演着重要的角色,因而心理学、社会学、计算机科学等领域的研究人员对此进行了多年的研究。它们有助于在以人为中心的环境中进行感知、沟通和决策。人工智能的一个长期目标是创造能够检测和理解情绪的情感代理。在过去的二十年左右的时间里,人工智能研究人员一直在试图赋予机器识别、解释和表达情绪和情绪的认知能力。情绪识别因其在观点挖掘、推荐系统、医疗保健等领域的广泛应用,在自然语言处理领域十分受欢迎。早期情绪识别的研究主要集中在理解独白中的情绪。近几年来,由于在Facebook,Twitter,Reddit和Weibo等社交媒体平台上开放的对话数据激增,会话中的情感识别(ERC)才开始受到自然语言处理领域的关注。 ...
【技术保护点】
【技术特征摘要】
1.基于知识增强和回溯损失的对话情绪识别网络模型,其特征在于,包括:语境和情感动态感知模块、外部知识交互模块和回溯历史状态模块;语境和情感动态感知模块,利用transformer结构作为最底层的词编码器,通过当前话语及其对应的说话人设计不同的注意力掩码矩阵,达到同时引入情感动力学以及语境影响的效果;外部知识交互模块,通过利用图注意力网络实现对外部结构化情感知识的利用,从而扩充了话语的语义信息,弥补了词编码器模块在某些特定维度上知识的缺失;回溯历史状态模块,在任务损失函数的基础上加入了一个回溯损失,旨在利用先前的训练经验来指导权重更新,确保模型决策更接近真实值,以达到在训练过程中利用过去模型状态的先验经验的效果。2.根据权利要求1所述的基于知识增强和回溯损失的对话情绪识别网络模型,其特征在于,任务定义模块,假定一组对话集合,在每段对话中包含一系列话语,其中带有预定义情感标签的话语由说话者发出,所有的说话者组成集合;所有预定义的情绪标签组成集合;还包括话语读入模块,对于对话中的每个目标话语前预置一个特殊的标记,输入到嵌入层,相应的单词嵌入序列被当作Transformer第一层的隐状态输入,也被用于知识引入的概念嵌入层。3.基于知识增强和回溯损失的对话情绪识别网络模型构建方法,其特征在于,包括:步骤一,假定一组对话集合,在每段对话中包含一系列话语,其中带有预定义情感标签的话语由说话者发出,所有的说话者组成集合;所有预定义的情绪标签组成集合;步骤二,话语读入模块对于对话中的每个目标话语前预置一个特殊的标记,输入到嵌入层,相应的单词嵌入序列被当作Transformer第一层的隐状态输入,也被用于知识引入的概念嵌入层;步骤三,利用transformer结构作为最底层的词编码器,通过当前话语及其对应的说话人设计不同的注意力掩码矩阵,达到同时引入情感动力学以及语境影响的效果;步骤四,通过利用图注意力网络实现对外部结构化情感知识的利用,从而扩充了话语的语义信息,弥补了词编码器模块在某些特定维度上知识的缺失;步骤五,在任务损失函数的基础上加入了一个回溯损失,旨在利用先前的训练经验来指导权重更新,确保模型决策更接近真实值,以达到在训练过程中利用过去模型状态的先验经验的效果。4.根据权利要求3所述的基于知识增强和回溯损失的对话情绪识别网络模型构建方法,其特征在于,所述步骤一中,假定一组对话集合其中L代表对话的个数,在每段对话中包含一系列N
i
个话语,其中带有预定义情感标签的话语u
i
由说话者发出,所有的说话者组成集合所有预定义的情绪标签组成集合5.根据权利要求4所述的基于知识增强和回溯损失的对话情绪识别网络模型构建方法,其特征在于,所述步骤二中,对于对话D
j
中的第i句话语w
k
表示话语u
i
中的第k个词,N
k
表示话语u
i
中的单词数目;在每个目标话语前预置一个特殊的标记“[CLS]”:
x
i
表示预置特殊标记的目标话语集合,然后x
i
被输入到嵌入层:其中表示单词嵌入序列,D
h
代表XLNet
‑
base的输入维数,相应的单词嵌入序列被当作Transformer第一层的隐状态输入,同时也被用于知识引入模块的概念嵌入层。6.根据权利要求5所述的基于知识增强和回溯损失的对话情绪识别网络模型构建方法,其特征在于,所述步骤三中,在transformer的最后一层输出之上又加了一层BiGRU来强调话语位置信息,具体地:采用记忆更新机制,将记忆m与l
‑
1层的隐状态h
i
进行级联操作获得进行级联操作获得其中代表l
‑
1层的记忆,记忆的工作方式类似于一个栈;L代表transformer的层数,是一个超参数;D
m
是预定义的最大记忆长度;“||”类似栈中的“PUSH”操作并不改变m
l
‑1的维数,即假定为“问询query”,为“键key”和“值value”执行多头注意力机制操作;首先在问询、键和值上进行M个不同的线性映射操作,M代表头数,对于Transformer第l层的每个注意力头:意力头:意力头:其中表示问询的线性变换结果,表示为键的线性变换结果,表示为值的线性变换结果,是每个注意力头的训练参数;然后进行相对位置注意操作:然后进行相对位置注意操作:其中表示问询和键经过相对位置注意操作后的结果,表示矩阵经过掩码操作后的结果,s是一个掩码矩阵且维数与相同,在进行注意力操作时,当的第i个元素与的第j个元素之间需要掩码掉时,s
ij
置为正无穷,其余情况置为0;最终,注意力操作的输出为:
公式(3)到(9)合并为函数f(
·
):其中表示为多头注意力机制的某个单头输出;给定目标话语...
【专利技术属性】
技术研发人员:解云鹤,孙承杰,刘秉权,季振洲,单丽莉,林磊,刘远超,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。