一种基于声学和文本特征的多模态情感识别方法技术

技术编号:33351906 阅读:127 留言:0更新日期:2022-05-08 09:59
本发明专利技术提出了一种基于声学和文本特征的多模态情感识别方法适用于语音和文本情感特征的提取。利用OpenSMILE提取输入语音的情感浅层特征,并与Transformer网络学习浅层特征后得到的深层特征进行融合生成多层次的声学特征;再将语音与转录文本进行强制对齐获取停顿信息,然后将语音中的说话停顿信息编码后添加至转录文本,送入分层密集连接DC

【技术实现步骤摘要】
一种基于声学和文本特征的多模态情感识别方法


[0001]本专利技术涉及一种基于声学和文本特征的多模态情感识别方法,适用于语音和文本情感特征的提取,属于尤人工智能和语音情感识别


技术介绍

[0002]随着技术的发展,语音情感识别和自然语言处理已经取得了很大的进展,但人类仍然无法与机器进行自然地交流。因此,建立一套能够在人机交互中检测情感的系统是至关重要的。但由于人类情感的多变性和复杂性,这仍然是一项具有挑战性的任务。
[0003]传统的情感识别主要针对于单个模态,如:文本、语音、图像等,在识别性能上存在一定的局限性。如在早期的语音情感识别任务中,研究人员主要利用的是语音中的声学特征和一些相关的韵律学特征,往往忽视了语音中所包含的具体语义信息(文本信息)。但在日常会话和社交媒体中,声音往往是对一段文本内容的复述、二者密切相关。考虑到语音和文本模态之间的同一性、互补性和强相关联性,不少研究人员从单模态转向了多模态的情感识别研究。其中,融合语音和文本这两种不同模态信息来进行情感识别也成为了一项热点研究方向。与单个模态相比,同时考虑多种本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于声学和文本特征的多模态情感识别方法,其特征在于:利用OpenSMILE提取输入语音的情感浅层特征,并与Transformer网络学习浅层特征后得到的深层特征进行融合生成多层次的声学特征;利用内容相同的语音与转录文本进行强制对齐获取停顿信息,然后将语音中的说话停顿信息编码后添加至转录文本,送入分层密集连接DC

BERT模型中获取文本特征,再与声学特征融合;利用基于注意力机制的双向长短时记忆神经网络BiLSTM

ATT作为分类器,通过BiLSTM网络利用先验知识,获取有效的上下文信息,并通过注意力机制抽取特征中突显情感信息的部分以避免信息冗余,在注意力机制后面添加全局平均池化层代替传统使用的全连接层,可以有效的防止过拟合问题,最后送入softmax层中进行情感分类。2.根据权利要求1所述基于声学和文本特征的多模态情感识别方法,其特征在于具体步骤如下:S1:将待判断的原始语音音频输入OpenSMILE中,使用OpenSMILE工具箱中的emobase特征集提取原始语音数据中的浅层声学特征;S2:将提取出来的浅层声学特征输入Transformer网络,利用Transformer网络的编码器结构有效的学习输入的浅层声学特征之间的关系,从而输出一个情感相关的特征序列,即具有全局信息的深层特征;S3:将浅层声学特征的序列与深层特征的序列进行拼接融合获得深浅融合特征序列,浅层特征序列内容在前,深层特征在后进行拼接;S4:对原始语音转录的文本进行预处理:删除文本中的标点符号,并将转录形成的字词格式统一书写形式;S5:通过宾夕法尼亚大学语音标签强制对齐工具P2FA对步骤S4预处理后的转录文本和原始语音进行强制对齐,从而确定停顿的位置和持续时间;S6:将语音音频中不同的停顿时长分为六个区间:0.05

0.1s,0.1

0.3s,0.3

0.6s,0.6

1.0s,1.0

2.0s和大于2.0s,将六个区间的停顿时长分别使用:“..”,“...”,“....”,“.....”,“......”,“.......”在转录文本中进行标注,在转录文本中标注的位置匹配语音音频的停顿时长,并在文本中每个说话人的句尾添加标注“.”作为结束的标志;S7:将标注好停顿编码的转录文本输入训练好的改进DC

BERT中,改进DC

BERT根据转录文本中的停顿编码标注输出话语级文本的情感特征;S8:将语音音频对应的深浅融合特征序列与话语级文本的情感特征再进行拼接融合,获得该段音频中每一句话的声学文本融合特征;S9:最后将声学文本融合特征送入带有注意力机制的BiLSTM网络中进行情感分类,输出对应的情感分类,实现情感的识别。3.根据权利要求1所述的基于声学和文本特征的多模态情感识别方法,其特征在于:利用内置文件对送入OpenSMILE中的原始的语音信号进行浅层声学特征提取,包括强度、响度、梅尔频率倒谱系数、音调以及它们在话语级上每个短帧的统计值,如最大值、最小值、平均值和标准偏差;浅层声学特征由低级描述符组成的序列;仅选取情感数据集中表示愤怒,快乐,中立,悲伤的音频和转录文本进行识别,快乐由高兴和兴奋情感合并而成。4.根据权利要求1所述的基于声学和文本特征的多模态情感识别方法,其特征在于:将
宾夕法尼亚大学语音标签强制对齐工具强制对齐并编码后的转录文本送入改进DC
‑...

【专利技术属性】
技术研发人员:金赟顾煜俞佳佳
申请(专利权)人:江苏师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1