【技术实现步骤摘要】
一种基于领域对抗的语音情感识别方法及装置
本专利技术涉及语音情感识别技术,尤其涉及一种基于领域对抗的语音情感识别方法及装置。
技术介绍
语音情感识别是情感计算领域中的一个热门研究问题,应用前景广阔。由于语音信号具有独特的序列属性,所以语音情感识别可以被看作是动态或者静态的分类问题。现有的方法大多从两个角度处理语音信号:帧尺度、整句话尺度,很少有方法考虑把上述两种尺度结合起来。语音情感识别的难点在于提取合适的语音情感特征并缩小源域数据库(训练数据库)数据以及目标域数据库(测试数据库)数据的特征分布差异。
技术实现思路
专利技术目的:本专利技术针对现有技术存在的问题,提供一种基于领域对抗的语音情感识别方法和装置,本专利技术采用局部和全局特征的联合特征进行分类,可以缩小源域数据库数据以及目标域数据库数据的特征分布差异,使得识别结果更准确。技术方案:本专利技术所述的基于领域对抗的语音情感识别方法包括:(1)获取存储有若干语音信号和对应情感类别标签的语音情感数据库,并划分为源域数据库和目标域数据库; ...
【技术保护点】
1.一种基于领域对抗的语音情感识别方法,其特征在于该方法包括:/n(1)获取存储有若干语音信号和对应情感类别标签的语音情感数据库,并划分为源域数据库和目标域数据库;/n(2)对于源域数据库和目标域数据库中的每个语音信号,提取其IS10特征作为对应语音信号的全局特征;/n(3)对于源域数据库和目标域数据库的每个语音信号,将其按照时间顺序分成前后重叠50%的若干短片段,并提取每个短片段的IS10特征;/n(4)将每个语音信号的所有短片段的IS10特征输入双向长短时间记忆模型,随后再输入进注意力机制模型,输出作为对应语音信号的局部特征;/n(5)对于源域数据库和目标域数据库中的每 ...
【技术特征摘要】
1.一种基于领域对抗的语音情感识别方法,其特征在于该方法包括:
(1)获取存储有若干语音信号和对应情感类别标签的语音情感数据库,并划分为源域数据库和目标域数据库;
(2)对于源域数据库和目标域数据库中的每个语音信号,提取其IS10特征作为对应语音信号的全局特征;
(3)对于源域数据库和目标域数据库的每个语音信号,将其按照时间顺序分成前后重叠50%的若干短片段,并提取每个短片段的IS10特征;
(4)将每个语音信号的所有短片段的IS10特征输入双向长短时间记忆模型,随后再输入进注意力机制模型,输出作为对应语音信号的局部特征;
(5)对于源域数据库和目标域数据库中的每个语音信号,将其全局特征和局部特征串联起来,作为对应语音信号的联合特征;
(6)建立神经网络,所述神经网络包括领域判别器和情感分类器,所述领域判别器包括两层全连接层,输出为预测的语音信号所属领域类别,所述情感分类器包括两层全连接层,输出为预测的语音信号的情感类别;
(7)对所述神经网络进行训练,训练时,将源域数据库和目标域数据库中每一语音信号的联合特征作为一个样本,输入领域判别器,将源域数据库中每一语音信号的联合特征作为一个样本,输入情感分类器,网络总损失为情感分类器损失减去领域判别器损失,通过反向传播算法更新网络参数,完成网络训练;
(8)获取待识别语音信号的联合特征,输入训练好的神经网络,得到预测的情感类别。
2.根据权利要求1所述的基于领域对抗的语音情感识别方法,其特征在于:步骤(1)中,划分源域数据库和目标域数据库的方法为:将语音情感数据库中属于任意一个人的语音信号和对应情感类别标签作为目标域数据库,剩余其他所有人的语音信号和对应情感类别标签作为源域数据库。
3.根据权利...
【专利技术属性】
技术研发人员:郑文明,郑婉璐,宗源,路成,
申请(专利权)人:东南大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。