当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于共性特征提取的跨语种语音情感识别方法和系统技术方案

技术编号:30706902 阅读:35 留言:0更新日期:2021-11-06 09:54
本发明专利技术属于人工智能领域,涉及一种基于共性特征提取的跨语种语音情感识别方法和系统,该系统包括:语音信号采集模块,采用高保真单麦克风或者麦克风阵列采集用户语音信号;语音信号预处理模块,用于将采集到的语音信号进行预处理,对语音进行端点检测,去除语音前后静音段,生成可用于神经网络处理的数据;跨语种语音情感识别模块,用于通过设计的复数网络模型处理声谱图特征,预测用户音频的情感类型;分析存储模块,用于存储用户的语音数据和情感标签数据,并根据实际业务进行统计分析。本发明专利技术能够有效解决跨语种的语音情感识别问题,解决音频中的相位特征处理问题,从而提取音频中更加精细的发音特征,提升语音情感识别精度。提升语音情感识别精度。提升语音情感识别精度。

【技术实现步骤摘要】
一种基于共性特征提取的跨语种语音情感识别方法和系统


[0001]本专利技术属于人工智能领域,涉及一种基于共性特征提取的跨语种语音情感识别方法和系统。

技术介绍

[0002]语音是人类在日常交流中表达情感的主要方式。随着人工智能技术的发展,人机交互等应用得到了快速发展,能够进行类人交互,即基于情感智能的人机交互成为一种迫切需求,语音情感识别是实现这种情感交互的关键技术支撑。
[0003]当前关于语音情感识别的技术有基于人工特征的传统语音情感识别方法和基于人工神经网络的端到端语音情感识别方法。传统方法往往需要大量的专家知识,根据特定的发音特征等,进行识别特征的设计和模型构建,代价往往比较大。基于人工神经网络的方法一般只需要设计好网络模型,然后利用大量的标注数据,就可以让模型自主学习,实现语音的情感识别。目前,基于神经网络的方法在语音情感识别的效果上,比传统方法表现更好。
[0004]使用端到端神经网络技术实现语音情感识别需要大量的标注数据去训练模型,但是对于语音情感标注,标注员只有懂得相关的语种才能够进行标注,而且标注训练模型所需的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于共性特征提取的跨语种语音情感识别方法,其特征在于,包括如下步骤:步骤一、采集含标注信息的英文情感语音数据和不含标注信息的其他语种情感语音数据;步骤二、对情感语音数据进行预处理,生成含相位的声谱图;步骤三、去除声谱图前后静音段,后输入至网络得到语音深度特征信息,计算得到语音深度特征最大均值误差;步骤四、将语音深度特征信息输入至分类网络计算得到带标签数据输出的分类概率,结合向量化标签数据得到的标签表征,计算得到含标注信息的英文情感语音数据分类误差;步骤五、根据语音深度特征最大均值误差和含标注信息的英文情感语音数据分类误差,训练得到跨语言情感语音分类模型;步骤六、输入待预测音频处理后的声谱图至训练好的跨语言情感语音分类模型,预测出语音情感。2.如权利要求1所述的一种基于共性特征提取的跨语种语音情感识别方法,其特征在于,所述步骤一,具体包括以下步骤:S1、通过网络搜索开源数据集,下载带情感标注的英文语音数据,英文语音数据表示为,标签数据表示为;S2、通过网络搜索或者主动录音采集,下载不含情感标注的非英文语种语音数据,表示为。3.如权利要求2所述的一种基于共性特征提取的跨语种语音情感识别方法,其特征在于,所述步骤二,具体为:S3、对S1和S2采集的语音数据和,通过短时傅里叶变换,生成带相位信息的声谱图信息即梅尔谱图信号,分别对应表示为、。4.如权利要求3所述的一种基于共性特征提取的跨语种语音情感识别方法,其特征在于,所述步骤三,具体包括以下步骤:S4、对S3生成的梅尔谱图信号、,计算不同时间帧声谱图信息的能量大小,通过设置阈值,切除前后静音段,得到长度为的声谱图信息,分别表示为、;S5、将S4得到的、输入到由复数网络结构构成的特征提取子网络,得到语音深度特征信息和;S6、将S5得到的语音深度特征信息和,通过最小化均值误差,得到模型特征相似度损失, 表达式为:其中,n
s
是输入模型的英文数据数量,n
t
是输入模型其他语种数据数量,x
i
与x
j

特征的下标分别为i和j的元素,特征为矩阵,表示为:y
i
与y
j
为特征的下标分别...

【专利技术属性】
技术研发人员:李太豪郑书凯刘逸颖阮玉平张晓宁
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1