一种增强愤怒与开心识别的语音情感识别方法及系统技术方案

技术编号:19062274 阅读:26 留言:0更新日期:2018-09-29 13:16
本发明专利技术提出一种增强愤怒与开心识别的语音情感识别方法及系统,该方法包括:接收用户语音信号,提取语音的声学特征矢量;将语音信号转换为文本信息,获取语音的文本特征矢量;将声学特征矢量和文本特征矢量输入语音情情感识别模型和文本情感识别模型中,分别得到不同情感的概率值;对得到的愤怒和开心的情感概率值进行降低和增强,得到最终的情感判断识别结果。本发明专利技术可以为情感计算、人机交互等应用提供帮助。

【技术实现步骤摘要】
一种增强愤怒与开心识别的语音情感识别方法及系统
本专利技术属于人工智能与情感计算领域,涉及一种增强愤怒与开心识别的语音情感识别方法及系统。
技术介绍
情感对于人类的智力、理性决策、社交、感知、记忆和学习以及创造都有很重要的作用,有研究显示人类交流有80%的信息都是情感性的信息。在计算机自动情感识别中,一般依据离散情感模型或维度情感模型上对情感进行分类;在离散情感模型分类中,将情感分为激动,开心,悲伤,愤怒,惊讶,中性等基础情感。在维度情感模型分类中,1970年Russell认为利用四个象限来定义情感空间,从激活度和效价度两个维度进行分类,对应着四种主要的情感:愤怒、高兴、悲伤和平静,因此在语音识别情感研究中常采用的有愤怒、高兴、悲伤和平静四类。情感识别指的是计算机对从传感器采集来的信号进行分析和处理,从而得出人类表达的情感状态。语音情感识别指采用从声音中提取的语音信号,识别出情感的种类。当前,用于语音情感识别的声学特征大致可归纳为韵律学特征、基于谱的相关特征和音质特征这3种类型。这些特征常以帧为单位进行提取,以全局特征统计值的形式参与情感的识别。全局特征统计的单位一般是听觉上独立的语句或者单词,常用的统计指标有极值、极值范围、方差等。然而,在目前基于语音特征的情感识别中,广泛存在愤怒与开心之间难以区分的问题。文本情感识别指通过对文本内容中包含的情感信息进行提取,从而识别情感。基于统计的文本特征提取方法中,最为有效的实现方法就是词频和逆词频TF*IDF,它是由Salton在1988年提出的。其中TF称为词频,用于计算该词描述文档内容的能力;IDF称为反文档频率,用于计算该词区分文档的能力。TF*IDF法认为一个单词出现的文本频率越小,它区别不同类别的能力就越大,所以引入了逆文本频度IDF的概念,以TF和IDF的乘积作为特征空间坐标系的取值测度。然而,目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。因此在使用单文本对情感识别时,使用文本特征向量会给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。所以,如何对愤怒和开心进行清晰有效的区分,又能有效的降低工作量,这是目前急需解决的问题。
技术实现思路
专利技术目的:针对以上问题,本专利技术提出一种增强愤怒与开心识别的语音情感识别方法及系统,通过该方法及系统可以增强对愤怒和开心进行清晰有效的区分,又能有效的降低工作量。
技术实现思路
:为实现本专利技术的目的,本专利技术所采用的技术方案是:一种增强愤怒与开心识别的语音情感识别方法,包括如下步骤:(1.1)接收用户语音信号,提取语音的声学特征矢量;(1.2)将语音信号转换为文本信息,获取语音的文本特征矢量;(1.3)将声学特征矢量和文本特征矢量输入语音情情感识别模型和文本情感识别模型中,分别得到不同情感的概率值;(1.4)对步骤(1.3)得到的愤怒和开心的情感概率值进行降低和增强,得到最终的情感判断识别结果。其中,所述情感包括愤怒、开心、悲伤和平静。其中,在步骤(1)中,使用如下方法提取语音的声学特征矢量:(1.1)将音频分割为帧,对每个语音句子提取帧级的低层次声学特征;(1.2)应用全局统计函数,将每个语音句子中的每一组时长不等的基础声学特征转化为等长的静态特征,得到N维度的声学特征矢量;(1.3)结合注意力机制,对N维度的声学特征矢量进行加权,对权值进行排序,选择前M维度的声学特征矢量,得到语音的声学特征矢量。其中,在步骤(2)中,使用如下方法获取语音的文本特征矢量:(2.1)利用文本数据集对不同种情感分别进行词频与逆词频统计;(2.2)根据统计结果,每种情感选取前N个词,合并去除重复词后形成去除重复词,合并成基本词汇表;(2.3)判断语音文本中的每个词在每个样本词汇表中是否出现,出现为1,不出现为0,得到语音文本特征矢量。其中,在步骤(3)中,对声音样本数据集和文本样本数据集所有的样本进行提取语音的声学特征矢量集和语音文本特征矢量集,使用如下卷积神经网络结构分别对声学特征矢量和语音文本特征矢量进行训练,得到所述语音情感识别模型和文本情感识别模型:(a)分类器结构为两个卷积层加上一个全连接层,第一层使用32个卷积核,第二层卷积层采用64个卷积核,两层都采用一维的卷积层,卷积核的窗长度为10,卷积步长为1,补零策略采用same,保留边界处的卷积结果;(b)第一、第二层的激活函数采用relu函数,训练时设置变量dropoutrate为0.2;(c)池化层采用最大值池化方式,池化窗口大小设为2,下采样因子设为2,补零策略采用上下左右补0的方法,保留边界处的卷积结果;(d)最后的全连接层选用softmax激活函数对所有的dropout层的输出进行回归得到情感类型的输出概率。其中,在步骤(4)中,得到语音情感的最终判断识别结果的方法如下:(4.1)通过语音情感识别模型对语音信号进行处理,得到愤怒的概率SH、开心的概率SA、悲伤的概率SS和平静的概率SM;(4.2)通过文本情感识别模型对语音信号进行处理,得到愤怒的概率TH、开心的概率TA、悲伤的概率TS和平静的概率TM;(4.3)降低步骤(4.1)愤怒的概率SH、开心的概率SA的权重,增强步骤(4.2)中愤怒的概率TH、开心的概率TA的权重:SH′=SH*90%(1)SA′=SA*90%(2)TH′=TH*110%(3)TA′=TA*110%(4)(4.4)最终得到情感识别结果:Ci=MAX{SH′+TH′,SA′+TA′,SS+TS,SM+TM}其中,SH′+TH′,SA′+TA′,SS+TS,SM+TM分别表示加权后愤怒、开心、悲伤、平静的概率值,Max{}表示取最大值。此外,本专利技术还提出了一种增强愤怒与开心识别的语音情感识别系统,其特征在于,包括如下模块:声学特征矢量模块,用于接收用户语音信号,提取语音的声学特征矢量;文本特征矢量模块,用于将语音信号转换为文本信息,获取语音的文本特征矢量;情感概率计算模块,将声学特征矢量和文本特征矢量输入语音情情感识别模型和文本情感识别模型中,分别得到不同情感的概率值;情感判断识别模块,对情感概率计算模块计算得到的愤怒和开心的情感概率值进行降低和增强,得到最终的情感判断识别结果。其中,声学特征矢量模块功能如下:(1.1)将音频分割为帧,对每个语音句子提取帧级的低层次声学特征;(1.2)应用全局统计函数,将每个语音句子中的每一组时长不等的基础声学特征转化为等长的静态特征,得到多维度的声学特征矢量;(1.3)结合注意力机制,对N维度的声学特征矢量进行加权,对权值进行排序,选择前M维度的声学特征矢量,得到语音的声学特征矢量。其中,文本特征矢量模块功能如下:(2.1)利用文本数据集对不同种情感分别进行词频与逆词频统计;(2.2)根据统计结果,每种情感选取前N个词,合并去除重复词后形成去除重复词,合并成基本词汇表;(2.3)判断语音文本中的每个词在每个样本词汇表中是否出现,出现为1,不出现为0,得到语音文本特征矢量。其中,情感判断识别模块功能如下:(4.1)通过语音情感识别模型对语音信本文档来自技高网
...

【技术保护点】
1.一种增强愤怒与开心识别的语音情感识别方法,其特征在于:(1)接收用户语音信号,提取语音的声学特征矢量;(2)将语音信号转换为文本信息,获取语音的文本特征矢量;(3)将声学特征矢量和文本特征矢量输入语音情感识别模型和文本情感识别模型中,分别得到不同情感的概率值;(4)对步骤(3)得到的愤怒和开心的情感概率值进行降低和增强,得到最终的情感判断识别结果。

【技术特征摘要】
1.一种增强愤怒与开心识别的语音情感识别方法,其特征在于:(1)接收用户语音信号,提取语音的声学特征矢量;(2)将语音信号转换为文本信息,获取语音的文本特征矢量;(3)将声学特征矢量和文本特征矢量输入语音情感识别模型和文本情感识别模型中,分别得到不同情感的概率值;(4)对步骤(3)得到的愤怒和开心的情感概率值进行降低和增强,得到最终的情感判断识别结果。2.根据权利要求1所述的一种增强愤怒与开心识别的语音情感识别方法,其特征在于,所述情感包括愤怒、开心、悲伤和平静。3.根据权利要求1所述的一种增强愤怒与开心识别的语音情感识别方法,其特征在于,在步骤(1)中,使用如下方法提取语音的声学特征矢量:(1.1)将音频分割为帧,对每个语音句子提取帧级的低层次声学特征;(1.2)应用全局统计函数,将每个语音句子中的每一组时长不等的基础声学特征转化为等长的静态特征,得到N维度的声学特征矢量;(1.3)结合注意力机制,对N维度的声学特征矢量进行加权,对加权后的声学特征矢量进行排序,选择前M维度的声学特征矢量,得到语音的声学特征矢量。4.根据权利要求1所述的一种增强愤怒与开心识别的语音情感识别方法,其特征在于,在步骤(2)中,使用如下方法获取语音的文本特征矢量:(2.1)利用文本数据集对不同种情感分别进行词频与逆词频统计;(2.2)根据统计结果,每种情感选取前N个词,合并去除重复词后形成去除重复词,合并成基本词汇表;(2.3)判断语音文本中的每个词在每个样本词汇表中是否出现,出现为1,不出现为0,得到语音文本特征矢量。5.根据权利要求1所述的一种增强愤怒与开心识别的语音情感识别方法,其特征在于,在步骤(3)中,对声音样本数据集和文本样本数据集所有的样本进行提取语音的声学特征矢量集和语音文本特征矢量集,使用如下卷积神经网络结构分别对声学特征矢量和语音文本特征矢量进行训练,得到所述语音情感识别模型和文本情感识别模型:(a)分类器结构为两个卷积层加上一个全连接层,第一层使用32个卷积核,第二层卷积层采用64个卷积核,两层都采用一维的卷积层,卷积核的窗长度为10,卷积步长为1,补零策略采用same,保留边界处的卷积结果;(b)第一、第二层的激活函数采用relu函数,训练时设置变量dropoutrate为0.2;(c)池化层采用最大值池化方式,池化窗口大小设为2,下采样因子设为2,补零策略采用上下左右补0的方法,保留边界处的卷积结果;(d)最后的全连接层选用softmax激活函数对所有的dropout层的输出进行回归得到各种情感类型的输出概率。6.根据权利要求2所述的一种增强愤怒与开心识别的语音情感识别方法,其特征在于,在步骤(4)中,得到语音情感的最终判断识别结果的方法如下:(4.1)通过语音情感识别模型对语音信号进行处理,得到愤怒的概率SH、开心的概率SA、悲伤的概率SS和平静的概率SM;(4.2)通过文本情感识别模型对语音信号进行处理,得到愤怒的概率TH、开心的概率TA、悲伤的概率TS和平静的...

【专利技术属性】
技术研发人员:王蔚胡婷婷冯亚琴
申请(专利权)人:南京师范大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1