当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于局部惩罚随机谱回归的语音信号情感识别方法技术

技术编号:17657213 阅读:52 留言:0更新日期:2018-04-08 09:47
本发明专利技术公开了一种基于局部惩罚随机谱回归的语音信号情感识别方法,对带有情感信息的语段信号样本进行副语言特征提取、数据映射、局部惩罚嵌入图设计和图分解、回归、分类器分类判决。其中在数据映射阶段,使用了随机生成点进行非线性特征映射;在局部惩罚嵌入图设计和图分解阶段,使用了局部惩罚嵌入图,以加大对类间边缘样本对之间的惩罚权重,生成训练样本的虚拟坐标。与现有方法相比,本发明专利技术的方法在语音信号情感识别方面,能够有效地提升系统的识别性能。

【技术实现步骤摘要】
一种基于局部惩罚随机谱回归的语音信号情感识别方法
本专利技术属于语音信号情感识别领域,特别是涉及一种基于局部惩罚随机谱回归的语音信号情感识别方法。
技术介绍
声信号人类感知外界世界,并与之交流的一个主要载体,在很多领域内具有重要的研究价值。而语音信号作为一类特殊的声信号,能够承载说话人的类型、语义、情绪、状态、个性、健康等丰富的信息。语音信号的智能处理是在以语音信号作为载体的基础上,使用智能化的方法让机器能够更感知、以一定的目标学习语音信号中的有用特征,构建自动化处理语音信号的系统。语音信号智能处理的一个重要的分支就是语音信号的情感信息处理,在人机交互、心理疾病诊断和预防、极端条件下作业人员的情绪监测等方面有着广泛的应用背景。而语音信号情感识别则是其中被研究最多的一种情况,旨在研究给定语段信号的情感分类情况。谱回归(SpectralRegression,简称SR)方法在图像处理与模式识别中得到了广泛的应用,在节省算法的计算量、提升训练学习性能方面起到较好的作用,能够较好地解决直接求解优化问题中的奇异值问题。传统的谱回归算法包括谱图学习(SpectralGraphLearning)和回归拟合(Regression)两个阶段,通过谱图学习得到训练样本的谱数据,并进行线性或非线性建模回归运算,得到数据特征的投影模型。所以,谱回归相关方法可以用于语音信号情感识别系统性能的进一步提升。而当前的研究中存在着以下两个方面的问题:一是对于常用于语音情感信号识别的副语言特征,需要构建适用于这些特征的图表示,用于谱图学习;二是在目前的谱回归方法中,从线性模型过渡到非线性模型的主要方法为核方法(KernelTricks),这种方法相对单一,无法较好地描述目前日趋复杂的特征结构和样本集。
技术实现思路
要解决的技术问题:针对现有技术的不足,解决现有技术中,当目标为识别语音信号中的情感信息时,副语言特征对于当前的谱回归方法不适用;以及已有谱回归方法中非线性变换方式单一的问题,本专利技术提出一种基于局部惩罚随机谱回归(LocallyPenalizedRandomSpectralRegression)的语音信号情感识别方法。技术方案:为解决上述技术问题,本专利技术采用以下技术方案:一种基于局部惩罚随机谱回归的语音信号情感识别方法,建立语音情感数据库,语音情感数据库包括若干语段样本,将语音情感数据库中的若干语段样本采用说话人独立的方式,划分为训练样本集和测试样本集,即训练样本集中样本对应的说话人不出现在测试样本集对应的说话人中,测试样本集中样本对应的说话人也不出现在训练样本集对应的说话人中;每个样本都拥有情感类别标签,所述情感类别标签包括愉悦、生气、悲伤,假设训练样本集中每个样本对应的情感类别标签为已知且唯一,该方法包括顺序执行以下步骤:步骤一、提取生成N维原始特征:对训练样本集和测试样本集中的每个语段样本,分别经过处理,提取出对应的副语言特征,作为原始特征,并对原始特征做规整化处理,得到N个训练样本对应的规整化特征X=[x1,x2,...,xN];步骤二、对原始特征进行数据映射处理:依0-1间的均匀分布,随机生成多组和原始特征维数相同的NA个随机向量对每个样本,使用这些随机向量,生成N个训练样本经过数据映射K得到的NA维新特征其中Ω的每列对应一个训练样本的数据映射新特征;步骤三、谱图学习处理:使用训练样本的情感类别标签以及训练样本经过规整化的原始特征,构建以各训练样本为结点的图结构,并进行谱图学习分解得到N个训练样本的d维虚拟坐标步骤四、回归处理:结合谱图学习生成的虚拟坐标,和样本经过数据映射得到的新特征,进行线性回归运算,投影得到训练样本,线性投影系数为步骤五、训练分类器:选用1NN分类器,直接使用步骤四中得到的与步骤二得到的Ω相乘,得到训练样本的投影特征,组成1NN分类器;步骤六、测试:对于每个测试样本,使用经步骤五得到的分类器对每个测试样本进行测试,进一步的,步骤一中的规范化处理的方法如下:规整化前的所有语段样本中的任一样本的特征列向量为x(0),其中N个训练样本的特征列向量组成的训练样本集为设为的第j个特征元素;对于任一样本的特征列向量x(0),特征j对应元素的规整化处理的计算公式为:其中表示X(0)第j行中最大的元素,表示X(0)第j行中最小的元素;为规整化处理后的结果;将任一样本中的所有的元素按照式(1)进行计算,得到任一训练或测试样本规整化后的特征列向量x=[x·1,x·2,...,x·n]T,其中,属于训练样本集的语段信号样本的规整化后的特征向量组成训练样本的规整化特征向量集X=[x1,x2,...,xN],即进一步的,步骤二中进行数据映射时包括顺序执行的以下步骤:(1)按0-1间均匀分布,生成NA组n维随机向量(2)生成N个训练样本数据映射的NA维新特征其中对于存在:其中t0为Gauss尺度参数,t0取值范围为0.01n至10n。进一步的,步骤三中进行谱图学习时包括顺序执行的以下步骤:(1)训练样本的嵌入图设计:设L(I)为谱图学习中本征嵌入图对应的拉普拉斯矩阵,取为Fisher判别分析本征图的拉普拉斯矩阵,日L(I)=D(I)-W(I);其中,N×N对角阵D(I)中第i行j列的元素的形式为W(I)为线性判别分析的本征图邻接阵,且其中nc为类c中的训练样本数,N0为类数,对于N维列向量ec的任一元素,其对应的训练样本属于类c时该元素为1,否则该元素为0;设L(P)为谱图学习中惩罚嵌入图对应的拉普拉斯矩阵,L(P)=D(P)-W(P);其中,N×N对角阵D(P)中第i行j列的元素的形式为其中其中,e为全部元素均为1的N维列向量;局部惩罚权重δ0取值在0至1之间;训练样本标签矩阵运算枸表示矩阵间按元素相乘;WkNN表示k近邻图,即:元素(WkNN)ij在样本i、j互为近邻时取为1,否则为0;(2)嵌入图分解:选择优化目标为:其中,L(I)和L(P)分别为谱图学习中本征嵌入图和惩罚嵌入图对应的拉普拉斯矩阵;I为N×N的单位阵;γ1>0、γ2>0为防止产生奇异值的附加项权重,γ1、γ2取值小于10-6;该优化形式可以通过广义特征值问题求解,求解得到d组最优值,经过正交规范化处理后,组成进一步的,步骤四中的回归处理具体方法为:对每一个求解回归优化形式:其中,γ为投影ω的范数最小化优化项权重,得到维度i对应的最优投影方向:由1至d的最优投影方向组成进一步的,步骤一中的副语言特征为体现语段样本的大规模特征集,采用每帧信号声学特征计算统计参数,以及少量语段整体特征。进一步的,步骤六的测试方法具体包括以下步骤:(1)对经步骤一得到的经过规整化处理后的每个测试样本的规整化特征向量使用经步骤二生成的同一组随机向量进行数据映射,得到其中K为步骤二中的数据映射方式;使用步骤四中的线性投影系数进而得到经过数据映射和投影的低维样本(2)使用分类器对进行分类,选择1NN分类器进行分类:对于每一个测试样本,在全体训练样本中找到与该测试样本欧式距离最近的训练样本,使用该训练样本对应的情感类别标签作为该测试样本的分类判决结果。有益效果:本专利技术提供的一种基于局部惩罚随机谱回归的语音信号情感识别方法,通过将样本按不同说话人,划分成为训练集和测试集,含有情感本文档来自技高网
...
一种基于局部惩罚随机谱回归的语音信号情感识别方法

【技术保护点】
一种基于局部惩罚随机谱回归的语音信号情感识别方法,其特征在于:建立语音情感数据库,语音情感数据库包括若干语段样本,将语音情感数据库中的若干语段样本采用说话人独立的方式,划分为训练样本集和测试样本集,即训练样本集中样本对应的说话人不出现在测试样本集对应的说话人中,测试样本集中样本对应的说话人也不出现在训练样本集对应的说话人中;每个样本都拥有情感类别标签,所述情感类别标签包括愉悦、生气、悲伤,假设训练样本集中每个样本对应的情感类别标签为已知且唯一,该方法包括顺序执行以下步骤:步骤一、提取生成N维原始特征:对训练样本集和测试样本集中的每个语段样本,分别经过处理,提取出对应的副语言特征,作为原始特征,并对原始特征做规整化处理,得到N个训练样本对应的规整化特征X=[x1,x2,...,xN];步骤二、对原始特征进行数据映射处理:依0‑1间的均匀分布,随机生成多组和原始特征维数相同的N

【技术特征摘要】
1.一种基于局部惩罚随机谱回归的语音信号情感识别方法,其特征在于:建立语音情感数据库,语音情感数据库包括若干语段样本,将语音情感数据库中的若干语段样本采用说话人独立的方式,划分为训练样本集和测试样本集,即训练样本集中样本对应的说话人不出现在测试样本集对应的说话人中,测试样本集中样本对应的说话人也不出现在训练样本集对应的说话人中;每个样本都拥有情感类别标签,所述情感类别标签包括愉悦、生气、悲伤,假设训练样本集中每个样本对应的情感类别标签为已知且唯一,该方法包括顺序执行以下步骤:步骤一、提取生成N维原始特征:对训练样本集和测试样本集中的每个语段样本,分别经过处理,提取出对应的副语言特征,作为原始特征,并对原始特征做规整化处理,得到N个训练样本对应的规整化特征X=[x1,x2,...,xN];步骤二、对原始特征进行数据映射处理:依0-1间的均匀分布,随机生成多组和原始特征维数相同的NA个随机向量对每个样本,使用这些随机向量,生成N个训练样本经过数据映射K得到的NA维新特征其中Ω的每列对应一个训练样本的数据映射新特征;步骤三、谱图学习处理:使用训练样本的情感类别标签以及训练样本经过规整化的原始特征,构建以各训练样本为结点的图结构,并进行谱图学习分解得到N个训练样本的d维虚拟坐标步骤四、回归处理:结合谱图学习生成的虚拟坐标,和样本经过数据映射得到的新特征,进行线性回归运算,投影得到训练样本,线性投影系数为步骤五、训练分类器:选用1NN分类器,直接使用步骤四中得到的与步骤二得到的Ω相乘,得到训练样本的投影特征,组成1NN分类器;步骤六、测试:对于每个测试样本,使用经步骤五得到的分类器对每个测试样本进行测试。2.根据权利要求1所述的基于局部惩罚随机谱回归的语音信号情感识别方法,其特征在于:步骤一中的规范化处理的方法如下:规整化前的所有语段样本中的任一样本的特征列向量为x(0),其中N个训练样本的特征列向量组成的训练样本集为设为的第j个特征元素;对于任一样本的特征列向量x(0),特征j对应元素的规整化处理的计算公式为:其中表示X(0)第j行中最大的元素,表示X(0)第j行中最小的元素;为规整化处理后的结果;将任一样本中的所有的元素按照式(1)进行计算,得到任一训练或测试样本规整化后的特征列向量x=[x·1,x·2,...,x·n]T,其中,属于训练样本集的语段信号样本的规整化后的特征向量组成训练样本的规整化特征向量集X=[x1,x2,...,xN],即3.根据权利要求1所述的基于局部惩罚随机谱回归的语音信号情感识别方法,其特征在于:步骤二中进行数据映射时包括顺序执行的以下步骤:(1)按0-1间均匀分布,生成NA组n维随机向量(2)生成N个训练样本数据映射的NA...

【专利技术属性】
技术研发人员:赵力徐新洲郑文明邓军黄程韦魏昕李燕吴尘塔什甫拉提尼扎木丁赵突余华邹采荣
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1