当前位置: 首页 > 专利查询>江苏大学专利>正文

一种半监督语音特征可变因素分解方法技术

技术编号:10398311 阅读:128 留言:0更新日期:2014-09-07 19:24
本发明专利技术公开了一种半监督语音特征可变因素分解方法,把语音特征分成四类:情感相关特征、性别相关特征、年龄相关特征、包括噪声和语种的其他因素相关特征。首先,对语音进行预处理得到语谱图,不同尺寸的语谱块输入无监督特征学习网络SAE,预训练得到不同尺寸的卷积核,然后分别用不同尺寸的卷积核对整个语谱图进行卷积,得到若干特征映射图,再对特征映射图进行最大池化,最终把特征堆叠起来形成局部不变特征y。y作为半监督卷积神经网络的输入,通过最小化四个不同的损失函数项将y分解成四类特征。本发明专利技术解决了情感、性别、年龄语音特征相互混杂导致识别准确率不高的问题,可分别用于基于语音信号的不同识别需求,还可以用于分解更多因素。

【技术实现步骤摘要】
一种半监督语音特征可变因素分解方法
本专利技术属于语音识别领域,具体涉及一种语音特征分解的方法。
技术介绍
随着计算机渗透到生活的各个角落,各种类型的计算平台都需要更简便的输入媒体,语音当仁不让成为用户最佳的选择之一。一般来说,语音中包括了说话人、说话内容、说话人的情感、性别、年龄等多种信息。近年来,随着一些应用的不断完善,促进了对人的情感、性别、年龄、说话内容等方面的基于语音信号的识别技术的发展。比如传统的呼叫中心通常都会随机的接通服务生来为客户提供电话咨询,而不能够根据用户的情感、性别和年龄提供个性化的服务,这就促使了是否可以通过客户的声音来判断其情感、性别和年龄,并以此为依据提供更加个性化的语音服务。但是在现有的基于语音信号的情感、性别和年龄识别相关任务中,传统的特征提取方法所提取的特征往往掺杂了情感、性别、年龄、说话内容、语言等因素,彼此之间很难区分,从而导致识别效果不佳。在DongYu等、名称为FeatureLearninginDeepNeuralNetworks—StudiesonSpeechRecognitionTasks的论文中,利用深度神经网络学到一个深层特征,但这个特征可能混杂了很多因素,如情感、性别、年龄等因素,如果把这个特征用于语音情感识别,识别率可能会受特征中其他因素的影响。目前还未出现一种特征提取方法能分别提取语音信号中不同类型的特征。本专利技术为了克服现有技术的缺陷,通过基于卷积神经网络的半监督特征学习,将语音特征分解成四类:情感相关特征、性别相关特征、年龄相关特征、其他因素相关特征,可分别用于基于语音信号的不同识别需求。本专利技术进一步拓展以后还可以用于分解更多因素。
技术实现思路
本专利技术的目的在于提供一种半监督语音特征可变因素分解方法,使得分解出的特征不受与识别任务无关的因素的干扰,且更显著地体现识别目标类别之间的差异,从而提高识别的准确度。为了解决以上技术问题,本专利技术首先对语音进行预处理得到语谱图,然后通过基于卷积神经网络的无监督学习得到局部不变特征,再采用一种半监督学习方法,通过重构误差函数、判别损失函数、正交损失函数、显著性损失函数四个损失函数的约束将无监督学习得到的局部不变特征,分解成四类:情感相关特征、性别相关特征、年龄相关特征和其他因素相关特征,可分别用于情感识别、性别识别、年龄识别,能有效提高识别准确率。具体技术方案如下:一种半监督语音特征可变因素分解方法,其特征在于包括下列步骤:步骤一,预处理:对语音样本进行预处理得到语谱图,再采用PCA进行主成份分析降维以及白化,从中提取出不同尺寸的语谱块;步骤二,无监督的局部不变特征学习:将所述语谱块作为无监督特征学习SAE的输入,通过输入不同尺寸的语谱块,预训练得到不同尺寸的卷积核,然后分别用所述不同尺寸的卷积核对整个语谱图进行卷积,得到若干特征映射图,再对所述特征映射图进行最大池化,最终把特征堆叠起来形成局部不变特征y;步骤三,基于卷积神经网络的半监督特征学习:将所述局部不变特征y作为半监督学习算法的输入,利用基于卷积神经网络的半监督学习的方法,通过四个不同的损失函数将将局部不变特征y分解成四类特征;所述四类特征包括情感相关特征、性别相关特征、年龄相关特征、以及包括噪声和语种的其他因素相关特征;所述半监督学习的损失函数由重构误差函数、判别损失函数、正交损失函数、显著性损失函数四部分组成;对于所述重构误差函数,所述四类特征都要参与重构局部不变特征y,误差采用均方误差;对于所述判别损失函数,先对有标签的数据进行类别预测,然后计算预测标签和真实标签之间的差异作为判别损失函数的值;对于所述正交损失函数,目的是使所述四类特征相互正交,表示输入局部不变特征y的不同的方向;对于所述显著性损失函数,目的是学习到仅体现识别目标类别之间的差异且更具有类别区分性的特征;通过最小化所述损失函数来获得四个损失函数的参数包括偏置和权重,从而得到所述四类特征。本专利技术具有有益效果。本专利技术的半监督特征学习,通过将局部不变特征分解成情感相关特征、性别相关特征、年龄相关特征、其他因素相关特征共四类特征,使得不同类型的特征用于不同的识别需求,避免了不同类型特征之间相互干扰的缺点。特别是半监督学习的损失函数由重构误差函数、判别损失函数、正交损失函数、显著性损失函数四部分组成,使得所学习到的特征能更好地描述识别目标类别之间的差异,不受无关因素的干扰。本专利技术解决了不同的语音特征混杂在一起从而带来的识别率不高的问题,能有效地提高识别准确率。附图说明图1是语音特征分解流程图。图2是无监督特征学习流程图。图3是半监督语音特征分解结构图。具体实施方式图1给出了本专利技术方法的总体思路,首先,对语音进行预处理得到语谱图,不同尺寸的语谱块输入无监督特征学习网络SAE,预训练得到不同尺寸的卷积核,然后经过卷积、池化操作,形成局部不变特征y。y作为半监督卷积神经网络的输入,通过最小化四个不同的损失函数项将y分解成四类特征。预处理后的语音信号被划分成li×hi大小的语谱块,i表示语谱块的个数,不同尺寸的语谱块输入无监督特征学习网络SAE,预训练得到不同尺寸的卷积核,然后分别用不同尺寸的卷积核对整个语谱图进行卷积,得到若干特征映射图,再对特征映射图进行最大池化,最终把特征堆叠起来形成局部不变特征y,如图2所示。y作为半监督卷积神经网络的输入,通过四个不同的损失函数项将y分解成四类特征。半监督的损失函数由重构误差函数、判别损失函数、正交损失函数、显著性损失函数四部分组成。通过最小化损失函数来获得四个损失函数项的参数,从而分解得到四类特征,分别用于不同的识别需求,如图3所示。所有特征均要参加重构,而不同类型的特征参与对应的判别损失函数的约束。本专利技术首先对语音进行预处理,利用基于卷积神经网络的无监督学习算法得到一组局部不变特征,然后利用基于卷积神经网络的半监督学习算法把局部不变特征分解成四类特征:情感相关特征、性别相关特征、年龄相关特征、其他因素相关特征。具体的步骤如下:步骤一,首先把时域信号转化成语谱图,窗尺寸为20ms,有10ms的重叠;然后利用PCA降维以及白化,PCA有60个主成分,最终产生60×n的语谱图。从中提取若干个不重叠的60×15的语谱。对于每个60×15的语谱,从中提取两个尺寸的语谱块,分别为60×6和60×10。步骤二,将60×6和60×10两种尺寸的语谱块分别输入到SAE,分别学习得到120个和输入尺寸一样大的60×6和60×10的卷积核。然后利用这两个卷积核分别对整个语谱60×15进行卷积,得到120个1×10和120个1×6的特征映射图,然后每两帧进行最大池化,得到120个1×5和120个1×3的特征。即对于60×6的卷积核得到600个特征,对于60×10的卷积核得到360个特征。这总的960个特征作为半监督的输入。接下来介绍一下无监督特征学习的一般步骤。自动编码器AE(Auto-Encoder)的目标函数如下:JAE(θ)=Σx∈L(x,g(h(x)))(1)其中x是输入的语谱块,此处的x是不带标签的。h(x)是编码函数,h(x)=s(ωx+α),其中ω是权重矩阵,α是偏置,g(x)是解码函数,x=g(x)=s(ωTh(x)-δ),其中ωT是ω的转置,δ是偏本文档来自技高网
...
一种半监督语音特征可变因素分解方法

【技术保护点】
一种半监督语音特征可变因素分解方法,其特征在于包括下列步骤:步骤一,预处理:对语音样本进行预处理得到语谱图,再采用PCA进行主成份分析降维以及白化,从中提取出不同尺寸的语谱块; 步骤二,无监督的局部不变特征学习:将所述语谱块作为无监督特征学习SAE的输入,通过输入不同尺寸的语谱块,预训练得到不同尺寸的卷积核,然后分别用所述不同尺寸的卷积核对整个语谱图进行卷积,得到若干特征映射图,再对所述特征映射图进行最大池化,最终把特征堆叠起来形成局部不变特征y; 步骤三,基于卷积神经网络的半监督特征学习:将所述局部不变特征y作为半监督学习算法的输入,利用基于卷积神经网络的半监督学习的方法,通过四个不同的损失函数将将局部不变特征y分解成四类特征;所述四类特征包括情感相关特征、性别相关特征、年龄相关特征、以及包括噪声和语种的其他因素相关特征;所述半监督学习的损失函数由重构误差函数、判别损失函数、正交损失函数、显著性损失函数四部分组成;对于所述重构误差函数,所述四类特征都要参与重构局部不变特征y,误差采用均方误差;对于所述判别损失函数,先对有标签的数据进行类别预测,然后计算预测标签和真实标签之间的差异作为判别损失函数的值;对于所述正交损失函数,目的是使所述四类特征相互正交,表示输入局部不变特征y的不同的方向;对于所述显著性损失函数,目的是学习到仅体现识别目标类别之间的差异且更具有类别区分性的特征;通过最小化所述损失函数来获得四个损失函数的参数包括偏置和权重,从而得到所述四类特征。...

【技术特征摘要】
1.一种半监督语音特征可变因素分解方法,其特征在于包括下列步骤:步骤一,预处理:对语音样本进行预处理得到语谱图,再采用PCA进行主成份分析降维以及白化,从中提取出不同尺寸的语谱块;步骤二,无监督的局部不变特征学习:将所述语谱块作为无监督特征学习SAE的输入,通过输入不同尺寸的语谱块,预训练得到不同尺寸的卷积核,然后分别用所述不同尺寸的卷积核对整个语谱图进行卷积,得到若干特征映射图,再对所述特征映射图进行最大池化,最终把特征堆叠起来形成局部不变特征y;步骤三,基于卷积神经网络的半监督特征学习:将所述局部不变特征y作为半监督学习算法的输入,利用基于卷积神经网络的半监督学习的方法,通过四个不同的损失函数将局部不变特征y分解成四类特征;所述四类特征包括情感相关特...

【专利技术属性】
技术研发人员:毛启容黄正伟薛文韬于永斌詹永照苟建平邢玉萍
申请(专利权)人:江苏大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1