当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于深度神经网络的多任务语音分类方法技术

技术编号:17034996 阅读:29 留言:0更新日期:2018-01-13 20:37
本发明专利技术公开一种基于深度学习的多任务语音分类方法,涉及语音处理技术领域,包括如下步骤:S1:对语音数据进行时频分析操作,得到相应的语谱图。S2:建立基于卷积神经网络和残差网络的神经网络模型,并将语谱图作为网络输入,提取特征。S3:将提取的特征输入到多个不同的softmax分类器,从而得到一个初始化的模型。S4:对语音样本及对应的多个标记进行数值化,并用此数据集训练初始化的模型,得到训练好的网络模型。S5:将训练好的模型对未标记的语音数据行预测,得到分类的概率值,并且选择较高概率值的类别作为分类结果。本发明专利技术解决了现有的音频分类方法是针对任务单独处理而忽略语音任务相关性,导致分类效率低的问题。

【技术实现步骤摘要】
一种基于深度神经网络的多任务语音分类方法
本专利技术涉及声音信号处理
,尤其涉及一种基于深度神经网络的多任务语音分类方法。
技术介绍
声音为我们提供了很多关于声音来源和周围环境的信息。人类的听觉系统能够分离和识别复杂的声音,如果一个机器可以执行类似的功能(音频分类和识别)是非常有用的,例如在噪音中的语音识别。音频分类是模式识别的一个重要领域,并且已经成功的应用到了很多领域,例如专业教育和娱乐领域。近几年,不同类别的音频分类,例如口音识别,说话人识别,语音情感识别已经有了很多成功的应用。然而,大部分音频分类方法都是针对任务单独处理,忽略了各任务之间的相互关联。比如,口音识别任务和说话人识别通常被当作单独的两个分类任务。但是事实上,对于同一条语音数据,语音说话人一旦确认,其口音也将确定。于是,我们希望利用这种关系同时地提高两种任务的分类效果。近几年深度学习引起了人工智能的高潮,由于深度神经网络对数据强大的抽象能力,神经网络学习方法已经成功的应用到语音信号处理等各个领域。在我们的工作中,卷积神经网络用来学习语音特征,提高了在多分类任务中的准确率。语谱图是一种详细且准确的包含时间和频率信息的语音表达。语谱图的一般形式主要是三个维度:时间,频率和用颜色表示的振幅。
技术实现思路
本专利技术的目的在于:为解决现有的音频分类方法是针对任务单独处理而忽略语音任务相关性,导致分类效率低的问题。本专利技术的技术方案如下:一种基于深度学习的多任务语音分类方法,包括如下步骤:S1:对语音数据进行时频分析操作,得到相应的语谱图。S2:建立基于卷积神经网络和残差网络的神经网络模型,并将语谱图作为网络输入,提取特征。S3:将提取的特征输入到多个不同的softmax分类器,从而得到一个初始化的模型。S4:对语音样本及对应的多个标记进行数值化,并用此数据集训练初始化的模型,得到训练好的网络模型。S5:将训练好的模型对未标记的语音数据行预测,得到分类的概率值,并且选择较高概率值的类别作为分类结果。进一步地,所述S2中,卷积神经网络的基本操作包含卷积操作和池化操作,卷积操作可用下述公式表示:其中,M和N定义了卷积核的大小,i,j表示行数和列数,用来定义像素点的位置,f是卷积核函数,l∈(1,L)表示卷积神经网络的层数,定义了l层的i行j列的特征,定义了l层的n行m的卷积核的参数,b是相应的偏置函数,公式(1)的含义为:输入特征图的不同部分与卷积核的乘积在卷积核函数的作用下得到新的特征图,上述公式保证了特征提取与位置无关,也就是输入特征图的一部分的统计特性与其他部分是一样的。卷积神经网络的池化操作可用下述公式表示:al=f(βldown(al-1)+bl)(2)上述公式中,al为第层的输入,down表示了下采样方式,βl是相应的参数;公式(2)的含义为,对输入特征图镜像池化操作,也就是图像不同位置的特征进行聚合,从而减少网络中的参数。所述S2中残差网络的基本残差块可以用下述公式表示:y=F(x,W)+x.(3)其中F表示两层的卷积网络,W是卷积网络的参数,x为一个残差块的输入,y表示基本残差块。公式(3)的含义为,一个输入x,在两层前向卷积网络后,得到一个输出F(x,W),然后通过一个shortcut,获得输出y。S2中使用的基本架构模型的公式表示为:y=F1(x,W1)*F2(x,W2)+x.(4)其中,*是按位运算的乘法,F1,F2是两个卷积层,x是此基本结构的输入,W1,W2是两个卷积层的参数。公式(4)的含义为,一个输入x,分别在两个卷积网络的作用下,得到输出F1(x,W1)和F2(x,W2),将两者相乘,然后通过一个shortcut,获得输出y。具体地,所述S4中包括如下步骤:S4:对语音样本及对应的多个标记进行数值化,并用此数据集训练初始化的模型,得到训练好的网络模型。S41:对每个语音样本进行时域频域分析,提取语谱图,并且数值化语音样本的多个任务对应的多个标记。S42:在步骤S3中获得的初始化的多任务分类模型基础上,学习当前的语音分类任务,得到训练好的多任务分类模型。S43:将训练好的多任务分类模型用来对语音数据的多任务分类,给出每条语音在每个任务的概率值,选定较大概率值的类别作为分类结果。采用上述方案后,本专利技术的有益效果在于:(1)语音数据的特征提取是一个关键的预处理操作,通过神经网络对语音语谱图提取特征,在具体操作中将语谱图转换为200维的共享特征。(2)在分类过程中,希望神经网络能够学习到语音本质特征,从而正确预测每个分类类别,于是我们提出了我们自己的神经网络结构,已得到更好的语音表达。具体地,对于同样完成多分类的模型,如SVM,经典的神经网络结构,我们的模型比较好;对于单分类模型,在同一个模型上,单独实现两个任务的准确率,都低于多任务分类模型。以语句和歌曲上的语音情感识别为例,其主要任务为语音情感分类,其辅助任务为语句和歌曲的分类。准确率SVM48.01%单任务模型56.33%多任务模型62.39%表1主要对比在主要任务上单任务模型和多任务模型的准确率。其中,SVM是一种经典的机器学习分类方法;单任务模型为我们提出的模型用于单任务分类,情感分类的准确率为56.33%,而在多任务模型上,同时实现两个任务,其情感识别的准确率增加了6.06%网络结构情感识别准确率语音和歌曲分类准确率卷积神经网络53.73%92.24残差网络57.21%94.62%基于门的残差网络62.3993.13表2,主要对比基于不同神经网络结构的多任务模型在语句和歌曲上的语音情感识别上的准确率。其中,基于门的残差网络是本专利提出的模型。上述实验结果证明:1)对于同样完成多分类的模型,如SVM,经典的神经网络结构,我们的模型比较好。2)对于单分类模型,在同一个模型上,单独实现两个任务的准确率,都低于多任务分类模型。(3)相较于其他非神经网络方法的模型而言,通过深度神经网络方法对语音的特征提取,能够很好的对多任务分类模型进行初始化,增加模型鲁棒性,提高每个任务识别的效果。由于音频信号本身可能有噪声等影响,而神经网络方法对噪声等有好的泛化能力。另外,对单任务模型,如音频的情感分类,对新的说话人是很敏感的,多任务分类由于也学习了说话人特征是相对影响较小的。附图说明图1为本专利技术中多任务模型图;图2为包含生气情感的语音的语谱图;图3为包含开心情感的语音的语谱图;图4为本专利技术的残差网络基本结构图;图5为本专利技术中的神经网络的基本结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参见图1,一种基于深度神经网络的多任务语音分类的核心模型是一个多任务的分类模型,该模型用于分类两类任务。基于深度学习的多任务语音分类方法,包括如下步骤:S1:对语音数据进行时频分析操作,得到相应的语谱图。S2:建立基于卷积神经网络和残差网络的神经网络模型,并将语谱图作为网络输入,提取特征,此步骤中,通过构建一个二分类任务网络结构来提取用于多个任务的共同特征。本专利技术的多本文档来自技高网...
一种基于深度神经网络的多任务语音分类方法

【技术保护点】
一种基于深度学习的多任务语音分类方法,其特征在于:包括如下步骤:S1:对语音数据进行时频分析操作,得到相应的语谱图;S2:建立基于卷积神经网络和残差网络的神经网络模型,并将语谱图作为网络输入,提取特征;S3:将提取的特征输入到多个不同的softmax分类器,从而得到一个初始化的模型;S4:对语音样本及对应的多个标记进行数值化,并用此数据集训练初始化的模型,得到训练好的网络模型;S5:将训练好的模型对未标记的语音数据行预测,得到分类的概率值,并且选择较高概率值的类别作为分类结果。

【技术特征摘要】
1.一种基于深度学习的多任务语音分类方法,其特征在于:包括如下步骤:S1:对语音数据进行时频分析操作,得到相应的语谱图;S2:建立基于卷积神经网络和残差网络的神经网络模型,并将语谱图作为网络输入,提取特征;S3:将提取的特征输入到多个不同的softmax分类器,从而得到一个初始化的模型;S4:对语音样本及对应的多个标记进行数值化,并用此数据集训练初始化的模型,得到训练好的网络模型;S5:将训练好的模型对未标记的语音数据行预测,得到分类的概率值,并且选择较高概率值的类别作为分类结果。2.根据权利要求1所述的一种基于深度学习的多任务语音分类方法,其特征在于,所述S2中,卷积神经网络的基本操作包含卷积操作和池化操作,卷积操作可用下述公式表示:其中,M和N定义了卷积核的大小,i,j表示行数和列数,用来定义像素点的位置,f是卷积核函数,l∈(1,L)表示卷积神经网络的层数,定义了l层的i行j列的特征,定义了l层的n行m的卷积核的参数,bl是l层的偏置函数;卷积神经网络的池化操作可用下述公式表示:al=f(βldown(al-1)+bl)(2)上述公式中,al...

【专利技术属性】
技术研发人员:毛华彭德中章毅曾煜妮
申请(专利权)人:四川大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1