一种基于深度神经网络的多任务语音分类方法技术

技术编号：17034996 阅读：29 留言：0更新日期：2018-01-13 20:37

本发明专利技术公开一种基于深度学习的多任务语音分类方法，涉及语音处理技术领域，包括如下步骤：S1:对语音数据进行时频分析操作，得到相应的语谱图。S2:建立基于卷积神经网络和残差网络的神经网络模型，并将语谱图作为网络输入，提取特征。S3:将提取的特征输入到多个不同的softmax分类器，从而得到一个初始化的模型。S4:对语音样本及对应的多个标记进行数值化，并用此数据集训练初始化的模型，得到训练好的网络模型。S5:将训练好的模型对未标记的语音数据行预测，得到分类的概率值，并且选择较高概率值的类别作为分类结果。本发明专利技术解决了现有的音频分类方法是针对任务单独处理而忽略语音任务相关性，导致分类效率低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度神经网络的多任务语音分类方法
本专利技术涉及声音信号处理
，尤其涉及一种基于深度神经网络的多任务语音分类方法。
技术介绍
声音为我们提供了很多关于声音来源和周围环境的信息。人类的听觉系统能够分离和识别复杂的声音，如果一个机器可以执行类似的功能(音频分类和识别)是非常有用的，例如在噪音中的语音识别。音频分类是模式识别的一个重要领域，并且已经成功的应用到了很多领域，例如专业教育和娱乐领域。近几年，不同类别的音频分类，例如口音识别，说话人识别，语音情感识别已经有了很多成功的应用。然而，大部分音频分类方法都是针对任务单独处理，忽略了各任务之间的相互关联。比如，口音识别任务和说话人识别通常被当作单独的两个分类任务。但是事实上，对于同一条语音数据，语音说话人一旦确认，其口音也将确定。于是，我们希望利用这种关系同时地提高两种任务的分类效果。近几年深度学习引起了人工智能的高潮，由于深度神经网络对数据强大的抽象能力，神经网络学习方法已经成功的应用到语音信号处理等各个领域。在我们的工作中，卷积神经网络用来学习语音特征，提高了在多分类任务中的准确率。语谱图是一种详细且准确的包含时间和频率信息的语音表达。语谱图的一般形式主要是三个维度：时间，频率和用颜色表示的振幅。
技术实现思路
本专利技术的目的在于：为解决现有的音频分类方法是针对任务单独处理而忽略语音任务相关性，导致分类效率低的问题。本专利技术的技术方案如下：一种基于深度学习的多任务语音分类方法，包括如下步骤：S1:对语音数据进行时频分析操作，得到相应的语谱图。S2:建立基于卷积神经网络和残差网络的神经网络模型，...
一种基于深度神经网络的多任务语音分类方法

【技术保护点】
一种基于深度学习的多任务语音分类方法，其特征在于：包括如下步骤：S1:对语音数据进行时频分析操作，得到相应的语谱图；S2:建立基于卷积神经网络和残差网络的神经网络模型，并将语谱图作为网络输入，提取特征；S3:将提取的特征输入到多个不同的softmax分类器，从而得到一个初始化的模型；S4:对语音样本及对应的多个标记进行数值化，并用此数据集训练初始化的模型，得到训练好的网络模型；S5:将训练好的模型对未标记的语音数据行预测，得到分类的概率值，并且选择较高概率值的类别作为分类结果。

【技术特征摘要】
1.一种基于深度学习的多任务语音分类方法，其特征在于：包括如下步骤：S1:对语音数据进行时频分析操作，得到相应的语谱图；S2:建立基于卷积神经网络和残差网络的神经网络模型，并将语谱图作为网络输入，提取特征；S3:将提取的特征输入到多个不同的softmax分类器，从而得到一个初始化的模型；S4:对语音样本及对应的多个标记进行数值化，并用此数据集训练初始化的模型，得到训练好的网络模型；S5:将训练好的模型对未标记的语音数据行预测，得到分类的概率值，并且选择较高概率值的类别作为分类结果。2.根据权利要求1所述的一种基于深度学习的多任务语音分类方法，其特征在于，所述S2中，卷积神经网络的基本操作包含卷积操作和池化操作，卷积操作可用下述公式表示：其中，M和N定义了卷积核的大小，i，j表示行数和列数，用来定义像素点的位置，f是卷积核函数，l∈(1，L)表示卷积神经网络的层数，定义了l层的i行j列的特征,定义了l层的n行m的卷积核的参数，bl是l层的偏置函数；卷积神经网络的池化操作可用下述公式表示：al＝f(βldown(al-1)+bl)(2)上述公式中，al...

【专利技术属性】
技术研发人员：毛华，彭德中，章毅，曾煜妮，
申请(专利权)人：四川大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人