当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于深度神经网络的语音分类方法技术

技术编号:17915070 阅读:237 留言:0更新日期:2018-05-10 19:50
本发明专利技术公开了一种基于深度神经网络的语音分类方法,旨在通过一个统一的算法模型,解决不同的语音分类问题。本发明专利技术包括如下步骤:S1:将语音转换为相应的语谱图;在完整的语谱图上沿着频域进行分块,获得一组局部的频域信息集合。S2:分别将完整和局部的频域信息作为模型的输入,基于不同的输入,卷积神经网络能够提取到局部和全局特征。S3:运用注意力机制,融合全局和局部的特征表达,形成最终的特征表达。S4:采用已标记的数据,通过梯度下降以及反向传播算法训练网络。S5:对未标记的语音,采用训练好的参数,模型输出最高概率的分类作为预测结果。本发明专利技术实现了对不同语音分类问题的统一算法模型,在多个语音分类问题上提高了准确度。

【技术实现步骤摘要】
一种基于深度神经网络的语音分类方法
一种基于深度神经网络的语音分类方法,用于处理不同的语音的分类任务,涉及语音信号处理,人工智能等

技术介绍
随着计算机技术的快速发展,人类对计算机的依赖性和要求不断增强,如何更好地与计算机进行交互已经成为了一个研究热点。语音作为日常生活中最普遍、最自然的一种沟通方式,它包含着巨大的信息量,例如说话人的口音,说话人的情感状态等等。计算机的语音分类识别能力是计算机进行语音处理的重要组成部分,是实现自然人机交互界面的关键前提,具有很大的研究价值和应用价值。语音分类技术是一个十分重要的研究方向,它在语音识别,语音内容检测等方面都起着重要作用。语音分类是对音频进行深度处理的基础和前提,对于当前给出的一段音频,可以通过分类可以事先确定语音所处的音频环境,说话人的性别,口音,情绪等,为调整语音模型的自适应算法提供基础。因此,语音分类方法是至关重要的。语音分类包括多种不同的任务,例如:语音情感识别,口音识别,说话人识别,语音环境区分等。语音分类任务的挑战在于语音的高维特性。传统的语音分类方法,通常会针对单一的问题或者数据库,提取特定的音频特征,从而降低输入分类网络的数据的维度。然而,特征提取需要足够的语音信号处理知识,因为特征提取代表着信息的过滤,会造成信息的缺失。其次,传统的分类算法往往不适合多分类任务,例如支持向量机等。这些问题都是我们的工作需要攻克的难点。深度神经网络方法是目前处理大数据,尤其是高维数据最主要的手段之一。深度神经网络的特点在于能够通过构造多层的非线性映射函数,通过对连接权的训练实现对音频数据的特征的学习并用于分类。深度神经网络因为其具有反馈、学习等功能,能根据输出结果对网络自身参数进行调整,目前,深度神经网络的热潮虽然已经逐渐在各个学科领域蔓延开,成功地应用于多个领域,包括机器翻译,语音识别,目标识别等。
技术实现思路
本专利技术针对上述不足之处提供了一种基于深度神经网络的语音分类方法,解决现有技术中仅针对特有的单任务分类或者数据的特征提取方法、高维数据难处理的问题。为了实现上述目的,本专利技术采用的技术方案为:一种基于深度神经网络的语音分类方法,其特征在于,包括如下步骤:S1:将语音数据进行短时傅里叶变换,转换为相应的语谱图;在完整的语谱图上沿着频域进行分块,获得一组局部的频域信息集合;S2:建立基于卷积神经网络和注意力机制的算法模型,分别将完整的语谱图和局部的频域信息作为模型的输入,进行特征学习;基于局部和完整的语谱图信息,使用卷积神经网络提取局部和全局特征;S3:运用注意力机制,融合全局和局部的特征表达,形成最终的特征表达,输入到softmax分类器,从而得到语音所属的分类的预测;S4:采用已标记的语音数据,通过梯度下降以及反向传播算法训练网络,并保存网络参数;S5:对未标记的语音,采用训练好的模型进行预测,模型输出最高概率的所属分类作为最终预测结果。进一步地,所述S1中分布式语谱图转换过程具体包括如下步骤:对原始音频进行短时傅里叶变换,将给定的原始音频分成M段短音频;对每段短音频,计算其短时能量并取模,最终得到一个完整的语谱图表达S,语谱图的S表达如下:(1)其中,N表示为每段短音频长度大小;公式(1)中展示了语谱图为二维矩阵的结构组成,其中两个维度在语音上分别代表着时间的变化顺序以及频域由低频到高频的区间变化,每个点上的数值大小代表了振幅的大小。对完整的语谱图信息沿着频域变化的方向进行分块,能够得到了一组局部与全局的频谱信息集合,即得到一组基于不同频域分布的输入数据组合:。进一步,S2中卷积神经网络的特征提取具体包括如下步骤:对于多个局部输入,使用卷积神经网络提取不同信息的特征,从而得到一组局部表达:(2)上式中,每个局部输入都有与之对应的卷积参数和,f表示为激活函数;最终得到的一组局部特征表达为:。对于当前完整的全局频域信息,使用卷积神经网络提取出全局的特征,具体计算公式如下:(3)其中,a表示为卷积神经网络提取到的全局特征。其中公式(2)和(3)中主要涉及到了卷积神经网络的卷积和池化操作。卷积的具体操作如下:(4)其中,M和N定义了卷积核的大小,m,n表示行数和列数,用来定义像素点位置,f是卷积核函数,定义了当前层的i行j列的特征表达,定义了当前层i行j列的输入数据。w定义了卷积核的参数,b是相应的偏置值;公式(4)中的卷积操作,在卷积网络中起到了重要的作用。通过共享权值的设计,卷积网络提取出的特征具有特征不变形;即输入的输入发生稍微的变化,网络提出的特征变化不大。池化的具体操作如下所示:(5)其中,代表着池化函数,最常见的池化函数有三种,即在感受野(卷积核的空间)内取最大值,最小值或者平均值。a是代表着池化层的输入,p代表着池化操作后的输出;公式(5)中池化参数大大减少了网络中权值的数目,防止了网络出现过拟合现象。进一步地,S3中的注意力机制融合全局与局部的特征表达具体包括如下步骤:基于不同的局部特征,运用注意力机制,重新得到新的全局特征表达;首先给全局信息赋予其每个组成部分一个“系数”:(6)上式中,代表着全局特征a的某一组成部分,总共m个组成信息,表示基于当前局部特征,这一组成部分的系数,代表着其重要性程度;公式(6)的含义在于注意力机制的本质操作,基于引导信息局部特征,对全局特征a的每个组成部分赋予不同的权值,代表着该组成的重要程度。旨在希望通过网络训练,找出组成中最具有代表性的特征。然后将计算出的代表着重要程度的系数与对应的组成部分相乘,组成一个新的全局信息:(7)这样运用注意力机制,得到了n个新的全局信息,与最初的全局特征a对位相加,得到最终的特征表达:(8)将最终的特征表达A,输入到softmax分类器,所得的概率值最大的类别即为该语音数据的预测类别。采用上述方案后,本专利技术的有益效果在于:(1)传统的语音分类方法都是针对单一的问题采用不同的特征提取算法,本专利技术通过深度神经网络对语音语谱图直接进行特征学习,可以根据任务的不同自主地学习不同的音频特征。(2)深度神经网络的训练往往需要大数据,然而目前公开的语音数据数目较少。基于以往的深度神经网络的研究,本专利技术进一步提出了卷积神经网络与注意力机制的融合的算法模型,进一步地提高了多个任务上识别率。以口音识别和说话人识别两组语音分类任务为例:表1表示了在口音识别问题上本专利技术中模型与其他方法的对比,其中i-Vector是经典的特征提取算法,VGG和ResNets是具有代表性的卷积神经网络模型。表2表示了在说话人识别问题上本专利技术中模型与其他方法的对比,其中MFCC是经典的特征提取算法,VGG和ResNets是具有代表性的卷积神经网络模型。上述实验结果证明:1)在多个语音分类问题上,本专利技术提出的模型学习到的特征相比于传统的特征提取算法,能够获得更好的识别结果。2)相较于其他神经网络方法的方法,本专利技术进一步地提高了将注意力机制应用在卷积神经网络中,增加模型鲁棒性和泛化能力,在多个问题上都提高了语音识别的准确率。附图说明图1为本专利技术中算法模型概要图;图2为基于频域的分布式语谱图;图3为采用了注意力机制的卷积块基本结构图;图4为本专利技术的整体过程图。具体实施方案下面会一一结合本专利技术实施例中的各个附本文档来自技高网
...
一种基于深度神经网络的语音分类方法

【技术保护点】
一种基于深度神经网络的语音分类方法,其特征在于分布式的语谱图与卷积神经网络和注意力机制的结合,包括如下步骤:S1:将语音数据进行短时傅里叶变换,转换为相应的语谱图;在完整的语谱图上沿着频域进行分块,获得一组局部的频域信息集合;S2:建立基于卷积神经网络和注意力机制的算法模型,分别将完整的语谱图和局部的频域信息作为模型的输入,进行特征学习;基于局部和完整的语谱图信息,使用卷积神经网络提取局部和全局特征;S3:运用注意力机制,融合全局和局部的特征表达,形成最终的特征表达,输入到softmax分类器,从而得到语音所属的分类的预测;S4:采用已标记的语音数据,通过梯度下降以及反向传播算法训练网络,并保存网络参数;S5:对未标记的语音,采用训练好的模型进行预测,模型输出最高概率的所属分类作为最终预测结果。

【技术特征摘要】
1.一种基于深度神经网络的语音分类方法,其特征在于分布式的语谱图与卷积神经网络和注意力机制的结合,包括如下步骤:S1:将语音数据进行短时傅里叶变换,转换为相应的语谱图;在完整的语谱图上沿着频域进行分块,获得一组局部的频域信息集合;S2:建立基于卷积神经网络和注意力机制的算法模型,分别将完整的语谱图和局部的频域信息作为模型的输入,进行特征学习;基于局部和完整的语谱图信息,使用卷积神经网络提取局部和全局特征;S3:运用注意力机制,融合全局和局部的特征表达,形成最终的特征表达,输入到softmax分类器,从而得到语音所属的分类的预测;S4:采用已标记的语音数据,通过梯度下降以及反向传播算法训练网络,并保存网络参数;S5:对未标记的语音,采用训练好的模型进行预测,模型输出最高概率的所属分类作为最终预测结果。2.根据权利要求1所述的一种基于深度神经网络的语音分类方法,其特征在于:所述S1中分布式语谱图转换过程具体包括如下步骤:S11:对原始音频进行短时傅里叶变换,将给定的原始音频分成M段短音频;对每段短音频,计算其短时能量并取模,最终得到一个完整的语谱图表达S,语谱图的S表达如下:(1)其中,N表示为每段短音频长度大小;S12:对完整的语谱图信息沿着频域变化的方向进行分块,其中某个局部的频域信息的表达如下:(2)最后得到了一组局部与全局的频谱...

【专利技术属性】
技术研发人员:毛华章毅吴雨
申请(专利权)人:四川大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1