一种基于深度神经网络的语音分类方法技术

技术编号：17915070 阅读：237 留言：0更新日期：2018-05-10 19:50

本发明专利技术公开了一种基于深度神经网络的语音分类方法，旨在通过一个统一的算法模型，解决不同的语音分类问题。本发明专利技术包括如下步骤：S1：将语音转换为相应的语谱图；在完整的语谱图上沿着频域进行分块，获得一组局部的频域信息集合。S2：分别将完整和局部的频域信息作为模型的输入，基于不同的输入，卷积神经网络能够提取到局部和全局特征。S3：运用注意力机制，融合全局和局部的特征表达，形成最终的特征表达。S4：采用已标记的数据，通过梯度下降以及反向传播算法训练网络。S5：对未标记的语音，采用训练好的参数，模型输出最高概率的分类作为预测结果。本发明专利技术实现了对不同语音分类问题的统一算法模型，在多个语音分类问题上提高了准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度神经网络的语音分类方法
一种基于深度神经网络的语音分类方法，用于处理不同的语音的分类任务，涉及语音信号处理，人工智能等

技术介绍
随着计算机技术的快速发展，人类对计算机的依赖性和要求不断增强，如何更好地与计算机进行交互已经成为了一个研究热点。语音作为日常生活中最普遍、最自然的一种沟通方式，它包含着巨大的信息量，例如说话人的口音，说话人的情感状态等等。计算机的语音分类识别能力是计算机进行语音处理的重要组成部分，是实现自然人机交互界面的关键前提，具有很大的研究价值和应用价值。语音分类技术是一个十分重要的研究方向，它在语音识别，语音内容检测等方面都起着重要作用。语音分类是对音频进行深度处理的基础和前提，对于当前给出的一段音频，可以通过分类可以事先确定语音所处的音频环境，说话人的性别，口音，情绪等，为调整语音模型的自适应算法提供基础。因此，语音分类方法是至关重要的。语音分类包括多种不同的任务，例如：语音情感识别，口音识别，说话人识别，语音环境区分等。语音分类任务的挑战在于语音的高维特性。传统的语音分类方法，通常会针对单一的问题或者数据库，提取特定的音频特征，从而降低输入分类网络的数据的维度。然而，特征提取需要足够的语音信号处理知识，因为特征提取代表着信息的过滤，会造成信息的缺失。其次，传统的分类算法往往不适合多分类任务，例如支持向量机等。这些问题都是我们的工作需要攻克的难点。深度神经网络方法是目前处理大数据，尤其是高维数据最主要的手段之一。深度神经网络的特点在于能够通过构造多层的非线性映射函数，通过对连接权的训练实现对音频数据的特征的学习并用...
一种基于深度神经网络的语音分类方法

【技术保护点】
一种基于深度神经网络的语音分类方法，其特征在于分布式的语谱图与卷积神经网络和注意力机制的结合，包括如下步骤：S1：将语音数据进行短时傅里叶变换，转换为相应的语谱图；在完整的语谱图上沿着频域进行分块，获得一组局部的频域信息集合；S2：建立基于卷积神经网络和注意力机制的算法模型，分别将完整的语谱图和局部的频域信息作为模型的输入，进行特征学习；基于局部和完整的语谱图信息，使用卷积神经网络提取局部和全局特征；S3：运用注意力机制，融合全局和局部的特征表达，形成最终的特征表达，输入到softmax分类器，从而得到语音所属的分类的预测；S4：采用已标记的语音数据，通过梯度下降以及反向传播算法训练网络，并保存网络参数；S5：对未标记的语音，采用训练好的模型进行预测，模型输出最高概率的所属分类作为最终预测结果。

【技术特征摘要】
1.一种基于深度神经网络的语音分类方法，其特征在于分布式的语谱图与卷积神经网络和注意力机制的结合，包括如下步骤：S1：将语音数据进行短时傅里叶变换，转换为相应的语谱图；在完整的语谱图上沿着频域进行分块，获得一组局部的频域信息集合；S2：建立基于卷积神经网络和注意力机制的算法模型，分别将完整的语谱图和局部的频域信息作为模型的输入，进行特征学习；基于局部和完整的语谱图信息，使用卷积神经网络提取局部和全局特征；S3：运用注意力机制，融合全局和局部的特征表达，形成最终的特征表达，输入到softmax分类器，从而得到语音所属的分类的预测；S4：采用已标记的语音数据，通过梯度下降以及反向传播算法训练网络，并保存网络参数；S5：对未标记的语音，采用训练好的模型进行预测，模型输出最高概率的所属分类作为最终预测结果。2.根据权利要求1所述的一种基于深度神经网络的语音分类方法，其特征在于：所述S1中分布式语谱图转换过程具体包括如下步骤：S11：对原始音频进行短时傅里叶变换，将给定的原始音频分成M段短音频；对每段短音频，计算其短时能量并取模，最终得到一个完整的语谱图表达S，语谱图的S表达如下：（1）其中，N表示为每段短音频长度大小；S12：对完整的语谱图信息沿着频域变化的方向进行分块，其中某个局部的频域信息的表达如下：（2）最后得到了一组局部与全局的频谱...

【专利技术属性】
技术研发人员：毛华，章毅，吴雨，
申请(专利权)人：四川大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人