一种基于3-d卷积神经网络的语音情绪识别方法及装置制造方法及图纸

技术编号：25992670 阅读：55 留言：0更新日期：2020-10-20 19:01

本发明专利技术公开了一种基于3‑d卷积神经网络的语音情绪识别方法及装置，包括以下步骤，步骤一，将原始语音使用log‑Mels进行处理，计算其deltas和delta‑detltas，步骤二，利用3‑d的CNN对log‑Mels的输出进行处理，以捕捉音频信息中的时域及频域的信息，步骤三，通过大量的标注数据，对3‑d卷积神经网络做训练，让神经网络做语音关于情绪的多分类问题，所述语音关于情绪的多分类问题是将语音分为平静、高兴、愤怒、悲伤、恐惧、惊讶的情绪标签，步骤四，通过梯度下降的方法优化参数，最终得到情绪识别模型。在本发明专利技术实施过程中，训练一个高准确率的情绪识别模型，3‑d神经网络由lod‑Mels作为输入，对3‑d卷积神经网络进行更新迭代，使其达到良好的识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于3-d卷积神经网络的语音情绪识别方法及装置
本专利技术属于语音情绪识别方法
，具体为一种基于3-d卷积神经网络的语音情绪识别方法以及对应的装置。
技术介绍
随着人工智能的发展，人工智能目前可以帮助人们处理越来越多的事情。人工智能也慢慢走近了人们的家庭生活。为了使用人工智能与人们的交互更加的和谐，可以洞察人们情绪的情绪识别就显得由于重要。目前使用二维卷积神经网络的情绪识别，准确率较低，无法进入人们的日常生活，无法产生价值。
技术实现思路
针对上述情况，为克服现有技术的缺陷，本专利技术提供一种基于3-d卷积神经网络的语音情绪识别方法及装置，有效的解决了
技术介绍
中的问题。为实现上述目的，本专利技术提供如下技术方案：一种基于3-d卷积神经网络的语音情绪识别方法，包括以下步骤，步骤一，将原始语音使用log-Mels进行处理，计算其deltas和delta-detltas，即增量，步骤二，利用3-d的CNN对log-Mels的输出进行处理，以捕捉音频信息中的时域及频域的信息，步骤三，通过大量的标注数据，对3-d卷积神经网络做训练，让神经网络做语音关于情绪的多分类问题，所述语音关于情绪的多分类问题是将语音分为平静、高兴、愤怒、悲伤、恐惧、惊讶的情绪标签，步骤四，通过梯度下降的方法优化参数，最终得到情绪识别模型。优选的，所述步骤一进一步包括：S1，对语音预加重，S2，将加重后的语音分成帧，并进行离散变换得到语音参数，S3，对S2中经离散变换的语音参数进行动态差分参数提取。r>优选的，所述S1中，在对语音加重时使用如下方程为H(Z)＝1-UZ-1，其中U表示权重，Z表示音频的向量表示。优选的，所述S2中，在将语音分成帧后，将每一帧乘以一个窗函数，所述窗函数的方程为优选的，在每一帧语音乘以一个窗函数后，将其进行离散傅里叶变换，且运算的公式为优选的，所述S3的具体步骤为通过Mel滤波器进行动态差分参数提取，且使用到的运算公式为其他。优选的，所述标注数据为代表情绪标签的原始语音数据。为实现上述目的，本专利技术还提供如下技术方案：一种种基于3-d卷积神经网络的语音情绪识别装置，包括语音输入模块、语音处理模块、语音判断模块与储存模块，所述语音输入模块用以对语音进行输入，所述语音处理模块用以对语音进行预加重、将加重后的语音分帧、对分帧后的语音进行离散变换与对离散后的语音数据进行参数提取，所述语音判断模块用以对处理后的语音参数进行情绪识别并对识别，以得到最终的情绪识别模型，所述储存模块用于对语音处理过程、语音处理结果及情绪识别模型进行储存。梯度下降是指神经网络更新参数的方法。可以将神经网络想象为一个庞大的链式复合函数，梯度是对其函数求偏导数数的集合，通过沿着梯度方向，更新神经网络中的参数，从而优化模型。里面参数是指的神经网络每个神经元的参数。与现有技术相比，本专利技术的有益效果是：1)、本专利技术通过神经网络将可以有效的将音频中关于情绪的特征提取出来，将与情绪无关的特征忽略，从而得到一个良好的情绪识别模型。而且本专利技术3-d卷积神经网络，训练一个高准确率的情绪识别模型，3-d神经网络由lod-Mels作为输入，对3-d卷积神经网络进行更新迭代，使其达到良好的识别准确率。2)、本专利技术通过对语音经过各种函数进行处理，能够增加本方法对语音的情绪分析的准确性，从而使得本方法在实施的时候能够优于现有的语音情绪方法。3)、本专利技术中的装置在实施的时候，优于输入的各种情绪的语音不断增多，能够不断的对情绪识别模型进行优化情绪模型，提高了语音情绪识别的准确性。具体实施方式下面将结合本专利技术实施例中，对本专利技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本专利技术一部分实施例，而不是全部的实施例；基于本专利技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本专利技术保护的范围。本专利技术公开了一种基于3-d卷积神经网络的语音情绪识别方法，包括以下步骤，步骤一，将原始语音使用log-Mels进行处理，计算其deltas和delta-detltas，deltas和delta-detltas即Δ，表示语音的增量的意思，步骤二，利用3-d的CNN对log-Mels的输出进行处理，以捕捉音频信息中的时域及频域的信息，步骤三，通过大量的标注数据，对3-d卷积神经网络做训练，让神经网络做语音关于情绪的多分类问题，语音关于情绪的多分类问题是将语音分为平静、高兴、愤怒、悲伤、恐惧、惊讶的情绪标签，步骤四，通过梯度下降的方法优化参数，最终得到情绪识别模型。步骤一进一步包括：S1，对语音预加重，S2，将加重后的语音分成帧，并进行离散变换得到语音参数，S3，对S2中经离散变换的语音参数进行动态差分参数提取。S1中，在对语音加重时使用如下方程为H(Z)＝1-UZ-1，其中U表示权重，Z表示音频的向量表示。S2中，在将语音分成帧后，将每一帧乘以一个窗函数，窗函数的方程为在每一帧语音乘以一个窗函数后，将其进行离散傅里叶变换，且运算的公式为S3的具体步骤为通过Mel滤波器进行动态差分参数提取，且使用到的运算公式为其他。上述的步骤一的处理方法可以总结为如下的步骤1.使用log-Mels对原始语音进行处理，计算其deltas和delta-detltas,这个步骤可以有效的减少音频中与情绪无关的因素。比如，说话风格，演讲内容，说话环境等。首先，进行语音预加重:H(Z)＝1-UZ-1。然后将语音分成帧，将每一帧乘以一个窗函数进行离散傅里叶变换(DFT)之后通过Mel滤波器进行动态差分参数提取其他。dt为deltas，将上式的结果再代入就可以得到delta-detltas。标注数据为代表情绪标签的原始语音数据。实施例一用户对原始输入的语音进行标注，例如标注为开心的语音，被标注为开心的语音经过如下步骤，1.使用log-Mels对原始输入为开心语音进行处理，计算其deltas和delta-detltas,这个步骤可以有效的减少音频中与情绪无关的因素。比如，说话风格，演讲内容，说话环境等。2.利用3-d的CNN对log-Mels的输出进行处理，3-d的卷积神经网络可以更好地捕捉音频中的时域及频域的信息。3.通过标注为开心的语音情绪数据，对3-d卷积神经网络做训练。让神经网络将此种情绪处理后的信息归结到开心模型中。通过梯度下降的方法优化参数。最终得到一个性能良好的情绪识别模型。实施例二用户对原始输入的语音进行标注，例如标注为惊讶的语音，被标注为惊讶的语音经过如下步骤，1.使用log-Mels对原始输入为惊讶语音进行处理，计算其deltas和delta-detltas,这个步骤可以有效的减少音频中与情绪无关的因素。比如，说话风格，演讲内容，说话环境等。<本文档来自技高网...

【技术保护点】
1.一种基于3-d卷积神经网络的语音情绪识别方法，其特征在于：包括以下步骤，/n步骤一，将原始语音使用log-Mels进行处理，计算其增量，/n步骤二，

【技术特征摘要】
1.一种基于3-d卷积神经网络的语音情绪识别方法，其特征在于：包括以下步骤，
步骤一，将原始语音使用log-Mels进行处理，计算其增量，
步骤二，利用3-d的CNN对log-Mels的输出对神经网络进行训练及特征提取，以捕捉音频信息中的时域及频域的信息，
步骤三，通过大量的标注数据，对3-d卷积神经网络做训练，让神经网络做语音关于情绪的多分类问题，所述语音关于情绪的多分类问题是将语音分为平静、高兴、愤怒、悲伤、恐惧、惊讶的情绪标签，
步骤四，通过梯度下降的方法优化参数，最终得到情绪识别模型。

2.根据权利要求1所述的一种基于3-d卷积神经网络的语音情绪识别方法，其特征在于：所述步骤一进一步包括：
S1，对语音预加重，
S2，将加重后的语音分成帧，并进行离散变换得到语音参数，
S3，对S2中经离散变换的语音参数进行动态差分参数提取。

3.根据权利要求2所述的一种基于3-d卷积神经网络的语音情绪识别方法，其特征在于：所述S1中，在对语音加重时使用如下方程为H(Z)＝1-UZ-1，其中U表示权重，Z表示音频的向量表示。

4.根据权利要求2所述的一种基于3-d卷积神经网络的语音情绪识别方法，其特征在于：所述S2中，在将语音分成帧后，将每一帧乘以一个窗函数，所述窗函数的方...

【专利技术属性】
技术研发人员：吴毅鑫，李稀敏，肖龙源，叶志坚，刘晓葳，
申请(专利权)人：厦门快商通科技股份有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人