当前位置: 首页 > 专利查询>东南大学专利>正文

基于实时场景下语音信噪比预分级的卷积神经网络计算电路制造技术

技术编号:22886082 阅读:54 留言:0更新日期:2019-12-21 08:03
本发明专利技术公开了基于实时场景下语音信噪比预分级的卷积神经网络计算电路,属于计算、推算、计数的技术领域。在传统的“语音特征提取+卷积计算识别输出”的语音识别网络电路工作模式基础上,增设动态实时语音信噪比检测模块。动态实时语音信噪比检测模块通过智能感知计算实时输出当前语音场景下的电路工作模式控制信号,并动态调节后续位宽可控的卷积网络计算模块的数据运算位宽大小以及自适应语音特征提取计算模块的快速傅里叶变换的蝶形运算级数,从根本上解决了传统卷积网络计算电路结构存在的场景适应力差、冗余计算多、资源占用过多的问题。

Convolutional neural network computing circuit based on speech SNR pre classification in real-time scene

【技术实现步骤摘要】
基于实时场景下语音信噪比预分级的卷积神经网络计算电路
本专利技术公开了基于实时场景下语音信噪比预分级的卷积神经网络计算电路,涉及人工智能神经网络电路结构的设计,属于计算、推算、计数的

技术介绍
不同语音词包含的信息量存在差异且其噪声背景不同,对计算精度的要求也不同。以英文单词为例,其发音音节有长有短,音节的复杂性对于网络的容错率会有一定的影响,在语音识别中,不同噪声环境对网络的精度要求也会有差异。语音信息的丰富度决定了适用网络模型的复杂度,针对特定任务选择合适的识别模型至关重要。对于比较简单、信息量少、噪声干扰不强的语音信息使用较低精度就可以完成识别任务,对于复杂、信息量多、噪声背景复杂的语音信息使用较高精度才会取得较好的识别效果。实际应用中,输入的语音信息是多种多样的,既包含简单的语音信号又包含复杂的语音信号,如果根据语音复杂度频繁地更换识别模型会花费大量的计算调度时间。实际任务中有时仅仅需要粗粒度的分类,有时又需要细粒度的分类。粗粒度的分类只需要使用较低精度,细粒度分类需要使用较高精度。实际应用中,对于低噪声简单背景下的孤立词识别或者当前任务识别精度要求较低时,运行高精度网络会造成冗余计算,浪费计算资源;固定使用较低精度计算难以实现要求较高的复杂语音的处理。因此,根据输入语音数据的噪声背景复杂度和识别任务的精度要求动态选择卷积神经网络计算电路的工作状态是解决复杂环境下语音识别问题的一种可行方案。
技术实现思路
本专利技术的专利技术目的是针对上述
技术介绍
的不足,实现了基于实时场景下语音信噪比预分级的卷积神经网络计算电路,根据实时语音场景环境复杂度动态地智能感知计算并自适应调节网络运算位宽以及傅里叶变换蝶形运算级数,解决了传统语音识别系统因过饱和运算造成系统资源浪费的技术问题。本专利技术为实现上述专利技术目的采用如下技术方案:基于实时场景下语音信噪比预分级的卷积神经网络计算电路,包括:位宽可控的卷积网络计算模块、自适应语音特征提取计算模块及动态实时语音信噪比检测模块。工作时,位宽可控的卷积网络计算模块和自适应语音特征提取计算模块的控制信号由系统控制信号以及动态实时语音信噪比检测模块输出的两位控制信号共同决定,并由该控制信号确定当前场景下卷积神经网络的最优计算模式。位宽可控的卷积网络计算模块由卷积计算子单元以及位宽控制单元构成,其数据位宽控制信号由自适应位宽控制单元产生。当环境信噪比较差时,即对于复杂、信息量多、噪声背景复杂的语音信息输入,则动态实时语音信噪比检测模块输出控制信号C0=1,表明需要动态选择高精度计算模式,自适应位宽控制单元产生16位数据位宽的控制信号并限定各卷积层计算数位位宽为16位;当环境信噪比较好时,即对于低噪声简单背景下的孤立词识别或者当前任务识别精度要求较低时,自适应位宽控制单元产生8位数据位宽的控制信号并限定各卷积层计算数位位宽为8位,这种电路调度方式的计算延时显著优于根据语音复杂度频繁地更换识别模型的传统调度方式。自适应语音特征提取计算模块,包括:分帧单元、精度可控的FFT计算单元和梅尔滤波单元。自适应语音特征提取计算模块根据快速傅里叶变换控制信号C1动态调整快速傅里叶计算的运算级数,其中,精度可控的快速傅里叶计算模块由9级可主动开启的蝶形运算单元构成。工作时,该信号控制方式与位宽控制信号C0类似,C1=1表明当前场景信噪比较差,则动态片选全部9级蝶形运算单元,即选择512点快速傅里叶变换,以此提高当前场景下的语音数据特征信息从而提高网络识别精度;反之,当C1=0时,则表明场景信噪比较好,则动态片选前8级蝶形运算单元以动态选择256点快速傅里叶变换,从而显著降低快速傅里叶变换操作的访存功耗和计算功耗。动态实时语音信噪比检测模块为本专利技术的核心控制模块,其作用在于对当前环境输入的语音数据进行预计算判别并动态选择电路工作模式,从而大大提高传统卷积神经网络的可靠性和灵活性。由于实际场景中,网络输出的语音信息往往包含很多噪声,其中,由于电路运行所产生的白噪声最为明显。为了提高带噪声语音识别精度,传统卷积网络通过限定最差情况的数据运算位宽以及语音特征提取计算模块的FFT运算节点数来增加整个卷积网络的可靠性。但大多情况下,卷积网络工作在不包含有效语音信息的静默状态,如果仍然采用大数据位宽、大FFT节点数必然产生大量的冗余操作,增加了系统实际功耗开销,占用不必要的硬件资源。因此,选定大小合适的前项预分级模块可显著改善目前神经网络运算电路所存在的不足。本专利技术所设计的动态实时语音信噪比检测模块包括:短时能量计算模块、过零率计算模块、阈值分级模块以及一个加权计算单元。动态实时语音信噪比检测模块基于短时能量和短时过零率双门限方法检测语音信号以初步判断语音环境的复杂度,并通过阈值分级模块最终确定控制信号C1C0的具体值。其中,阈值分级模块的预设定阈值分别为Vth1=1、Vth2=0.8、Vth3=0.6,控制信号C1C0对应4中不同的电路工作模式,这里4种工作模式对应场景信噪比分级水平,分别为“优”、“良”、“中”和“差”。在“优”的场景下,C1C0输出为00,信噪比预分级的卷积神经网络计算电路工作在256点FFT运算模式8位卷积网络运算位宽方式下;在“良”的场景下,C1C0输出为01,信噪比预分级的卷积神经网络计算电路工作在256点FFT运算模式,16位卷积网络运算位宽方式下;在“中”的场景下,C1C0输出为10,信噪比预分级的卷积神经网络计算电路工作在512点FFT运算模式,8位卷积网络运算位宽方式下;最后,在“差”的场景下,即对应最坏的环境场景,C1C0输出为11,信噪比预分级的卷积神经网络计算电路工作在512点FFT运算模式,16位卷积网络运算位宽方式下,为本专利技术所设计电路的最高运算精度。本专利技术采用上述技术方案,具有以下有益效果:本申请提出的用于识别语音的神经网络计算电路在原有电路基础上增设了提高电路可靠性的动态实时语音信噪比检测模块,通过对输入语音的能量进行短时能量和过零率双门限检测环境复杂度,能够敏感感知语音输入环境的变化,进而实现计算电路工作模式的自适应调节。再根据环境的实时复杂度进行信噪比预分类,依据先增大位宽后增大蝶形运算单元级数的原则调节神经网络计算阵列的位宽和语音特征提取计算模块的FFT操作数,该电路在感知环境信噪比变化时实现网络运算位宽以及傅里叶变换节点数的自适应调节,从而避免冗余计算和浪费计算资源。特别在语音识别系统中,这种工作方式显著地提高了系统计算的可靠性和稳定性,极大地降低了系统在正常环境下的运行功耗。附图说明图1是本专利技术提出的信噪比预分级的卷积神经网络计算电路框图。图2是本专利技术提出的动态实时语音信噪比检测模块框图。图3是本专利技术提出的自适应语音特征提取计算模块框图。图4是本专利技术提出的位宽可控的卷积网络计算模块框图。图5是本专利技术提出的信噪比预分级的卷积神经网络计算工作流程图。具体实施方式下面结合具体实施例进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本本文档来自技高网...

【技术保护点】
1.基于实时场景下语音信噪比预分级的卷积神经网络计算电路,其特征在于,包括:/n实时语音信噪比检测模块,根据输入语音数据计算的环境复杂度预分类,根据预分类结果输出位宽控制信号及FFT控制信号,/n语音特征提取计算模块,在实时语音信噪比检测模块输出的FFT控制信号的作用下开启对应FFT操作点数的蝶形运算单元,输出从语音数据中提取的语音特征,及,/nPE阵列,在实时语音信噪比检测模块输出的位宽控制信号的作用下选择对应位宽的阵列对从语音数据中提取的语音特征进行卷积运算。/n

【技术特征摘要】
1.基于实时场景下语音信噪比预分级的卷积神经网络计算电路,其特征在于,包括:
实时语音信噪比检测模块,根据输入语音数据计算的环境复杂度预分类,根据预分类结果输出位宽控制信号及FFT控制信号,
语音特征提取计算模块,在实时语音信噪比检测模块输出的FFT控制信号的作用下开启对应FFT操作点数的蝶形运算单元,输出从语音数据中提取的语音特征,及,
PE阵列,在实时语音信噪比检测模块输出的位宽控制信号的作用下选择对应位宽的阵列对从语音数据中提取的语音特征进行卷积运算。


2.根据权利要求1所述基于实时场景下语音信噪比预分级的卷积神经网络计算电路,其特征在于,实时语音信噪比检测模块根据预分类结果依据先增大PE阵列计算位宽后增加FFT操作点数的原则输出位宽控制信号及FFT控制信号。


3.根据权利要求2所述基于实时场景下语音信噪比预分级的卷积神经网络计算电路,其特征在于,实时语音信噪比检测模块根据预分类结果依据先增大PE阵列计算位宽后增加FFT操作点数的原则输出位宽控制信号及FFT控制信号,具体为:在语音数据输入环境的复杂度小于最小阈值时输出低位宽的控制信号及少FFT操作点数的FFT控制信号,在语音数据输入环境的复杂度介于最小阈值和中间阈值之间时输出低位宽的控制信号及多FFT操作点数的FFT控制信号,在语音数据输入环境的复杂度介于中间阈值和最大阈值之间时输出高位宽的控制信号及少FFT操作点数的FFT控制信号,在语音数据输入环境的复杂度超过最大阈值时输出高位宽的控制信号及多FFT操作点数的FFT控制信号。


4.根据权利要求1所述基于实时场景下语音信噪比预分级的卷积神经网络计算电路,其特征在于,实时语音信噪比检测模块,包括:
短时能量计算单元,其输入端接每一帧采集的语音数据,计算每一帧语音数据的短时平均能量后输出,
过零率检测单元,其输入端接每一帧采集的语音数据,计算每一帧超过能量阈值的语音数据数量后输出,
加权求和单元,其输入端接短时能量计算单元的输出端和过零率检测单元的输出端,对每一帧语音数据的短时平均能量及超过能量阈值的语音数据数量加权求和,输出环境复杂度典型值,及,
比较译码器,其输入...

【专利技术属性】
技术研发人员:刘波朱文涛孙煜昊黄乐朋李焱沈泽昱范虎杨军
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1