面向边缘计算的轻量级语音识别方法技术

技术编号:23447820 阅读:142 留言:0更新日期:2020-02-28 21:30
本发明专利技术公开了一种面向边缘计算的轻量级语音识别方法,包括下述步骤:S1、构建面向边缘计算设备的轻量级语音识别网络模型EdgeRNN,所述EdgeRNN包括声学特征提取层、密集块、最大池化层、RNN层、自我注意力层以及分类层;S2、将原始的语音音频输入到EdgeRNN进行处理,S21、从原始的音频中提取低级的声学特征;S22、设计一个面向边缘计算的密集块;S23、使用密集块使不断地对低级的声学特征进行高级的空间特征提取;S24、用最大池化层来消除语音特征中的噪声;S25、融合原先的声学特征和高级空间特征进入RNN层中提取时间序列的信息;S25、进入轻量级注意力机制层,获得话语级别最后的表示结果;S26、利用全连接层来分析语音的类别。本发明专利技术提高了语音识别的准确性和高效性。

Edge computing oriented lightweight speech recognition method

【技术实现步骤摘要】
面向边缘计算的轻量级语音识别方法
本专利技术属于深度学习的
,具体涉及一种面向边缘计算的轻量级语音识别方法。
技术介绍
近年来,深度神经网络在计算机视觉、自然语言处理、语音识别等方面取得了显着的性能。但是轻量级深度神经网络领域里,只有在计算机视觉上获得突飞猛进的发展。造成这个现象主要归结于两个方面的原因:一方面,在自然语言处理和语音识别领域上主要处理的是时间序列问题,这基本都需要用到递归神经网络(RNN),而RNN是计算密集型的并且需要大量的储存空间,例如,RNN神经元需要8倍于典型CNN单元的权重数和乘法累加(MAC)运算;另一方面,计算机视觉方面的进展得益于分组卷积的发现,分组卷积可以成倍数地减少计算量和参数量,而RNN的计算严重依赖于历史记录,因此RNN就是一个整体,无法分组运算。现有技术中,在语音识别领域中依然存在着使用2-D卷积神经网络(2-DCNN)来处理任务。但是,2-DCNN处理的是局部的空间信息,在处理序列问题的空间信息上没有1-DCNN好,在处理序列问题的时间信息上也没有RNN好。1-DCNN可以在整个时序特征上提取空间信息,因此1-DCNN需要相对于2-DCNN更多的计算量。RNN中的隐藏层以保留前一时间步的信息以预测当前时间步的值,这意味着RNN是计算密集型的。所以之前在轻量级语音识别网络模型中的应用寥寥无几。
技术实现思路
本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种面向边缘计算的轻量级语音识别方法,大大提高了语音识别的准确性。为了达到上述目的,本专利技术采用以下技术方案:本专利技术面向边缘计算的轻量级语音识别方法,包括下述步骤:S1、构建面向边缘计算设备的轻量级语音识别网络模型EdgeRNN,所述EdgeRNN由1-DCNN和RNN构成,所述1-DCNN用于在时序特征上提取空间的高级特征,所述RNN用于语音时间序列的建模;所述EdgeRNN包括声学特征提取层、密集块、最大池化层、RNN层、自我注意力层以及分类层;S2、将原始的语音音频输入到EdgeRNN进行处理,具体为:S21、从原始的音频中提取低级的声学特征;S22、根据特征重用和可学习组卷积的原理,设计一个面向边缘计算的密集块,EdgeRNN每经过一次密集块可增加growth_rate维高级空间特征,其中,密集块使用的激活函数为PRelu,可学习组卷积层中的卷积使用的是1-DCNN;S23、使用密集块使不断地对低级的声学特征进行高级的空间特征提取;S24、用最大池化层来消除语音特征中的噪声S25、融合原先的声学特征和1-DCNN每一次提取的高级空间特征进入RNN层中提取时间序列的信息;S26、进入自我注意力层,获得话语级别最后的表示结果;S27、利用全连接层来分析语音的类别。作为优选的技术方案,步骤S21中,使用librosa库对原始的语音进行声学特征提取,提取128维梅尔频谱图,12维delta和12维double-delta特征,总计152维的声学特征。作为优选的技术方案,声学特征提取之后的特征维度为(152,32),152代表的是有152维的特征,32代表每一维度特征的长度。作为优选的技术方案,步骤S22中,所述密集块中采用两个连续的3×3可学习组卷积,所述密集块包括卷积块1和卷积块2,所述卷积块1中的可学习组卷积层输出4倍增长率的特征图,所述卷积块3中的可学习组卷积层输出1倍增长率的特征图。作为优选的技术方案,步骤S23中,对于原始的声学特征图保留,是在声学特征图的基础上不断地使用1-DCNN提取高级的特征,每次新增的特征是在前面所有层的基础上进行提取。作为优选的技术方案,密集块之后的特征维度为(344,32),344表示344维的高级特征,32是每一维特征的长度,使用最大池化层来减少特征里面的噪音,即经过最大池化层之后特征维度变为(344,16)。作为优选的技术方案,步骤S25中,进入RNN层之前首先需要把特征转置,即把(344,16)的特征转化为(16,344)的特征,这是RNN中的格式要求,RNN层处理之后特征维度保持不变,同样为(16,344),344依然代表维度,16表示每维特征的长度。作为优选的技术方案,步骤S26具体为:假设Xi是RNN计算出当前时间戳的上下文特征,αi是注意力得分并由以下公式获得:其中,αi的计算方式就是sigmoid函数,其值在[0,1]之间,αi可解释为该帧对语音的最终话语水平表示的贡献分数,获得的注意力得分αi用于加权平均以获得话语级别C的表示:获得话语级别表示的结果首先经过激活后,再传到全连接层来汇总最终的结果,汇总的最终结果传递到网络的输出softmax层,以获得每个语音类别的后验概率。本专利技术与现有技术相比,具有如下优点和有益效果:1、本专利技术设计了一种面向边缘计算设备的轻量级语音识别网络模型,命名为EdgeRNN。EdgeRNN由1-DCNN和RNN构成,1-DCNN可以在时序特征上提取空间的高级特征,RNN用于语音时间序列的建模。语音提取的声学特征中除了空间维度上的频域信息之外,还有时间维度上的时域信息。1-DCNN可以处理声学特征各频域的整体空间信息。RNN可以处理声学特征各频域的时间信息,结合1-DCNN和RNN来进行语音识别处理是大大提高了语音识别的准确性。2、本专利技术在语音情感识别和语音关键字识别这两大语音识别子任务上验证了EdgeRNN的高效性。语音情感识别中使用的是IEMOCAP数据集,准确率达到63.62%。语音关键字识别中使用的是谷歌的SpeechCommands数据集,准确率达到96.62%。EdgeRNN在语音情感识别和语音关键字识别上的准确率都优于现有的轻量级网络模型。本专利技术把EdgeRNN成功地运行在树莓派3B+开发板上,运行的速度基本满足实际的要求。附图说明图1(a)-图1(d)是本专利技术实施例中四种情绪的声学特征图;图2为本专利技术2-D卷积和1-D卷积的处理方式图;图3为本专利技术EdgeRNN的网络结构处理流程图。具体实施方式下面结合实施例及附图对本专利技术作进一步详细的描述,但本专利技术的实施方式不限于此。实施例本实施例面向边缘计算的轻量级语音识别方法,其特征在于,包括下述步骤:S1、构建面向边缘计算设备的轻量级语音识别网络模型EdgeRNN,所述EdgeRNN由1-DCNN和RNN构成,所述1-DCNN用于在时序特征上提取空间的高级特征,所述RNN用于语音时间序列的建模;所述EdgeRNN包括声学特征提取层、密集块、最大池化层、RNN层、自我注意力层以及分类层;语音识别中,首先需要对原始的语音进行声学特征提取,本专利技术从准确率和速度这两个方面进行多次的实验,最终选定提取128维梅尔频谱图,12维delta和12维double-delta特征。本实施本文档来自技高网...

【技术保护点】
1.面向边缘计算的轻量级语音识别方法,其特征在于,包括下述步骤:/nS1、构建面向边缘计算设备的轻量级语音识别网络模型EdgeRNN,所述EdgeRNN由1-DCNN和RNN构成,所述1-D CNN用于在时序特征上提取空间的高级特征,所述RNN用于语音时间序列的建模;所述EdgeRNN包括声学特征提取层、密集块、最大池化层、RNN层、自我注意力层以及分类层;/nS2、将原始的语音音频输入到EdgeRNN进行处理,具体为:/nS21、从原始的音频中提取低级的声学特征;/nS22、根据特征重用和可学习组卷积的原理,设计一个面向边缘计算的密集块,EdgeRNN每经过一次密集块可增加growth_rate维高级空间特征,其中,密集块使用的激活函数为PRelu,可学习组卷积层中的卷积使用的是1-D CNN;/nS23、使用密集块使不断地对低级的声学特征进行高级的空间特征提取;/nS24、用最大池化层来消除语音特征中的噪声/nS25、融合原先的声学特征和1-D CNN每一次提取的高级空间特征进入RNN层中提取时间序列的信息;/nS26、进入自我注意力层,获得话语级别最后的表示结果;/nS27、利用全连接层来分析语音的类别。/n...

【技术特征摘要】
1.面向边缘计算的轻量级语音识别方法,其特征在于,包括下述步骤:
S1、构建面向边缘计算设备的轻量级语音识别网络模型EdgeRNN,所述EdgeRNN由1-DCNN和RNN构成,所述1-DCNN用于在时序特征上提取空间的高级特征,所述RNN用于语音时间序列的建模;所述EdgeRNN包括声学特征提取层、密集块、最大池化层、RNN层、自我注意力层以及分类层;
S2、将原始的语音音频输入到EdgeRNN进行处理,具体为:
S21、从原始的音频中提取低级的声学特征;
S22、根据特征重用和可学习组卷积的原理,设计一个面向边缘计算的密集块,EdgeRNN每经过一次密集块可增加growth_rate维高级空间特征,其中,密集块使用的激活函数为PRelu,可学习组卷积层中的卷积使用的是1-DCNN;
S23、使用密集块使不断地对低级的声学特征进行高级的空间特征提取;
S24、用最大池化层来消除语音特征中的噪声
S25、融合原先的声学特征和1-DCNN每一次提取的高级空间特征进入RNN层中提取时间序列的信息;
S26、进入自我注意力层,获得话语级别最后的表示结果;
S27、利用全连接层来分析语音的类别。


2.根据权利要求1所述面向边缘计算的轻量级语音识别方法,其特征在于,步骤S21中,使用librosa库对原始的语音进行声学特征提取,提取128维梅尔频谱图,12维delta和12维double-delta特征,总计152维的声学特征。


3.根据权利要求2所述面向边缘计算的轻量级语音识别方法,其特征在于,声学特征提取之后的特征维度为(152,32),152代表的是有152维的特征,32代表每一维度特征的长度。


4.根据权利要求2所述面向边缘计算的轻量级语音识别方法,其特征在于,步骤S2...

【专利技术属性】
技术研发人员:龚征杨顺志叶开魏运根
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1