一种基于图卷积神经网络的语音关键词识别系统及方法技术方案

技术编号:27528825 阅读:15 留言:0更新日期:2021-03-03 11:01
本发明专利技术公开一种基于图卷积神经网络的语音关键词识别系统及方法,属于神经网络的轻量级、低功耗的语音关键词识别方法技术领域。包括:一个语音数据采集模块、一个带通滤波器、一个声学特征提取模块、一个神经网络分类器和一个基础网络结构。基于图卷积神经网络的语音关键词识别系统使用窄通道的bottleneck结构和残差连接的方式,在精度相当的情况下显著压缩了网络的复杂度,实现了高效的网络计算,更适用于低资源设备场景的应用。引入图卷积网络对卷积特征图全局上下文进行建模,提高了语音关键词识别准确率。本发明专利技术解决了现有技术中基于卷积神经网络的关键词识别方法网络复杂度还比较高和计算仍然比较密集和卷积神经网络难以提取全局信息的问题。以提取全局信息的问题。以提取全局信息的问题。

【技术实现步骤摘要】
一种基于图卷积神经网络的语音关键词识别系统及方法


[0001]本专利技术属于基于神经网络的轻量级、低功耗的语音关键词识别方法
,尤其涉及一种基于图卷积神经网络的语音关键词识别系统及方法。

技术介绍

[0002]关键词识别常常作为语音交互的第一步,被用于判断用户是否有交互意图。当用户有交互意图时,系统根据用户的指令做出相应的反应。当用户没有交互意图时,系统应一直处于待机休眠状态。关键词识别模型一般配置在端侧,为保护用户的隐私一般以离线的方式运行。端侧的计算资源和存储资源都比较有限,并且语音关键词识别系统往往在端侧一直运行,对模型的大小、准确率及进行预测时需要的操作量都有着比较严格的限制。目前基于卷积神经网络的关键词识别方法,存在两个问题:第一是网络的复杂度还比较高和计算仍然比较密集。第二是卷积神经网络难以提取全局的信息。

技术实现思路

[0003]本专利技术的目的是提供一种基于图卷积神经网络的语音关键词识别系统及方法,以解决现有技术中基于卷积神经网络的关键词识别方法网络复杂度还比较高和计算仍然比较密集和卷积神经网络难以提取全局信息的问题。
[0004]为了实现上述目的,本专利技术提供如下技术方案:
[0005]一种基于图卷积神经网络的语音关键词识别系统,包括:
[0006]一个语音数据采集模块,通过语音数据采集模块采集操作人员发出的唤醒词。
[0007]一个带通滤波器,其能够滤除接收语音数据采集模块唤醒词中的噪声。
[0008]一个声学特征提取模块,其能够接收语音数据采集模块采集的唤醒词,通过声学特征提取模块提取唤醒词的特征信息。
[0009]一个神经网络分类器,其能够通过声学特征完成命令词的分类。
[0010]一个基础网络结构,其包括一个初始区组、若干个stage和一个神经网络分类器。
[0011]若干个stage通过不同数目的bottelneck block组成。bottelneck block的数目根据模型的复杂度调整。神经网络分类器包括全局池化层、线性层和Softmax模块。
[0012]初始区组具有一层不带偏置的3*3的卷积。bottelneck block包括三层卷积,第一层卷积和第三层卷积是1*1卷积,第二层卷积是3*3卷积。
[0013]若干个stage通过不同数目的bottelneck block组成,bottelneck block的数目根据模型的复杂度调整。
[0014]一个图卷积神经网络模块,其插入基础网络结构。图卷积神经网络模块能够通过图卷积神经网络对全局的上下信息建模。
[0015]在上述技术方案的基础上,本专利技术还可以做如下改进:
[0016]进一步地,图卷积神经网络将卷积的特征图看成一个全连接的图,通过图卷积神经网络的信息传播,输出的特征图编码了全局信息。
[0017]图卷积神经网络模块将卷积神经网络的特征图看成一个全连接的图,通过图卷积的信息传播,使得特征上的各个节点之间的关联可以直接被建模。
[0018]进一步地,带通滤波器的频率范围为20HZ~4KHZ。
[0019]进一步地,声学特征提取模块能够按照帧长30ms、帧移10ms对语音分帧,声学特征提取模块能够提取每一帧语音的Fbank特征。
[0020]进一步地,声学特征提取模块提取每一帧语音的Fbank特征的过程包括加窗、预加重、FFT和求能量取对数操作。
[0021]Fbank特征是I∈t表示时间上的帧数,f表示频域的特征维度。
[0022]进一步地,不带偏置的3*3的卷积层能够从MFCC特征中提取特征表示,将单通道的Fbank特征转换为多通道的卷积特征图。
[0023]进一步地,Ratio表示降维的比例,Ratio小于1,小于1的Ratio能够起到压缩网络参数和计算量的效果。
[0024]进一步地,若干个stage的区别在于通道数不同,stage通道的深度与stage通道数的宽度成正比。通道在stage的内部,通道数是一致的。每个stage最后一个bottleneck结构是用来提升维度的。
[0025]进一步地,全局池化层能够将卷积提取的三维特征图转化成一个一维的向量。
[0026]一种基于图卷积神经网络的语音关键词识别方法,包括:
[0027]S101,配置一个语音数据采集模块,通过语音数据采集模块采集操作人员发出的唤醒词。
[0028]S102,配置一个带通滤波器,其能够滤除接收语音数据采集模块唤醒词中的噪声。
[0029]S103,配置一个声学特征提取模块,其能够接收语音数据采集模块采集的唤醒词,通过声学特征提取模块提取唤醒词的特征信息。
[0030]S104,配置一个基础网络结构,其包括一个初始区组、若干个stage,一个神经网络分类器。
[0031]若干个stage通过不同数目的bottelneck block组成。bottelneck block的数目根据模型的复杂度调整。神经网络分类器包括全局池化层、线性层和Softmax模块。
[0032]初始区组具有一层不带偏置的3*3的卷积。bottelneck block包括三层卷积,第一层卷积和第三层卷积是1*1卷积,第二层卷积是3*3卷积。
[0033]若干个stage通过不同数目的bottelneck block组成,bottelneck block的数目根据模型的复杂度调整。
[0034]S105,一个图卷积神经网络模块,其插入基础网络结构。图卷积神经网络模块能够通过图卷积神经网络对全局的上下信息建模
[0035]本专利技术具有如下优点:将bottleneck网络结构和残差连接应用到命令词识别任务中,使得比较复杂的卷积核作用在比较低的维度上,对模型的大小和运算量进行了压缩。引入了图卷积神经网络对全局的上下文信息建模。图卷积神经网络将卷积的特征图看成一个全连接的图,通过图卷积神经网络的信息传播,输出的特征图编码了全局信息。
[0036]使用窄通道的bottleneck结构和残差连接的方式,在精度相当的情况下显著压缩了网络的复杂度,实现了高效的网络计算,更适用于低资源设备场景的应用。引入图卷积网络对卷积特征图全局上下文进行建模,提高了语音关键词识别准确率。
附图说明
[0037]为了更清楚地说明本专利技术实施方式的技术方案,下面将对实施方式描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038]图1为语音关键词识别方法的流程图。
[0039]图2为语音关键词识别系统的工作原理图。
[0040]图3为语音关键词识别系统基础网络结构图。
[0041]图4为语音关键词识别系统中图卷积网络信息传播流程图。
[0042]图5为语音关键词识别系统中图卷积模块插入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图卷积神经网络的语音关键词识别系统,其特征在于,包括:一个语音数据采集模块,通过语音数据采集模块采集操作人员发出的唤醒词;一个带通滤波器,其能够滤除接收所述语音数据采集模块唤醒词中的噪声;一个声学特征提取模块,其能够接收所述语音数据采集模块采集的唤醒词,通过声学特征提取模块提取唤醒词的特征信息;一个基础网络结构,其包括一个初始区组、若干个stage和一个神经网络分类器;若干个所述stage通过不同数目的bottelneck block组成;所述bottelneck block的数目根据模型的复杂度调整;所述神经网络分类器包括全局池化层、线性层和Softmax模块;所述初始区组具有一层不带偏置的3*3的卷积;所述bottelneck block包括三层卷积,第一层卷积和第三层卷积是1*1卷积,第二层卷积是3*3卷积;若干个所述stage通过不同数目的bottelneck block组成,所述bottelneck block的数目根据模型的复杂度调整;一个图卷积神经网络模块,其插入所述基础网络结构;所述图卷积神经网络模块能够通过图卷积神经网络对全局的上下信息建模。2.如权利要求1所述的基于图卷积神经网络的语音关键词识别系统,其特征是,所述图卷积神经网络将卷积的特征图看成一个全连接的图,通过图卷积神经网络的信息传播,输出的特征图编码了全局信息;所述图卷积神经网络模块将卷积神经网络的特征图看成一个全连接的图,通过图卷积的信息传播,使得特征上的各个节点之间的关联可以直接被建模。3.如权利要求1所述的基于图卷积神经网络的语音关键词识别系统,其特征是,所述带通滤波器的频率范围为20HZ~4KHZ。4.如权利要求3所述的基于图卷积神经网络的语音关键词识别系统,其特征是,所述声学特征提取模块能够按照帧长30ms、帧移10ms对语音分帧,所述声学特征提取模块能够提取每一帧语音的Fbank特征。5.如权利要求4所述的基于图卷积神经网络的语音关键词识别系统,其特征是,所述声学特征提取模块提取每一帧语音的Fbank特征的过程包括加窗、预加重、FFT和求能量取对数操作;所述Fbank特征是t表示时间上的帧数,f表示频域的特征维度。6.如...

【专利技术属性】
技术研发人员:陈曦宋丹丹欧阳鹏尹首一
申请(专利权)人:江苏清微智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1