关键词检测方法及相关设备技术

技术编号:38662830 阅读:7 留言:0更新日期:2023-09-02 22:45
本发明专利技术提供一种关键词检测方法及相关设备。方法包括:对待处理语音信号进行特征提取,以获取声学特征;将声学特征输入经训练的神经网络模型,以输出关键词检测结果,其中,经训练的神经网络模型是动态二值神经网络。根据上述技术方案,首先对待处理语音信号进行特征提取,以获取声学特征,之后将声学特征输入到经训练的动态二值神经网络模型中,以输出关键词检测结果。由此,大大减小了神经网络模型中的参数量与计算量,减少了数据存储的空间,提高了唤醒速度并有效降低了检测系统的功耗,从而降低了硬件实现的难度。同时,还有效提高关键词检测结果的识别准确率。词检测结果的识别准确率。词检测结果的识别准确率。

【技术实现步骤摘要】
关键词检测方法及相关设备


[0001]本专利技术涉及语音识别
,更具体地,涉及一种关键词检测方法、一种关键词检测装置、一种电子设备以及一种存储介质。

技术介绍

[0002]随着近年来神经网络的兴起,神经网络被运用在关键词识别中。现有的关键词检测系统通常在移动设备上运行,移动设备的内存小、计算力有限,因此关键词检测系统应同时满足高准确率、运行所用内存小、计算量少的要求。
[0003]然而,高性能的深度卷积神经网络模型复杂度高,计算量大,常需要占用大量内存,因此难以将其部署到内存较小的移动端。换言之,现有的关键词检测系统需要较大的算力和内存做支撑,硬件实现的难度较大。不仅神经网络的检测精度难以保证,同时还有可能加大检测成本,系统功耗较大。
[0004]由此,亟需一种新的技术方案以解决上述技术问题。

技术实现思路

[0005]在
技术实现思路
部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本专利技术的
技术实现思路
部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
[0006]第一方面,本专利技术提出一种关键词检测方法,包括:
[0007]对待处理语音信号进行特征提取,以获取声学特征;
[0008]将声学特征输入经训练的神经网络模型,以输出关键词检测结果,其中,经训练的神经网络模型是动态二值神经网络。
[0009]可选地,动态二值神经网络包括第一卷积层、动态二值层、最大池化层和全连接层;
[0010]将声学特征输入经训练的神经网络模型,包括:
[0011]将声学特征输入第一卷积层,以输出激活数据及其对应的权重;
[0012]将激活数据及其对应的权重输入动态二值层,以输出动态二值激活输出数据,其中,动态二值层包括多个动态二值模块;
[0013]将动态二值激活输出数据输入最大池化层,以输出降采样数据;
[0014]将降采样数据输入全连接层,以输出关键词检测结果。
[0015]可选地,动态二值模块包括第二卷积层、第二批量归一化层和第二非线性层;
[0016]将激活数据及其对应的权重输入动态二值层,以输出动态二值激活输出数据,包括:
[0017]利用动态二值化函数对激活数据及其对应的权重进行动态二值量化,以输出二值化后的激活数据及其对应的权重;
[0018]将二值化后的激活数据及其对应的权重输入第二卷积层,以对二值化后的激活数
据及其对应的权重执行卷积操作,进而输出二值化卷积运算结果;
[0019]将二值化卷积运算结果输入第二批量归一化层,以输出第二标准化处理数据;
[0020]将第二标准化处理数据输入第二非线性层,以输出动态二值激活输出数据。
[0021]可选地,动态二值神经网络还包括第一批量归一化层和第一非线性层;
[0022]在将激活数据及其对应的权重输入动态二值层之前,方法还包括:
[0023]将激活数据输入第一批量归一化层,以输出第一标准化处理数据;
[0024]将第一标准化处理数据输入第一非线性层,以输出第一增强激活数据及其对应的权重。
[0025]可选地,第二非线性层包括动态激活函数;
[0026]方法还包括:
[0027]在动态二值神经网络的训练过程中,调整动态二值化函数和/或动态激活函数中的可调偏置,以对激活数据及其对应的权重和二值化后的激活数据及其对应的权重进行调整。
[0028]可选地,卷积操作通过移位操作实现。
[0029]可选地,动态二值化函数包括经第一标准化处理后的全精度权重;
[0030]方法还包括:
[0031]针对经第一标准化处理后的全精度权重,统计按通道计算的动态缩放因子;
[0032]在动态二值神经网络的训练过程中,调整动态缩放因子,以对二值化后的权重进行调整。
[0033]第二方面,还提出了一种关键词检测装置,包括:
[0034]特征提取模块,用于对待处理语音信号进行特征提取,以获取声学特征;
[0035]检测模块,用于将声学特征输入经训练的神经网络模型,以输出关键词检测结果,其中,经训练的神经网络模型是动态二值神经网络。
[0036]第三方面,还提出了一种电子设备,包括处理器和存储器,其中,存储器中存储有计算机程序指令,计算机程序指令被处理器运行时用于执行如上所述的关键词检测方法。
[0037]第四方面,还提出了一种存储介质,在存储介质上存储了程序指令,程序指令在运行时用于执行如上所述的关键词检测方法。
[0038]根据上述技术方案,首先对待处理语音信号进行特征提取,以获取声学特征,之后将声学特征输入到经训练的动态二值神经网络模型中,以输出关键词检测结果。由此,大大减小了神经网络模型中的参数量与计算量,减少了数据存储的空间,提高了唤醒速度并有效降低了检测系统的功耗,从而降低了硬件实现的难度。同时,还有效提高关键词检测结果的识别准确率。
[0039]本专利技术的关键词检测方法,本专利技术的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本专利技术的研究和实践而为本领域的技术人员所理解。
附图说明
[0040]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本说明书的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0041]图1示出了根据本专利技术一个实施例的一种关键词检测方法的示意性流程图;
[0042]图2示出了根据本专利技术一个实施例的关键词检测装置的示意性框图;以及
[0043]图3示出了根据本专利技术一个实施例的电子设备的示意性框图。
具体实施方式
[0044]本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。
[0045]根据本专利技术的第一方面,本专利技术提出一种关键词检测方法。图1示出了根据本专利技术一个实施例的一种关键词检测方法100的示意性流程图。方法100可以包括以下步骤:
[0046]步骤S110,对待处理语音信号进行特征提取,以获取声学特征。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词检测方法,其特征在于,包括:对待处理语音信号进行特征提取,以获取声学特征;将所述声学特征输入经训练的神经网络模型,以输出关键词检测结果,其中,所述经训练的神经网络模型是动态二值神经网络。2.如权利要求1所述的关键词检测方法,其特征在于,所述动态二值神经网络包括第一卷积层、动态二值层、最大池化层和全连接层;所述将所述声学特征输入经训练的神经网络模型,包括:将所述声学特征输入所述第一卷积层,以输出激活数据及其对应的权重;将所述激活数据及其对应的权重输入所述动态二值层,以输出动态二值激活输出数据,其中,所述动态二值层包括多个动态二值模块;将所述动态二值激活输出数据输入所述最大池化层,以输出降采样数据;将所述降采样数据输入所述全连接层,以输出所述关键词检测结果。3.如权利要求2所述的关键词检测方法,其特征在于,所述动态二值模块包括第二卷积层、第二批量归一化层和第二非线性层;所述将所述激活数据及其对应的权重输入所述动态二值层,以输出动态二值激活输出数据,包括:利用动态二值化函数对所述激活数据及其对应的权重进行动态二值量化,以输出二值化后的激活数据及其对应的权重;将所述二值化后的激活数据及其对应的权重输入所述第二卷积层,以对所述二值化后的激活数据及其对应的权重执行卷积操作,进而输出二值化卷积运算结果;将所述二值化卷积运算结果输入所述第二批量归一化层,以输出第二标准化处理数据;将所述第二标准化处理数据输入所述第二非线性层,以输出所述动态二值激活输出数据。4.如权利要求3所述的关键词检测方法,其特征在于,所述动态二值神经网络还包括第一批量归一化层和第一非线性层;在所述将所述激活...

【专利技术属性】
技术研发人员:王啸李郡游恒尚德龙周玉梅
申请(专利权)人:中科南京智能技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1