一种低内存消耗的高效离线命令词识别系统和建模方法技术方案

技术编号:32003457 阅读:44 留言:0更新日期:2022-01-22 18:19
本发明专利技术提供了一种低内存消耗的高效离线命令词识别系统和建模方法,涉及语音识别技术领域;方法包括:提供一种模型参数压缩方法,对神经网络模型每一层的矩阵逐行进行压缩,将模型参数存储内存消耗降低70%~75%,同时将模型前向运算的矩阵浮点乘法运算转换成16位整型乘法运算,降低系统的计算复杂度;在解码网络中除命令词路径之外添加filler路径,用于解决命令词识别中的强噪声下的误识别问题;采用改进的解码器,在音频解码过程中实时对解码网格中的节点进行合并,极大的减少了解码网格中的节点数目,在不影响解码性能的基础上将解码的内存消耗降低75%~90%。内存消耗降低75%~90%。内存消耗降低75%~90%。

【技术实现步骤摘要】
一种低内存消耗的高效离线命令词识别系统和建模方法


[0001]本专利技术涉及一种低内存消耗的高效离线命令词识别系统和建模方法,属于语音识别


技术介绍

[0002]命令词识别技术是一种让机器通过对语音命令进行识别和理解,将相应的语音指令转换为相应的计算机指令的人工智能技术;该技术包含语音端点检测(VAD)、声学建模、加权有限状态机(WFST)网络构建以及语音解码。
[0003]近年来随着可穿戴设备,智能家居,智能车载的快速发展,越来越多的终端都可以通过命令词识别技术来离线识别用户发出的简单指令,进而自动完成用户传达的指令。然而受限于电池存储容量,待机时长,功耗管理以及成本控制,命令词识别通常都面临着非常严苛的计算资源和存储资源。例如为了降低系统的功耗,提高智能手表,蓝牙耳机的待机时长,产品设计者甚至会要求整个命令词识别系统的内存占用压缩至100kB左右。
[0004]传统的离线命令词在声学建模时,对训练好的神经网络模型采用16位定点化模型压缩技术将声学模型中的矩阵参数从浮点数转换为16位整型,进而降低模型的内存和计算资源本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种低内存消耗的高效离线命令词识别系统,其特征在于,包含:模型参数压缩模块:将训练得到的VAD神经网络模型和命令词识别神经网络模型的参数映射到[

127,127]的数值范围中,并使用8位整型数据类型保存模型参数;压缩模型前向运算模块:对输入音频进行特征提取并作为神经网络的输入;将输入特征和神经网络模型每一层的输入映射到[

127,127]的数值范围中,并使用8位整型数据存储,使用16位整型乘法运算代替浮点乘法运算完成压缩神经网络模型的前向运算;解码网络生成模块:从通用识别训练文本中生成音素序列,对音素序列进行统计,剔除命令词音素序列中存在的双音素序列,得到概率最高的N个双音素序列;将这N个双音素序列并联后嵌入命令词解码网络,作为最终解码网路的filler支路,用于对背景噪音解码;命令词解码模块:使用压缩模型前向运算模块得到的命令词压缩模型的前向运算结果,配合解码网络生成模块得到的解码网络使用改进的Viterbi算法进行解码;在解码过程中对生成的解码网格的t时刻的活跃节点与t

1时刻的活跃节点进行合并;并在节点合并后注销掉解码网格中所有t

1时刻活跃节点所对应的内存空间,随后计算置信度,并根据置信度和解码结果决定是否输出匹配到的单词序列。2.一种低内存消耗的高效离线命令词识别建模方法,其特征在于,包含以下步骤:步骤101:对已经训练好的命令词神经网络模型和VAD神经网络模型中的矩阵使用如下公式对层神经网络矩阵的每一行进行参数压缩:的每一行进行参数压缩:的每一行进行参数压缩:其中神经网络第层矩阵,表示神经网络第层偏置,表示的第i行定点化系数,表示矩阵中第i行数据绝对值的最大值,表示矩阵中第i行第j列的数值,表示矩阵压缩后的第i行第j列数据;经过上述公式后矩阵每一行的参数均被映射到[

127,127]的数值范围中,经过映射后的压缩参数可直接使用8位整型进行存储;使用上述方法对VAD神经网络模型和命令词识别模型进行参数压缩,得到VAD神经网络压缩模型和命令词识别神经网络压缩模型;步骤201:采用如下公式对神经网络层的输入向量进行参数压缩:进行参数压缩:进行参数压缩:其中表示向量取绝对值的最大值,表示向量中第j个数值,表示向量压缩后的第j个参数;经...

【专利技术属性】
技术研发人员:唐浩元马殿昌王欢良张李王佳珺黄正林
申请(专利权)人:苏州奇梦者网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1