一种适用于噪声条件下的智能终端设备控制方法及系统技术方案

技术编号:38125857 阅读:9 留言:0更新日期:2023-07-08 09:29
本发明专利技术涉及语音控制系统技术领域,具体公开了一种适用于噪声条件下的智能终端设备控制方法及系统,包括监听用户说出的音频信号,并判断音频信号中是否包含唤醒词,当检测到用户说出唤醒词时,唤醒智能终端设备进入全功率运行状态;采集用户音频信号并进行增强处理,以获得用户语音信号;利用基于卷积神经网络和注意力机制构建的关键字识别器识别用户语音信号中的关键字,并基于关键字生成语音指令序列;对语音指令序列进行解析,以转化为系统控制命令;以及基于系统控制命令对智能终端设备进行控制;该方法以较低的资源消耗实现了准确、高效的智能终端设备控制。高效的智能终端设备控制。高效的智能终端设备控制。

【技术实现步骤摘要】
一种适用于噪声条件下的智能终端设备控制方法及系统


[0001]本专利技术涉及语音控制系统
,具体涉及一种适用于噪声条件下的智能终端设备控制方法及系统。

技术介绍

[0002]随着智能终端设备的普及以及深度学习技术的发展,人们对智能终端设备体积小、响应速度快、智能化程度高等的要求逐渐提高;深度学习技术为了达到较好的实际应用效果,往往采用较大的模型结构,这不仅对智能终端设备的内存有较高的要求,同样对计算资源也是一种挑战;智能终端设备低资源、低消耗的要求与深度学习技术高内存、高消耗的矛盾,极大的限制了深度学习技术在智能终端设备上的应用。
[0003]关键词识别技术作为智能终端设备人机交互的开端,具有重要的应用价值;智能终端设备接收用户的语音后,检测语音中包含的关键字,依据关键字进行相对应的预设操作,以此实现用户对智能终端设备的控制;在现有的关键字识别方法中,受应用场景(终端设备为主)低内存,低资源消耗的限制,大部分方法都趋向于降低模型参数,因此识别的准确率受到了一定的影响,因此如何使用更少的参数量和更低的资源消耗来实现更高的准确率的关键字识别模型成为了亟待解决的问题。

技术实现思路

[0004]针对上述问题,本专利技术的一个目的是提供一种适用于噪声条件下的智能终端设备控制方法,该方法采用卷积神经网络与注意力机制相结合,以极低的模型参数量,实现了真实终端设备的关键字识别;该方法以频率压缩为条件的带权注意力,将全局特征更好的馈送给局部特征,从而达到更加快速、准确、优秀的识别关键字的效果;该方法将深度学习技术应用到智能终端设备的控制,同时应用的卷积神经网络与注意力机制相结合的关键字识别器,以较低的资源消耗实现了准确、高效的智能终端设备控制。
[0005]本专利技术的第二个目的是提供一种适用于噪声条件下的智能终端设备控制系统。
[0006]本专利技术所采用的第一个技术方案是:一种适用于噪声条件下的智能终端设备控制方法,包括以下步骤:
[0007]S100:监听用户说出的音频信号,并判断所述音频信号中是否包含唤醒词,当检测到用户说出唤醒词时,唤醒智能终端设备进入全功率运行状态;
[0008]S200:采集用户音频信号并进行增强处理,以获得用户语音信号;
[0009]S300:利用基于卷积神经网络和注意力机制构建的关键字识别器识别所述用户语音信号中的预测关键字,并基于所述预测关键字生成语音指令序列;其中,所述关键字识别器包括原始特征提取器、隐藏特征处理器和分类特征判别器,所述原始特征提取器用于从所述用户语音信号中提取高维语音特征,所述隐藏特征处理器用于从所述高维语音特征中提取第一隐藏特征和第二隐藏特征,所述分类特征判别器用于根据所述第二隐藏特征获取预测关键字;
[0010]S400:对所述语音指令序列进行解析,以转化为系统控制命令;以及基于所述系统控制命令对智能终端设备进行控制。
[0011]优选地,所述步骤S300包括以下子步骤:
[0012]S310:对所述用户语音信号进行预处理以获得低维音频特征;所述低维音频特征为MFCC梅尔频率倒谱系数;
[0013]S320:将所述低维音频特征输入所述原始特征提取器以获得高维语音特征;
[0014]S330:将所述高维语音特征输入隐藏特征处理器以获得第一隐藏特征和第二隐藏特征;
[0015]S340:将所述第二隐藏特征输入分类特征判别器中,以获得预测关键字,并基于所述预测关键字生成语音指令序列。
[0016]优选地,所述隐藏特征处理器包括全局特征提取器和局部特征提取器,所述全局特征提取器基于注意力机制构建,用于从所述高维语音特征中提取第一隐藏特征;所述局部特征提取器基于卷积神经网络构建,用于根据所述高维语音特征和第一隐藏特征获得第二隐藏特征。
[0017]优选地,所述全局特征提取器通过对所述高维语音特征进行三次卷积操作分别得到归一化后的高维语音特征Q、K、V,使用Q对K进行查询,并加入位置编码PE得到注意力的值,再对注意力的值进行softmax归一化,与V进行加权后,通过GELU函数激活,使用二维卷积操作调整特征维度,再经过BN层归一化后,得到第一隐藏特征。
[0018]优选地,所述局部特征提取器包括频率特征提取模块、时间特征提取模块和加权迭代模块,
[0019]所述频率特征提取模块用于对所述第一隐藏特征进行频率卷积以获得频率特征,
[0020]所述时间特征提取模块用于对所述频率特征进行时间卷积以获得时间特征,
[0021]所述加权迭代模块用于将所述频率特征、时间特征和第一隐藏特征赋予预定权重后相加进行广播,将相加后的特征恢复到与高维语音特征相同的维度,经过ReLU激活函数去线性化后,进行多次迭代,得到第二隐藏特征。
[0022]优选地,在所述步骤S300中,利用所述分类特征判别器对所述第二隐藏特征进行融合处理,通过自适应池化层和二维卷积层将融合处理后的第二隐藏特征压缩至预定义关键字个数的维度,得到多个候选关键字的概率值,将最大概率值所对应的候选关键字作为预测关键字。
[0023]优选地,在所述关键字识别器的训练阶段,当得到预测关键字后,进一步基于所述预测关键字和目标关键字计算交叉熵损失值,并基于所述交叉熵损失值训练所述关键字识别器直至所述交叉熵损失值不再下降或在某一值附近震荡,达到收敛。
[0024]优选地,所述步骤S300还包括:
[0025]基于所述预测关键字生成关键词序列;
[0026]将所述关键词序列与预设的关键词进行对比,从而形成语音指令序列。
[0027]优选地,所述步骤S400包括:
[0028]基于语音指令序列在预设命令库中搜索对应的指令,以转化为系统控制命令。
[0029]本专利技术所采用的第二个技术方案是:一种适用于噪声条件下的智能终端设备控制系统,包括监听模块、语音信号获取模块、语音指令序列生成模块和控制模块;
[0030]所述监听模块用于监听用户说出的音频信号,并判断所述音频信号中是否包含唤醒词,当检测到用户说出唤醒词时,唤醒智能终端设备进入全功率运行状态;
[0031]所述语音信号获取模块用于采集用户音频信号并进行增强处理,以获得用户语音信号;
[0032]所述语音指令序列生成模块用于利用基于卷积神经网络和注意力机制构建的关键字识别器识别所述用户语音信号中的预测关键字,并基于所述预测关键字生成语音指令序列;其中,所述关键字识别器包括原始特征提取器、隐藏特征处理器和分类特征判别器,所述原始特征提取器用于从所述用户语音信号中提取高维语音特征,所述隐藏特征处理器用于从所述高维语音特征中提取第一隐藏特征和第二隐藏特征,所述分类特征判别器用于根据所述第二隐藏特征获取预测关键字;
[0033]所述控制模块用于对所述语音指令序列进行解析,以转化为系统控制命令;以及基于所述系统控制命令对智能终端设备进行控制。
[0034]上述技术方案的有益效果:
[0035本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适用于噪声条件下的智能终端设备控制方法,其特征在于,,包括以下步骤:S100:监听用户说出的音频信号,并判断所述音频信号中是否包含唤醒词,当检测到用户说出唤醒词时,唤醒智能终端设备进入全功率运行状态;S200:采集用户音频信号并进行增强处理,以获得用户语音信号;S300:利用基于卷积神经网络和注意力机制构建的关键字识别器识别所述用户语音信号中的预测关键字,并基于所述预测关键字生成语音指令序列;其中,所述关键字识别器包括原始特征提取器、隐藏特征处理器和分类特征判别器,所述原始特征提取器用于从所述用户语音信号中提取高维语音特征,所述隐藏特征处理器用于从所述高维语音特征中提取第一隐藏特征和第二隐藏特征,所述分类特征判别器用于根据所述第二隐藏特征获取预测关键字;S400:对所述语音指令序列进行解析,以转化为系统控制命令;以及基于所述系统控制命令对智能终端设备进行控制。2.根据权利要求1所述的智能终端设备控制方法,其特征在于,所述步骤S300包括以下子步骤:S310:对所述用户语音信号进行预处理以获得低维音频特征;所述低维音频特征为MFCC梅尔频率倒谱系数;S320:将所述低维音频特征输入所述原始特征提取器以获得高维语音特征;S330:将所述高维语音特征输入隐藏特征处理器以获得第一隐藏特征和第二隐藏特征;S340:将所述第二隐藏特征输入分类特征判别器中,以获得预测关键字,并基于所述预测关键字生成语音指令序列。3.根据权利要求1所述的智能终端设备控制方法,其特征在于,所述隐藏特征处理器包括全局特征提取器和局部特征提取器,所述全局特征提取器基于注意力机制构建,用于从所述高维语音特征中提取第一隐藏特征;所述局部特征提取器基于卷积神经网络构建,用于根据所述高维语音特征和第一隐藏特征获得第二隐藏特征。4.根据权利要求3所述的智能终端设备控制方法,其特征在于,所述全局特征提取器通过对所述高维语音特征进行三次卷积操作分别得到归一化后的高维语音特征Q、K、V,使用Q对K进行查询,并加入位置编码PE得到注意力的值,再对注意力的值进行softmax归一化,与V进行加权后,通过GELU函数激活,使用二维卷积操作调整特征维度,再经过BN层归一化后,得到第一隐藏特征。5.根据权利要求3所述的智能终端设备控制方法,其特征在于,所述局部特征提取器包括频率特征提取模块、时间特征提取模块和加权迭代模块,所述频率特征提取模块用于对所述第一隐藏特征进行频率卷积...

【专利技术属性】
技术研发人员:柯登峰杜宝乐王运峰徐艳艳
申请(专利权)人:澳克多普有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1