【技术实现步骤摘要】
【国外来华专利技术】基于神经网络的关键词检出方法
[0001]本公开总体上涉及关键词检出
(KWS)
技术
。
更具体地说,本公开涉及一种基于神经网络声学模型的关键词检出方法
。
技术介绍
[0002]随着移动装置或家庭消费型装置
(
诸如手机或智能扬声器
)
的快速发展,与话音识别相关的技术也越来越受欢迎
。
机器学习的最新突破使得具有麦克风的机器能够解析和翻译人类语言
。
例如,谷歌和必应的语音翻译能够将一种语言翻译成另一种语言
。
谷歌语音助手和亚马逊
Alexa
服务等语音识别技术对我们的生活产生了积极影响
。
在语音识别的帮助下,我们现在能够让机器更自然地执行简单的任务
。
[0003]由于模型复杂性和高计算要求,常见的强大话音识别通常在云中进行
。
出于实用性和隐私方面的考虑,目前许多装置都需要在本地运行紧凑型话音识别,以检测简单的命令并做出反应
。
传统的紧凑型话音识别方法通常涉及用于分别对关键词和非关键词话音片段进行建模的隐马尔可夫模型
(HMM)。
在运行时期间,一般会应用遍历算法在解码图中找到最佳路径,作为最佳匹配结果
。
还有一些算法使用大词汇量连续话音识别器生成丰富的网格,并在网格中所有可能的路径中搜索关键词
。
由于传统的基于遍历的算法依赖于级联条件概率和大规模模式比 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.
一种基于神经网络
(NN)
声学模型的关键词检出方法,其包括以下步骤:经由麦克风录制来自用户的多个目标关键词的音频片段;在微控制器单元
(MCU)
中向所述
NN
声学模型注册所述多个目标关键词的模板;通过语音活动检测器检测所述用户的话音输入;其中所述关键词检出方法还包括:通过将所述话音输入的语音帧和所述多个目标关键词的所述模板都输入到所述
NN
声学模型中,来将所述话音输入的所述语音帧与所述多个目标关键词的所述模板中的每一个进行比较
。2.
根据权利要求1所述的关键词检出方法,其中所述
NN
声学模型包括具有多个通道的至少一个可分离二维卷积层,所述多个通道对应于所述
NN
声学模型的多个输入
。3.
根据权利要求2所述的关键词检出方法,其中所述话音输入的所述语音帧和所述多个目标关键词的所述模板用音素标记,并以梅尔频谱图的形式作为梅尔频率倒谱系数
(MFCC)
输入到所述
NN
声学模型
。4.
根据权利要求1所述的关键词检出方法,其中在与包括标记大量人类话音的音素的训练数据集一起使用之前对所述
NN
声学模型进行训练
。5.
根据权利要求4所述的关键词检出方法,通过使用8位量化流来表示所述
NN
声学模型的权重和激活,来训练所述
NN
声学模型
。6.
根据权利要求1所述的关键词检出方法,其中注册所述多个目标关键词的所述模板包括生成与所述多个目标关键词中的每一个相对应的声学模型序列以存储在所述
MCU
中
。7.
根据权利要求6所述的关键词检出方法,所述声学模型序列的大小为3至5秒
。8.
根据权利要求1所述的关键词检出方法,其中所述话音输入的所述语音帧中的每一个包括声学序列,并且所述声学序列的所述大小取决于存储在所述
MCU
中的所述声学模型序列
。9.
根据权利要求1所述的关键词检出方法,其中如果输出的概率高于预设阈值,则可以检出所述话音输入中包括的关键词片段
。10.
根据权利要求9所述的关键词检出方法,其中所述预设阈值可以设置为
90
%
。11.
根据权利要求1所述的关键词检出方法,其中所述
NN
声学模型可以是深度方向的可分离卷积神经网络
。12.
一种非暂时性计算机可读介质,其存储指令,所述指令在由微控制器单元
(MCU)
处理时,执行以下步骤,包括:经由麦克风录制来自用户的多个目标关键词的音频片段;在微控制器单元
(MCU)...
【专利技术属性】
技术研发人员:郑剑文,SF,
申请(专利权)人:哈曼国际工业有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。