基于神经网络的关键词检出方法技术

技术编号:39736707 阅读:10 留言:0更新日期:2023-12-17 23:38
提供了一种通过将新的关键词重新映射为单独的声学模型序列来容许动态添加和删除关键词的基于神经网络

【技术实现步骤摘要】
【国外来华专利技术】基于神经网络的关键词检出方法


[0001]本公开总体上涉及关键词检出
(KWS)
技术

更具体地说,本公开涉及一种基于神经网络声学模型的关键词检出方法


技术介绍

[0002]随着移动装置或家庭消费型装置
(
诸如手机或智能扬声器
)
的快速发展,与话音识别相关的技术也越来越受欢迎

机器学习的最新突破使得具有麦克风的机器能够解析和翻译人类语言

例如,谷歌和必应的语音翻译能够将一种语言翻译成另一种语言

谷歌语音助手和亚马逊
Alexa
服务等语音识别技术对我们的生活产生了积极影响

在语音识别的帮助下,我们现在能够让机器更自然地执行简单的任务

[0003]由于模型复杂性和高计算要求,常见的强大话音识别通常在云中进行

出于实用性和隐私方面的考虑,目前许多装置都需要在本地运行紧凑型话音识别,以检测简单的命令并做出反应

传统的紧凑型话音识别方法通常涉及用于分别对关键词和非关键词话音片段进行建模的隐马尔可夫模型
(HMM)。
在运行时期间,一般会应用遍历算法在解码图中找到最佳路径,作为最佳匹配结果

还有一些算法使用大词汇量连续话音识别器生成丰富的网格,并在网格中所有可能的路径中搜索关键词

由于传统的基于遍历的算法依赖于级联条件概率和大规模模式比较,这些算法容易受到嵌入式系统时钟速度和位深度的限制

此外,由于电池和计算方面的原因,话音识别在嵌入式系统上执行通常计算成本过高

这已成为语音辅助进入更广泛受众以进一步融入我们日常生活的主要障碍

[0004]考虑到计算和功耗问题,有多种将话音识别算法简化为关键词检出
(KWS)
的示例

关键词可以用作唤醒词,诸如“好的,谷歌”和“Alexa”,也可以用作对嵌入式系统的简单命令,诸如“打开”和“关闭”。
然而,标准
KWS
的一个常见问题是,所述算法对人为差异的容忍度有限

这种差异包括单个用户对简单命令的称呼不同,以及在说同一个词时的口音不同

此外,用户可能记不住系统中存储的预定关键词,或者存储的命令可能不是用户所需的

这是一个巨大的用户体验问题,标准的
KWS
算法无法解决这个问题,因为它是通过识别固定的声学模型来设计的

[0005]因此,需要更先进

更高效

体积小

延迟低的模型,这些模型还可以在需要用户定制的情况下运行
KWS。

技术实现思路

[0006]本专利技术中提供的关键词检出方法是基于神经网络
(NN)
声学模型

所述方法可以包括以下步骤,以检测来自用户的用户定制关键词

首先,用户可以使用麦克风将其感兴趣的关键词录制成多个目标关键词的音频片段,并且将多个目标关键词的模板注册到
KWS
系统中

通过用音素标记多个目标关键词的音频片段中的每一个,向
NN
声学模型注册多个目标关键词的模板,以分别生成多个目标关键词中的每一个的声学模型序列,并将模板的声学模型序列存储在微控制器单元
(MCU)


在使用所述方法来检测话音中那些已注册的关键
词时,语音活动检测器正在工作以检测用户的话音输入

一旦检测到,就用音素标记话音输入的语音帧,以构建话音输入的声学序列,然后将其输入到所述模型以通过
NN
声学模型而与目标关键词的注册模板中的每一个进行比较

通过将话音输入的声学序列和模板的声学模型序列中的每一个输入到
NN
声学模型中,所述模型可以输出话音输入的语音帧与多个目标关键词片段中的一个相同的概率

如果输入话音与预先注册的序列中的一个足够相似,则可以确定关键词是从话音输入中检出的

[0007]一种非暂时性计算机可读介质存储指令,所述指令在由处理器或微控制器单元
(MCU)
处理时,执行本公开中的基于
NN
声学模型的关键词检出方法

附图说明
[0008]通过参考附图阅读以下对非限制性实施方案的描述,可以更好地理解本公开

在附图中,相同的附图标记指代对应的部件,其中:
[0009]图1示出了根据本公开的一个和多个实施方案的在声学模型中使用来进行关键词检出的示例性
NN
声学模型;
[0010]图2示出了图1的
NN
声学模型的训练过程的示例性流程图;
[0011]图3示出了根据本公开的一个和多个实施方案的向
NN
声学模型注册关键词的示例性流程图;
[0012]图4示出了根据本公开的一个和多个实施方案的使用
NN
声学模型进行关键词检测的示例性流程图

具体实施方式
[0013]下文公开了本专利技术的实施方案的详细描述;然而,应理解,所公开的实施方案仅是可以体现为各种和替代形式的本公开的示例

附图不一定按比例绘制;一些特征可能被夸大或最小化以示出特定部件的细节

因此,本文公开的具体结构和功能细节不应被解释为限制性的,而是仅作为教导本领域的技术人员以各种方式采用本专利技术的代表性基础

[0014]如本申请中所用,以单数叙述并以词语“一个”或“一种”开头的要素或步骤应被理解为不排除复数个所述要素或步骤,除非说明有这种排除

此外,对本公开的“一个实施方案”或“一个示例”的引用并不旨在排除存在同样包含所述特征的其他实施方案

术语“第一”、“第二”及“第三”等仅用作标签,并且不旨在对其对象强加数值要求或特定位置次序

此外,下文中的
NN
声学模型可以等同于
NN
模型,或者简称为模型

[0015]本公开中提供的关键词检出方法采用了
NN
声学模型,所述
NN
声学模型被设计为实现用户定制,并允许在训练后进行关键词注册
。KWS
方法可以用于带有麦克风且需要一个小的本地命令集合的产品

它可以通过具有终端用户自定义关键词的任何无网络装置进行区分

[0016]具体而言,
KWS
方法可以将语音活动检测器检测到的用户实时语音输入与用户预先注册的关键词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种基于神经网络
(NN)
声学模型的关键词检出方法,其包括以下步骤:经由麦克风录制来自用户的多个目标关键词的音频片段;在微控制器单元
(MCU)
中向所述
NN
声学模型注册所述多个目标关键词的模板;通过语音活动检测器检测所述用户的话音输入;其中所述关键词检出方法还包括:通过将所述话音输入的语音帧和所述多个目标关键词的所述模板都输入到所述
NN
声学模型中,来将所述话音输入的所述语音帧与所述多个目标关键词的所述模板中的每一个进行比较
。2.
根据权利要求1所述的关键词检出方法,其中所述
NN
声学模型包括具有多个通道的至少一个可分离二维卷积层,所述多个通道对应于所述
NN
声学模型的多个输入
。3.
根据权利要求2所述的关键词检出方法,其中所述话音输入的所述语音帧和所述多个目标关键词的所述模板用音素标记,并以梅尔频谱图的形式作为梅尔频率倒谱系数
(MFCC)
输入到所述
NN
声学模型
。4.
根据权利要求1所述的关键词检出方法,其中在与包括标记大量人类话音的音素的训练数据集一起使用之前对所述
NN
声学模型进行训练
。5.
根据权利要求4所述的关键词检出方法,通过使用8位量化流来表示所述
NN
声学模型的权重和激活,来训练所述
NN
声学模型
。6.
根据权利要求1所述的关键词检出方法,其中注册所述多个目标关键词的所述模板包括生成与所述多个目标关键词中的每一个相对应的声学模型序列以存储在所述
MCU

。7.
根据权利要求6所述的关键词检出方法,所述声学模型序列的大小为3至5秒
。8.
根据权利要求1所述的关键词检出方法,其中所述话音输入的所述语音帧中的每一个包括声学序列,并且所述声学序列的所述大小取决于存储在所述
MCU
中的所述声学模型序列
。9.
根据权利要求1所述的关键词检出方法,其中如果输出的概率高于预设阈值,则可以检出所述话音输入中包括的关键词片段
。10.
根据权利要求9所述的关键词检出方法,其中所述预设阈值可以设置为
90

。11.
根据权利要求1所述的关键词检出方法,其中所述
NN
声学模型可以是深度方向的可分离卷积神经网络
。12.
一种非暂时性计算机可读介质,其存储指令,所述指令在由微控制器单元
(MCU)
处理时,执行以下步骤,包括:经由麦克风录制来自用户的多个目标关键词的音频片段;在微控制器单元
(MCU)...

【专利技术属性】
技术研发人员:郑剑文SF
申请(专利权)人:哈曼国际工业有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1