一种支持不同语种的命令词检测方法及设备技术

技术编号:22848341 阅读:26 留言:0更新日期:2019-12-17 23:09
本发明专利技术公开了一种支持不同语种的命令词检测方法及设备,首先采集至少包括两种不同语种的语音信号;接着提取所述语音信号的音频特征;进一步地通过深度学习网络对所提取的音频特征进行分类预测,得到分类预测结果;若所述分类预测结果为命令词的概率最大,则将所述概率最大的命令词作为输出结果。

A command word detection method and equipment supporting different languages

【技术实现步骤摘要】
一种支持不同语种的命令词检测方法及设备
本专利技术涉及语言识别技术,尤其涉及一种支持不同语种的命令词检测方法及设备。
技术介绍
随着科学技术的不断发展,语音交互技术已经被广泛的应用到嵌入式设备中,如手机,手表,音箱和耳机等。为了降低设备的运行功耗,一般先采用特定的命令词对设备进行唤醒,如苹果手机的“HeySiri”,小米AI音箱的“小爱同学”等。相关技术中,命令词检测系统通常是将输入的语音信号在经过特征提取后,作为深度学习网络的输入;深度学习网络的输出是命令词中每个词的概率,在经过后处理模块后,可以得到输入语音信号为命令词的概率。当该概率大于给定的阈值时,则系统判定输入的语音信号包含命令词;反之,则判定没有检测到命令词。很显然,当前的命令词检测方法仅支持单一语种,且只支持单一命令词的检测。
技术实现思路
本专利技术实施例为了解决当前命令词检测系统所存在的以上缺陷,创造性地提供一种支持不同语种的命令词检测方法及设备。根据本专利技术的第一方面,提供一种支持不同语种的命令词检测方法,所述方法包括:采集至少包括两种不同语种的语音信号;提取所述语音信号的音频特征;通过深度学习网络对所提取的音频特征进行分类预测,得到分类预测结果;若所述分类预测结果为命令词的概率最大,则将所述概率最大的命令词作为输出结果。根据本专利技术一实施方式,所述通过深度学习网络对所提取的音频特征进行分类预测,得到分类预测结果,包括:通过支持多语种的深度学习网络对所提取的音频特征进行分类,得到包括命令词和非命令词的概率;判断所得到的命令词和非命令词的概率中概率最大的词的类别,得到分类预测结果。根据本专利技术一实施方式,所述方法还包括:若所述分类预测结果为非命令词的概率最大,则判定所述语音信号中不包含命令词。根据本专利技术一实施方式,提取所述语音信号的音频特征,包括:提取所述语音信号的Fbank特征;或,提取所述语音信号的MFCC特征。根据本专利技术一实施方式,通过深度学习网络对所提取的音频特征进行分类预测,包括:借助递归神经网络RNN、卷积神经网络CNN或时延神经网络TDNN对所提取的音频特征进行分类预测。根据本专利技术一实施方式,当借助CNN对所提取的音频特征进行分类预测时,所述方法还包括:将前N轮分类预测过程中的中间节点的结果进行缓存,N的取值为正整数;相应的,借助CNN对所提取的音频特征进行分类预测,包括:将缓存中前N轮分类预测过程中的中间节点的结果及当前轮的音频特征共同作为CNN的输入来进行分类预测。根据本专利技术一实施方式,所述方法还包括:控制执行对应所述概率最大的命令词的操作。根据本专利技术的第二方面,又提供一种支持不同语种的命令词检测设备,所述设备包括:采集模块,用于采集至少包括两种不同语种的语音信号;特征提取模块,用于提取所述语音信号的音频特征;分类预测模块,用于通过深度学习网络对所提取的音频特征进行分类预测,得到分类预测结果;输出模块,用于若所述分类预测结果为命令词的概率最大,则将所述概率最大的命令词作为输出结果。根据本专利技术一实施方式,所述分类预测模块包括:分类单元,用于通过支持多语种的深度学习网络对所提取的音频特征进行分类,得到包括命令词和非命令词的概率;判断单元,用于判断所得到的命令词和非命令词的概率中概率最大的词的类别,得到分类预测结果。根据本专利技术一实施方式,所述输出模块还用于:若所述分类预测结果为非命令词的概率最大,则判定所述语音信号中不包含命令词。根据本专利技术一实施方式,所述特征提取模块具体用于,提取所述语音信号的Fbank特征;或,提取所述语音信号的MFCC特征。根据本专利技术一实施方式,所述分类预测模块具体用于,借助递归神经网络RNN、卷积神经网络CNN或时延神经网络TDNN对所提取的音频特征进行分类预测。根据本专利技术一实施方式,所述设备还包括:存储模块,用于当借助CNN对所提取的音频特征进行分类预测时,将前N轮分类预测过程中的中间节点的结果进行缓存,N的取值为正整数;相应的,所述分类预测模块具体用于,将缓存中前N轮分类预测过程中的中间节点的结果及当前轮的音频特征共同作为CNN的输入来进行分类预测。根据本专利技术一实施方式,所述设备还包括:控制执行模块,用于控制执行对应所述概率最大的命令词的操作。根据本专利技术一实施方式,所述设备为智能耳机或麦克风。本专利技术实施例支持不同语种的命令词检测方法及设备,首先采集至少包括两种不同语种的语音信号;接着提取所述语音信号的音频特征;进一步地通过深度学习网络对所提取的音频特征进行分类预测,得到分类预测结果;若所述分类预测结果为命令词的概率最大,则将所述概率最大的命令词作为输出结果。这样,本专利技术通过构建有的支持多语言多命令词的深度学习网络,能够对所提取的语音信号的音频特征进行分类预测,直接得到命令词和非命令词的概率,从而克服现有命令词检测方法仅支持单一语种,且只支持单一命令词的检测的问题;而且,很大程度上节省了存储资源和运算资源,且可扩展性好。需要理解的是,本专利技术的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本专利技术的其他实施方式还能够实现上面未提到的有益效果。附图说明通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,其中:在附图中,相同或对应的标号表示相同或对应的部分。图1示出了相关技术中命令词检测方法的基本原理示意图;图2示出了本专利技术实施例支持不同语种的命令词检测方法的实现流程示意图一;图3示出了本专利技术实施例支持不同语种的命令词检测方法的基本原理示意图;图4示出了本专利技术一应用示例支持不同语种的命令词检测方法的具体实现流程示意图;图5示出了本专利技术实施例支持不同语种的命令词检测设备的组成结构示意图。具体实施方式下面将参考若干示例性实施方式来描述本专利技术的原理和精神。应当理解,给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本专利技术,而并非以任何方式限制本专利技术的范围。相反,提供这些实施方式是为使本专利技术更加透彻和完整,并能够将本专利技术的范围完整地传达给本领域的技术人员。下面结合附图和具体实施例对本专利技术的技术方案进一步详细阐述。图1示出了相关技术中命令词检测方法的基本原理示意图。参考图1,现有的命令词检测方法主要是将输入的语音信号在经过特征提取后,作为深度学习网络的输入;深度学习网络的输出是命令词中每个词的概率,在经过后处理模块后,可以得到输入语音信号为命令词的概率。当该概率大于给定的阈值时,则系统判定输入的语音信号包含命令词;反之,则判定没有检测到命令词。很显然,当前的命令词检测方法仅支持单一语种,且只支持单一命令词的检测。为了在现有命令词检测方法上增加不同语种多命令词的支持,一种简单直接的处理方法即同时运行多个模型,其中每个模型用来检测不同语本文档来自技高网...

【技术保护点】
1.一种支持不同语种的命令词检测方法,其特征在于,所述方法包括:/n采集至少包括两种不同语种的语音信号;/n提取所述语音信号的音频特征;/n通过深度学习网络对所提取的音频特征进行分类预测,得到分类预测结果;/n若所述分类预测结果为命令词的概率最大,则将所述概率最大的命令词作为输出结果。/n

【技术特征摘要】
1.一种支持不同语种的命令词检测方法,其特征在于,所述方法包括:
采集至少包括两种不同语种的语音信号;
提取所述语音信号的音频特征;
通过深度学习网络对所提取的音频特征进行分类预测,得到分类预测结果;
若所述分类预测结果为命令词的概率最大,则将所述概率最大的命令词作为输出结果。


2.根据权利要求1所述的方法,其特征在于,所述通过深度学习网络对所提取的音频特征进行分类预测,得到分类预测结果,包括:
通过支持多语种的深度学习网络对所提取的音频特征进行分类,得到包括命令词和非命令词的概率;
判断所得到的命令词和非命令词的概率中概率最大的词的类别,得到分类预测结果。


3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述分类预测结果为非命令词的概率最大,则判定所述语音信号中不包含命令词。


4.根据权利要求1所述的方法,其特征在于,提取所述语音信号的音频特征,包括:
提取所述语音信号的Fbank特征;或,提取所述语音信号的MFCC特征。


5.根据权利要求1所述的方法,其特征在于,通过深度学习网络对所提取的音频特征进行分类预测,包括:
借助递归神经网络RNN、卷积神经网络CNN或时延神经网络TDNN对所提取的音频特征进行分类预测。


6.根据权利要求5所述的方法,...

【专利技术属性】
技术研发人员:匡方军李深雷欣李志飞
申请(专利权)人:出门问问信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1