终端设备的语音唤醒方法、系统、电子设备、存储介质技术方案

技术编号:25640046 阅读:13 留言:0更新日期:2020-09-15 21:31
本发明专利技术公开了一种终端设备的语音唤醒方法、系统、电子设备、存储介质。其中,语音唤醒方法包括:预设相对于所述终端设备的麦克风阵列的M个基准方向;利用所述麦克风阵列采集音频信号;将所述音频信号分解成与M个基准方向对应的M个波束信号;从M个波束信号中选择N个方向特征最强的波束信号作为候选信号;判断是否有至少一个候选信号的内容包括唤醒词,若是,则根据所述唤醒词唤醒所述终端设备。本发明专利技术并未采用声源定位算法,而是通过将采集到的音频信号分解为几个基准方向上的波束信号,进而根据各波束信号的方向特征来近似推断可能的声源方向,能够提高唤醒词的识别精度,极大限度地排除干扰信号对唤醒终端设备的影响。

【技术实现步骤摘要】
终端设备的语音唤醒方法、系统、电子设备、存储介质
本专利技术涉及语音处理
,尤其涉及一种终端设备的语音唤醒方法、系统、电子设备、存储介质。
技术介绍
随着硬件技术的飞速发展,尤其是高性能低功耗芯片技术的不断进步,使得智能耳机、智能音箱等语音终端成为了人机交互的主要方式,而手机、电脑等终端相应地退化成了资讯展示的界面。其中,基于语音终端的语音唤醒技术的好坏直接影响到用户的体验。语音唤醒技术通常包括两方面内容,其一,声源辨别;其二,语音识别。关于声源辨别,由于回声、混响及多声源的叠加等会对声源音频产生巨大的干扰,从而语音终端难以从中辨别出真正的声源,进而,也就难以识别出声源音频的内容。当前,通常基于以下原理来实现声源定位进而辨别出声源:基于最大输出功率的可控波束形成技术、基于到达时间差技术及基于高分辨率谱估计的定位,然而,上述声源定位实现方法仍然难以抵抗混响、噪声等的影响,换言之,上述声源定位实现方法的定位精度不高,容易受到干扰。
技术实现思路
本专利技术实施例要解决的技术问题是为了克服现有技术中语音唤醒终端设备容易受到干扰的缺陷,提供一种终端设备的语音唤醒方法、系统、电子设备、存储介质。本专利技术实施例是通过下述技术方案来解决上述技术问题:一种终端设备的语音唤醒方法,其特点在于,所述语音唤醒方法包括:预设相对于所述终端设备的麦克风阵列的M个基准方向;利用所述麦克风阵列采集音频信号;将所述音频信号分解成与M个基准方向对应的M个波束信号;r>从M个波束信号中选择N个方向特征最强的波束信号作为候选信号;判断是否有至少一个候选信号的内容包括唤醒词,若是,则根据所述唤醒词唤醒所述终端设备;其中,M和N是正整数。较佳地,所述判断是否有至少一个候选信号的内容包括唤醒词,若是,则根据所述唤醒词唤醒所述终端设备的步骤包括:判断是否有至少一个候选信号的内容包括唤醒词,若是,则:令初始值为0的计数值加1;判断所述计数值是否达到计数阈值;若达到所述计数阈值,则根据所述唤醒词唤醒所述终端设备;若未达到所述计数阈值,则返回所述利用所述麦克风阵列采集音频信号的步骤;若否,则将所述计数值清零,并返回所述利用所述麦克风阵列采集音频信号的步骤。较佳地,在所述利用所述麦克风阵列采集音频信号的步骤之前,所述语音唤醒方法还包括:利用所述麦克风阵列采集多个样本音频信号,其中,每一样本音频信号的声源方向已知且属于M个基准方向中的任意一个;将所述样本音频信号分解成与M个基准方向对应的M个样本波束信号;根据各样本音频信号分别构建第一训练数据集,所述第一训练数据集包括声源方向对应的样本波束信号以及表征所述声源方向的方向特征的样本方向数组,所述样本方向数组包括M个分别用于表征所述M个基准方向的元素;根据所有第一训练数据集训练声源定位模型,所述声源定位模型用于根据输入的样本波束信号输出对应的样本方向数组;所述从M个波束信号中选择N个方向特征最强的波束信号作为候选信号的步骤包括:将M个波束信号依次输入所述声源定位模型,输出对应的方向数组,所述方向数组的M个元素分别用于表征所述M个波束信号的方向特征;按照所述方向数组中元素的值从大到小的顺序选择N个波束信号作为候选信号。较佳地,每一样本音频信号还标记有唤醒词,在所述利用所述麦克风阵列采集音频信号的步骤之前,所述语音唤醒方法还包括:根据各样本音频信号分别构建第二训练数据集,所述第二训练数据集包括声源方向对应的样本波束信号以及样本识别数组,所述样本识别数组包括两个分别用于表征样本波束信号的内容包括所述唤醒词的概率以及不包括所述唤醒词的概率的元素;根据所有第二训练数据集训练唤醒词识别模型,所述唤醒词识别模型用于根据输入的样本波束信号输出对应的样本识别数组;所述判断是否有至少一个候选信号的内容包括唤醒词的步骤包括:将N个候选信号依次输入所述唤醒词识别模型,分别输出对应的识别数组;判断N个识别数组中表征包括所述唤醒词的概率的元素的最大值是否大于预设阈值;若是,则确定有至少一个候选信号的内容包括唤醒词,并且最大值对应的候选信号所对应的基准方向是所述音频信号的声源方向;若否,则确定候选信号的内容均不包括所述唤醒词。较佳地,所述根据所有第一训练数据集训练声源定位模型的步骤包括:利用卷积神经网络训练声源定位模型;所述根据所有第二训练数据集训练唤醒词识别模型的步骤包括:以样本波束信号在所述卷积神经网络中最后一个卷积层的数据为输入来训练唤醒词识别模型;将N个候选信号依次输入所述唤醒词识别模型的步骤包括:将N个候选信号在所述卷积神经网络中的最后一个卷积层的数据依次输入所述唤醒词识别模型。较佳地,当判断所述计数值达到计数阈值时,所述根据所述唤醒词唤醒所述终端设备的步骤包括:判断包括当前音频信号的连续计数阈值个音频信号的声源方向是否相同;若是,则根据所述唤醒词唤醒所述终端设备。较佳地,所述根据所有第二训练数据集训练唤醒词识别模型的步骤包括:利用神经网络和连接时序分类训练唤醒词识别模型。较佳地,所述利用所述麦克风阵列采集音频信号的步骤包括:对所述音频信号进行回声消除处理。一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特点在于,所述处理器执行所述计算机程序时实现上述任一种终端设备的语音唤醒方法。一种计算机可读存储介质,其上存储有计算机程序,其特点在于,所述计算机程序被处理器执行时实现上述任一种终端设备的语音唤醒方法的步骤。一种终端设备的语音唤醒系统,其特点在于,所述语音唤醒系统包括:基准方向预设模块,用于预设相对于所述终端设备的麦克风阵列的M个基准方向;音频信号采集模块,用于利用所述麦克风阵列采集音频信号;音频信号分解模块,用于将所述音频信号分解成与M个基准方向对应的M个波束信号;候选信号选择模块,用于从M个波束信号中选择N个方向特征最强的波束信号作为候选信号;判断模块,用于判断是否有至少一个候选信号的内容包括唤醒词,若是,则调用唤醒模块;所述唤醒模块用于根据所述唤醒词唤醒所述终端设备;其中,M和N是正整数。较佳地,所述判断模块包括:第一判断单元,用于判断是否有至少一个候选信号的内容包括唤醒词;若所述第一单元判断为是,则调用:计数单元,用于令初始值为0的计数值加1;第二判断单元,用于判断所述计数值是否达到计数阈值;若所述第二判断单元判断为是,则调用所述唤醒模块;若所述第二判断单元判断为否,则调用所述音频信号采集模块;若所述第一单元判断为否,则调用清零单元,并调用所述音频信号采集模块;所述清零单元用于将所述计数值清零。较佳地,所述本文档来自技高网...

【技术保护点】
1.一种终端设备的语音唤醒方法,其特征在于,所述语音唤醒方法包括:/n预设相对于所述终端设备的麦克风阵列的M个基准方向;/n利用所述麦克风阵列采集音频信号;/n将所述音频信号分解成与M个基准方向对应的M个波束信号;/n从M个波束信号中选择N个方向特征最强的波束信号作为候选信号;/n判断是否有至少一个候选信号的内容包括唤醒词,若是,则根据所述唤醒词唤醒所述终端设备;/n其中,M和N是正整数。/n

【技术特征摘要】
1.一种终端设备的语音唤醒方法,其特征在于,所述语音唤醒方法包括:
预设相对于所述终端设备的麦克风阵列的M个基准方向;
利用所述麦克风阵列采集音频信号;
将所述音频信号分解成与M个基准方向对应的M个波束信号;
从M个波束信号中选择N个方向特征最强的波束信号作为候选信号;
判断是否有至少一个候选信号的内容包括唤醒词,若是,则根据所述唤醒词唤醒所述终端设备;
其中,M和N是正整数。


2.如权利要求1所述的终端设备的语音唤醒方法,其特征在于,所述判断是否有至少一个候选信号的内容包括唤醒词,若是,则根据所述唤醒词唤醒所述终端设备的步骤包括:
判断是否有至少一个候选信号的内容包括唤醒词,若是,则:
令初始值为0的计数值加1;
判断所述计数值是否达到计数阈值;
若达到所述计数阈值,则根据所述唤醒词唤醒所述终端设备;
若未达到所述计数阈值,则返回所述利用所述麦克风阵列采集音频信号的步骤;
若否,则将所述计数值清零,并返回所述利用所述麦克风阵列采集音频信号的步骤。


3.如权利要求2所述的终端设备的语音唤醒方法,其特征在于,在所述利用所述麦克风阵列采集音频信号的步骤之前,所述语音唤醒方法还包括:
利用所述麦克风阵列采集多个样本音频信号,其中,每一样本音频信号的声源方向已知且属于M个基准方向中的任意一个;
将所述样本音频信号分解成与M个基准方向对应的M个样本波束信号;
根据各样本音频信号分别构建第一训练数据集,所述第一训练数据集包括声源方向对应的样本波束信号以及表征所述声源方向的方向特征的样本方向数组,所述样本方向数组包括M个分别用于表征所述M个基准方向的元素;
根据所有第一训练数据集训练声源定位模型,所述声源定位模型用于根据输入的样本波束信号输出对应的样本方向数组;
所述从M个波束信号中选择N个方向特征最强的波束信号作为候选信号的步骤包括:
将M个波束信号依次输入所述声源定位模型,输出对应的方向数组,所述方向数组的M个元素分别用于表征所述M个波束信号的方向特征;
按照所述方向数组中元素的值从大到小的顺序选择N个波束信号作为候选信号。


4.如权利要求3所述的终端设备的语音唤醒方法,其特征在于,每一样本音频信号还标记有唤醒词,在所述利用所述麦克风阵列采集音频信号的步骤之前,所述语音唤醒方法还包括:
根据各样本音频信号分别构建第二训练数据集,所述第二训练数据集包括声源方向对应的样本波束信号以及样本识别数组,所述样本识别数组包括两个分别用于表征样本波束信号的内容包括所述唤醒词的概率以及不包括所述唤醒词的概率的元素;
根据所有第二训练数据集训练唤醒词识别模型,所述唤醒词识别模型用于根据输入的样本波束信号输出对应的样本识别数组;
所述判断是否有至少一个候选信号的内容包括唤醒词的步骤包括:
将N个候选信号依次输入所述唤醒词识别模型,分别输出对应的识别数组;
判断N个识别数组中表征包括所述唤醒词的概率的元素的最大值是否大于预设阈值;
若是,则确定有至少一个候选信号的内容包括唤醒词,并且最大值对应的候选信号所对应的基准方向是所述音频信号的声源方向;
若否,则确定候选信号的内容均不包括所述唤醒词。


5.如权利要求4所述的终端设备的语音唤醒方法,其特征在于,所述根据所有第一训练数据集训练声源定位模型的步骤包括:
利用卷积神经网络训练声源定位模型;
所述根据所有第二训练数据集训练唤醒词识别模型的步骤包括:
以样本波束信号在所述卷积神经网络中最后一个卷积层的数据为输入来训练唤醒词识别模型;
将N个候选信号依次输入所述唤醒词识别模型的步骤包括:
将N个候选信号在所述卷积神经网络中的最后一个卷积层的数据依次输入所述唤醒词识别模型。


6.如权利要求4所述的终端设备的语音唤醒方法,其特征在于,当判断所述计数值达到计数阈值时,所述根据所述唤醒词唤醒所述终端设备的步骤包括:
判断包括当前音频信号的连续计数阈值个音频信号的声源方向是否相同;
若是,则根据所述唤醒词唤醒所述终端设备。


7.如权利要求4所述的终端设备的语音唤醒方法,其特征在于,所述根据所有第二训练数据集训练唤醒词识别模型的步骤包括:
利用神经网络和连接时序分类训练唤醒词识别模型。


8.如权利要求1所述的终端设备的语音唤醒方法,其特征在于,所述利用所述麦克风阵列采集音频信号的步骤包括:
对所述音频信号进行回声消除处理。


9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-8中任一项所述的终端设备的语音唤醒方法。


10.一种计算机可读存储介质,其上存...

【专利技术属性】
技术研发人员:白二伟
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1