说话人辨识制造技术

技术编号:25609183 阅读:7 留言:0更新日期:2020-09-12 00:04
一种说话人辨识的方法,包括:接收代表话音的音频信号;对所述音频信号执行第一语音生物测定过程,以尝试辨识所述话音是否是已注册说话人的话音;以及,如果所述第一语音生物测定过程初始确定所述话音是已注册用户的话音,则对所述音频信号执行第二语音生物测定过程,以尝试辨识所述话音是否是所述已注册说话人的话音。所述第二语音生物测定过程被选择为比所述第一语音生物测定过程更具有辨别力。

【技术实现步骤摘要】
【国外来华专利技术】说话人辨识
本文所描述的实施方案涉及用于分析话音信号的方法和设备。
技术介绍
许多设备包括麦克风,所述麦克风可以被用来检测周边声音。在许多情况下,周边声音包括一个或多个附近说话人的话音。可以以多种方式使用麦克风所生成的音频信号。例如,代表话音的音频信号可以被用作话音识别系统的输入,从而允许用户使用口语命令来控制设备或系统。
技术实现思路
根据本专利技术的一个方面,提供了一种说话人辨识的方法,包括:接收代表话音的音频信号;对所述音频信号执行第一语音生物测定过程,以尝试辨识所述话音是否是已注册说话人的话音;以及如果所述第一语音生物测定过程初始确定所述话音是已注册用户的话音,则对所述音频信号执行第二语音生物测定过程,以尝试辨识所述话音是否是已注册说话人的话音,其中所述第二语音生物测定过程被选择为比所述第一语音生物测定过程更具有辨别力。在一些实施方案中,所述第二语音生物测定过程被配置为具有比所述第一语音生物测定过程更低的错误接受率。在一些实施方案中,所述第二语音生物测定过程被配置为具有比所述第一语音生物测定过程更低的错误拒绝率。在一些实施方案中,所述第二语音生物测定过程被配置为具有比所述第一语音生物测定过程更低的等错误率。在一些实施方案中,与所述第二语音生物测定过程相比,所述第一语音生物测定过程被选择为相对低功率的过程。在一些实施方案中,所述方法包括基于所述第二语音生物测定过程的结果来做出关于所述话音是否是已注册说话人的话音的判定。<br>在一些实施方案中,所述方法包括基于所述第一语音生物测定过程的结果和所述第二语音生物测定过程的结果的融合来做出关于所述话音是否是已注册说话人的话音的判定。在一些实施方案中,所述第一语音生物测定过程选自以下过程:基于分析话音的长期频谱的过程;使用高斯混合模型的方法;使用梅尔频率倒谱系数的方法;使用主成分分析的方法;联合因子分析过程;因子分析器的绑定混合(TiedMixtureofFactorAnalyzers)过程;使用机器学习技术(诸如,深度神经网络(DNNs)或卷积神经网络(CNNs))的方法;以及,使用支持向量机的方法。在一些实施方案中,所述第二语音生物测定过程选自以下过程:使用高斯混合模型的方法;神经网络过程,联合因子分析过程;因子分析器的绑定混合过程;使用机器学习技术(诸如,深度神经网络(DNNs)或卷积神经网络(CNNs))的方法;x-vector过程;以及,i-vector过程。在一些实施方案中,所述第二语音生物测定过程与所述第一语音生物测定过程是不同类型的过程。换言之,所述第一语音生物测定过程可以是选自上面的第一列表的过程,而所述第二语音生物测定过程可以是选自上面的第二列表的不同过程。在一些其他实施方案中,所述第一语音生物测定过程和所述第二语音生物测定过程可能是相同类型的过程,但是其中所述第二语音生物测定过程被配置为比所述第一语音生物测定过程更具有辨别力。例如,所述第一语音生物测定过程和所述第二语音生物测定过程可以都使用高斯混合模型,其中所述第二过程使用更多的混合。更具体地,所述第一语音生物测定过程可以是16混合的高斯混合模型,而所述第二语音生物测定过程可以是4096混合的高斯混合模型。作为另一实施例,所述第一语音生物测定过程和所述第二语音生物测定过程可以都使用深度神经网络,其中所述第二过程使用更多的权重。在这两种情况下,可能用更多的数据来训练更具有辨别力的第二过程。在一些实施方案中,在第一设备中执行所述第一语音生物测定过程,且在远离所述第一设备的第二设备中执行所述第二语音生物测定过程。所述第一设备可以包括可穿戴设备,诸如头戴式受送话器设备、智能眼镜设备、智能手表设备。所述第二设备可以包括主机设备,诸如移动电话或平板计算机。在一些实施方案中,所述第一设备可以被设置为编解码器(CODEC)设备或芯片的一部分,或者可以被设置为数字麦克风设备或芯片的一部分。在一些实施方案中,所述第二设备可以被设置为中央处理器(诸如,应用处理器)的一部分,或者可以被设置为专用生物测定处理器设备或芯片的一部分。具体地,所述第一设备可以被设置为位于产品(诸如,移动电话、平板计算机、智能扬声器或家庭自动化控制器)中的编解码器设备或芯片的一部分或者数字麦克风设备或芯片的一部分,而所述第二设备被设置为位于同一产品中的中央处理器(诸如,应用处理器)的一部分或者专用生物测定处理器设备或芯片的一部分。在本专利技术的一个方面,提供了一种配置为执行所述第一语音生物测定过程的第一设备,且在本专利技术的另一方面,提供了一种配置为执行所述第二语音生物测定过程的第二设备。在一些实施方案中,所述方法包括:将所述第二语音生物测定过程维持在低功率状态,以及如果所述第一语音生物测定过程初始确定所述话音是已注册用户的话音,则激活所述第二语音生物测定过程。通过所述第一生物测定过程对所述第二生物测定过程进行功率选通(power-gated)。这可以允许所述第一生物测定过程在设备的相对低功率区域中操作,而所述第二生物测定过程可以被设置在例如位于应用处理器或类似物中的设备的相对高功率区域中。在一些实施方案中,所述方法包括:响应于基于所述第一语音生物测定过程的局部完成而初始确定所述话音可能是已注册用户的话音,激活所述第二语音生物测定过程;以及,响应于基于所述第一语音生物测定过程的完成而确定所述话音不是所述已注册用户的话音,去激活所述第二语音生物测定过程。在一些实施方案中,所述方法包括:在所接收的音频信号中检测触发短语;以及响应于检测到触发短语,对所接收的音频信号执行所述第一语音生物测定过程。在一些实施方案中,所述方法包括:在所接收的音频信号中检测语音活动;以及响应于检测到语音活动,对所接收的音频信号的至少一部分执行所述第一语音生物测定过程。在一些实施方案中,所述方法包括:在所接收的音频信号中检测语音活动;响应于检测到语音活动,执行关键字检测;以及响应于检测到关键字,对所接收的音频信号的至少一部分执行所述第一语音生物测定过程。在一些实施方案中,所述方法包括:对整个所接收的音频信号执行所述第一语音生物测定过程。在一些实施方案中,所述方法包括使用所述第一语音生物测定过程初始确定所述话音是已注册用户的话音,作为对所接收的音频信号包括话音的指示。在一些实施方案中,所述方法包括:执行适于确定信号是否包含已注册用户的话音的语音生物测定过程的至少一部分,且在确定所述信号包含人类话音时生成输出信号。在一些实施方案中,所述方法包括将相似度得分与第一阈值进行比较,以确定所述信号是否包含已注册用户的话音,且将所述相似度得分与第二较低阈值进行比较,以确定所述信号是否包含话音。在一些实施方案中,所述方法包括在确定所述信号包含人类话音之后,能够确定所述信号是否包含已注册用户的话音。在一些实施方案中,所述第一语音生物测定过程被配本文档来自技高网...

【技术保护点】
1.一种说话人辨识的方法,包括:/n接收代表话音的音频信号;/n对所述音频信号执行第一语音生物测定过程,以尝试辨识所述话音是否是已注册说话人的话音;以及/n如果所述第一语音生物测定过程初始确定所述话音是已注册用户的话音,则对所述音频信号执行第二语音生物测定过程,以尝试辨识所述话音是否是所述已注册说话人的话音,/n其中所述第二语音生物测定过程被选择为比所述第一语音生物测定过程更具有辨别力。/n

【技术特征摘要】
【国外来华专利技术】20180608 GB 1809474.8;20180123 US 15/877,660;201801.一种说话人辨识的方法,包括:
接收代表话音的音频信号;
对所述音频信号执行第一语音生物测定过程,以尝试辨识所述话音是否是已注册说话人的话音;以及
如果所述第一语音生物测定过程初始确定所述话音是已注册用户的话音,则对所述音频信号执行第二语音生物测定过程,以尝试辨识所述话音是否是所述已注册说话人的话音,
其中所述第二语音生物测定过程被选择为比所述第一语音生物测定过程更具有辨别力。


2.根据权利要求1所述的方法,其中所述第二语音生物测定过程被配置为具有比所述第一语音生物测定过程更低的错误接受率。


3.根据权利要求1所述的方法,其中所述第二语音生物测定过程被配置为具有比所述第一语音生物测定过程更低的错误拒绝率。


4.根据权利要求1所述的方法,其中所述第二语音生物测定过程被配置为具有比所述第一语音生物测定过程更低的等错误率。


5.根据任一项前述权利要求所述的方法,其中与所述第二语音生物测定过程相比,所述第一语音生物测定过程被选择为相对低功率的过程。


6.根据权利要求1所述的方法,包括基于所述第二语音生物测定过程的结果,做出关于所述话音是否是所述已注册说话人的话音的判定。


7.根据权利要求1所述的方法,包括基于所述第一语音生物测定过程的结果和所述第二语音生物测定过程的结果的融合来做出关于所述话音是否是所述已注册说话人的话音的判定。


8.根据任一项前述权利要求所述的方法,其中所述第一语音生物测定过程选自以下过程:基于分析话音的长期频谱的过程;使用高斯混合模型的方法;使用梅尔频率倒谱系数的方法;使用主成分分析的方法;使用诸如深度神经网络(DNNs)的机器学习技术的方法;以及,使用支持向量机的方法。


9.根据任一项前述权利要求所述的方法,其中所述第二语音生物测定过程选自以下过程:神经网络过程;联合因子分析过程;因子分析器的绑定混合过程;以及,i-vector过程。


10.根据任一项前述权利要求所述的方法,其中在第一设备中执行所述第一语音生物测定过程,且在远离所述第一设备的第二设备中执行所述第二语音生物测定过程。


11.根据任一项前述权利要求所述的方法,包括将所述第二语音生物测定过程维持在低功率状态,以及如果所述第一语音生物测定过程初始确定所述话音是已注册的用户的话音,则激活所述第二语音生物测定过程。


12.根据任一项前述权利要求所述的方法,包括响应于基于所述第一语音生物测定过程的局部完成而初步确定所述话音可能是已注册用户的话音,激活所述第二语音生物测定过程,以及响应于基于所述第一语音生物测定过程的完成而确定所述话音不是所述已注册用户的话音,去激活所述第二语音生物测定过程。


13.根据任一项前述权利要求所述的方法,包括:
在所接收的音频信号中检测触发短语;以及
响应于检测到触发短语,对所接收的音频信号执行所述第一语音生物测定过程。


14.根据任一项前述权利要求所述的方法,包括:
在所接收的音频信号中检测语音活动;以及
响应于检测到语音活动,对所接收的音频信号的至少一部分执行所述第一语音生物测定过程。


15.根据权利要求1至14中的任一项所述的方法,包括:
在所接收的音频信号中检测语音活动;
响应...

【专利技术属性】
技术研发人员:J·P·莱索
申请(专利权)人:思睿逻辑国际半导体有限公司
类型:发明
国别省市:英国;GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利