分析话语信号制造技术

技术编号:24296899 阅读:17 留言:0更新日期:2020-05-26 21:24
一种分析音频信号的方法,包括:接收代表话语的音频信号;提取所述音频信号中分别代表所述话语的第一声学类别和第二声学类别的第一分量和第二分量;用已注册用户的话语的第一声学类别的模型和第二声学类别的模型来分析所述音频信号的第一分量和第二分量。基于所述分析,获得关于影响所述音频信号的信道和噪声中的至少一个的信息。

Analysis of discourse signal

【技术实现步骤摘要】
【国外来华专利技术】分析话语信号
本文所描述的实施方案涉及用于分析话语信号的方法和设备。
技术介绍
许多设备都包括麦克风,所述麦克风可用于检测周边声音。在许多情形中,周边声音包括一个或多个附近说话人的话语。可以以许多方式使用通过麦克风所生成的音频信号。例如,代表话语的音频信号可以被用作话语识别系统的输入,以允许用户使用口语命令来控制设备或系统。
技术实现思路
根据本专利技术的第一方面,提供了一种分析音频信号的方法,该方法包括:接收代表话语的音频信号;提取所述音频信号中分别代表所述话语的第一声学类别和第二声学类别的第一分量和第二分量;用已注册用户的话语的第一声学类别的模型和第二声学类别的模型来分析所述音频信号的第一分量和第二分量;以及,基于所述分析,获得关于影响所述音频信号的信道和噪声中的至少一个的信息。根据本专利技术的另一方面,提供了一种用于分析音频信号的系统,该系统被配置为用于执行所述方法。根据本专利技术的另一方面,提供了一种包括这种系统的设备。所述设备可以包括移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。根据本专利技术的另一方面,提供了一种计算机程序产品,包括计算机可读有形介质,以及用于执行根据第一方面的方法的指令。根据本专利技术的另一方面,提供了一种非暂时性计算机可读存储介质,在所述非暂时性计算机可读存储介质上存储有计算机可执行指令,当由处理器电路系统执行所述计算机可执行指令时,所述计算机可执行指令使所述处理器电路系统执行根据第一方面的方法。根据本专利技术的第二方面,提供了一种说话人标识的方法,包括:接收代表话语的音频信号;从所接收的音频信号中去除信道和/或噪声的影响,以获得干净的音频信号;获得所述干净的音频信号的至少一部分的平均频谱;将所述平均频谱与已注册说话人的长期平均说话人模型进行比较;以及,基于所述比较来确定所述话语是否是所述已注册说话人的话语。获得所述干净的音频信号的至少一部分的平均频谱可以包括获得所述干净的音频信号中代表浊音话语的一部分的平均频谱。获得所述干净的音频信号的至少一部分的平均频谱可以包括获得所述干净的音频信号中代表第一声学类别的一部分的第一平均频谱以及获得所述干净的音频信号中代表第二声学类别的一部分的第二平均频谱,且将所述平均频谱与已注册说话人的长期平均说话人模型进行比较可以包括将所述第一平均频谱与所述已注册说话人的第一声学类别的长期平均说话人模型进行比较以及将所述第二平均频谱与所述已注册说话人的第二声学类别的长期平均说话人模型进行比较。第一声学类别可以是浊音话语且第二声学类别是清音话语。该方法可以包括:将所述平均频谱与多个已注册说话人中的每一已注册说话人的相应长期平均说话人模型进行比较;以及,基于所述比较来确定所述话语是否是所述已注册说话人中的一个已注册说话人的话语。该方法可以进一步包括:将所述平均频谱与通用背景模型(UniversalBackgroundModel)进行比较;以及,在确定所述话语是否是所述已注册说话人中的一个已注册说话人的话语时包括所述平均频谱与所述通用背景模型进行比较的结果。该方法可以包括将所述已注册说话人中的一个已注册说话人标识为所述话语的源的最可能候选人。该方法可以包括:通过以下步骤获得关于信道和/或噪声对所接收的音频信号的影响的信息:接收代表话语的音频信号;提取所述音频信号中分别代表所述话语的第一声学类别和第二声学类别的第一分量和第二分量;用已注册用户的话语的第一声学类别的模型和第二声学类别的模型来分析所述音频信号的第一分量和第二分量;以及,基于所述分析,获得关于影响所述音频信号的信道和噪声中的至少一个的信息。该方法可以包括:用多个已注册用户的话语的第一声学类别和第二声学类别的模型来分析所述音频信号的第一分量和第二分量,以获得所述信道的相应假设值;以及,确定所述话语不是其模型产生所述信道的物理上不可信的假设值的任何已注册说话人的话语。如果所述信道的假设值在相关频率范围内包含超过一阈值水平的变化,则可以认为所述信道的假设值是物理上不可信的。如果所述信道的假设值包含显著的不连续性,则可以认为所述信道的假设值是物理上不可信的。根据本专利技术的另一方面,提供了一种用于分析音频信号的系统,该系统被配置为执行所述方法。根据本专利技术的另一方面,提供了一种包括这种系统的设备。该设备可以包括移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。根据本专利技术的另一方面,提供了一种计算机程序产品,包括计算机可读有形介质,以及用于执行根据第二方面的方法的指令。根据本专利技术的另一方面,提供了一种非暂时性计算机可读存储介质,在所述非暂时性计算机可读存储介质上存储有计算机可执行指令,当由处理器电路系统执行所述计算机可执行指令时,所述计算机可执行指令使所述处理器电路系统执行根据第二方面的方法。附图说明为了更好地理解本专利技术,且为了示出如何实施本专利技术,现在将参考附图,在附图中:图1例示了一个智能电话;图2是例示智能电话的形式的示意图;图3是例示分析音频信号的方法的流程图;图4是例示用于分析音频信号的系统的框图;图5例示了图3的方法中的结果;图6是例示用于分析音频信号的一个替代系统的框图;图7是例示用于分析音频信号的另一替代系统的框图;图8是例示用于分析音频信号的另一替代系统的框图;图9例示了对语音生物测定系统的可能的中继攻击;图10例示了重放攻击的效果;图11是例示检测重放攻击的方法的流程图;图12是例示标识说话人的方法的流程图;图13是例示用于标识说话人的系统的框图;以及图14是例示用于标识说话人的系统的框图。具体实施方式下面的描述阐述了根据本公开内容的示例实施方案。对于本领域普通技术人员而言,其他示例实施方案和实施方式将是显而易见的。此外,本领域普通技术人员将认识到,可以代替下面所讨论的实施方案或与下面所讨论的实施方案结合地应用多种等同技术,且所有这样的等同物应被认为是本公开内容所涵盖的。本文所描述的方法可以在各种各样的设备和系统中实施。然而,为了易于解释一个实施方案,将描述一个例示性实施例,其中实施方式发生在智能电话中。图1例示了一个智能电话10,该智能电话10具有用于检测周边声音的麦克风12。在正常使用中,麦克风当然用于检测握持智能电话10以靠近他们的脸的用户的话语。图2是例示智能电话10的形式的示意图。具体地,图2示出了智能电话10的多个互连部件。应理解,智能电话10实际上将包含许多其他部件,但是以下描述对于理解本专利技术是足够的。因此,图2示出了上面所提及的麦克风12。在某些实施方案中,智能电话10设置有多个麦克风12、12a、12b等。图2还示出了存储器14,该存储器实际上可以被设置为单本文档来自技高网...

【技术保护点】
1.一种分析音频信号的方法,该方法包括:/n接收代表话语的音频信号;/n提取所述音频信号中分别代表所述话语的第一声学类别和第二声学类别的第一分量和第二分量;/n用已注册用户的话语的第一声学类别的模型和第二声学类别的模型来分析所述音频信号的第一分量和第二分量;以及/n基于所述分析,获得关于影响所述音频信号的信道和噪声中的至少一个的信息。/n

【技术特征摘要】
【国外来华专利技术】20171128 GB 1719731.0;20171128 GB 1719734.4;2017101.一种分析音频信号的方法,该方法包括:
接收代表话语的音频信号;
提取所述音频信号中分别代表所述话语的第一声学类别和第二声学类别的第一分量和第二分量;
用已注册用户的话语的第一声学类别的模型和第二声学类别的模型来分析所述音频信号的第一分量和第二分量;以及
基于所述分析,获得关于影响所述音频信号的信道和噪声中的至少一个的信息。


2.根据权利要求1所述的方法,其中提取所述音频信号的第一分量和第二分量包括:
标识所述音频信号包含浊音话语的时段;以及
将话语的剩余时段标识为包含清音话语。


3.根据权利要求1或2所述的方法,其中用所述已注册用户的话语的第一声学类别的模型和第二声学类别的模型来分析所述音频信号的第一分量和第二分量包括:
将所述音频信号在多个预定频率处的幅度与所述话语的第一声学类别的模型和第二声学类别的模型中的幅度进行比较。


4.根据任一前述权利要求所述的方法,包括针对信道和/或噪声补偿所接收的音频信号。


5.根据任一前述权利要求所述的方法,包括:
对所接收的音频信号执行说话人标识过程,以形成关于说话人的身份的临时决定;
基于关于所述说话人的身份的临时决定,从多个模型中选择所述已注册用户的话语的第一声学类别的模型和第二声学类别的模型;
针对信道和/或噪声来补偿所接收的音频信号;以及
对经补偿的所接收的音频信号执行第二说话人标识过程,以形成所述说话人的身份的最终结论。


6.根据权利要求5所述的方法,其中针对信道和/或噪声来补偿所接收的音频信号包括:
标识所接收的音频信号中噪声水平超过阈值水平的频谱的至少一部分;以及
在执行所述第二说话人标识过程时,忽略所接收的音频信号的频谱的已标识部分。


7.根据权利要求1至6中的任一项所述的方法,其中所述话语的第一声学类别和第二声学类别包括浊音话语和清音话语。


8.根据权利要求1至6中的任一项所述的方法,其中所述话语的第一声学类别和第二声学类别包括第一音素类别和第二音素类别。


9.根据权利要求1至6中的任一项所述的方法,其中所述话语的第一声学类别和第二声学类别包括第一摩擦音和第二摩擦音。


10.根据权利要求1至6中的任一项所述的方法,其中所述话语的第一声学类别和第二声学类别包括摩擦音和咝擦音。


11.一种用于分析音频信号的系统,该系统包括用于接收音频信号的输入,且被配置用于:
接收代表话语的音频信号;
提取所述音频信号中分别代表所述话语的第一声学类别和第二声学类别的第一分量和第二分量;
用已注册用户的话语的第一声学类别的模型和第二声学类别的模型来分析所述音频信号的第一分量和第二分量;以及
基于所述分析,获得关于影响所述音频信号的信道和噪声中的至少一个的信息。


12.一种包括根据权利要求1至10中的任一项所述的系统的设备。


13.根据权利要求12所述的设备,其中所述设备包括移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。


14.一种计算机程序产品,包括计算机可读有形介质,以及用于执行根据权利要求1至10中的任一项所述的方法的指令。


15.一种非暂时性计算机可读存储介质,在所述非暂时性计算机可读存储介质上存储有计算机可执行指令,当由处理器电路系统执行所述计算机可执行指令时,所述计算机可执行指令使所述处理器电路系统执行根据权利要求1至10中的任一项所述的方法。


16.一种确定所接收的信号是否可能由重放攻击引起的方法,该方法包括:
接收代表话语的音频信号;
获得关于影响所述音频信号的信道的信息;以及
确定所述信道是否具有扬声器的至少一个特性。


17.根据权利要求16所述的方法,其中确定所述信道是否具有扬声器的至少一个特性包括:
确定所述信道是否具有低频滚降。


18.根据权利要求17所述的方法,其中确定所述信道是否具有低频滚降包括对于低于下限截止频率的频率,确定所述信道是否以一恒定的速率减小。


19.根据权利要求16或17所述的方法,其中确定所述信道是否具有扬声器的至少一个特性包括:
确定所述信道是否具有高频滚降。


20.根据权利要求19所述的方法,其中确定所述信道是否具有高频滚降包括对于高于上限截止频率的频率,确定所述信道是否以一恒定的速率减小。


21.根据权利要求16、17或19所述的方法,其中确定所述信道是否具有扬声器的至少一个特性包括:
确定所述信道在其通带中是否具有纹波。


22.根据权利要求21所述的方法,其中确定所述信道在其通带中是否具有纹波包括确定在所述通带的中心部分上的纹波的程度是否超过一个阈值量,所述纹波的程度例如为从100Hz至10kHz。


23.一种用于确定所接收的信号是否可...

【专利技术属性】
技术研发人员:J·P·莱索
申请(专利权)人:思睿逻辑国际半导体有限公司
类型:发明
国别省市:英国;GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1