言语信号调平制造技术

技术编号:23563968 阅读:20 留言:0更新日期:2020-03-25 08:23
言语信号调平系统和方法包括:通过对输入信号施加频率相关或与频率无关的可控增益来生成输出信号,所述增益取决于增益控制信号;以及生成指示所述输入信号中所包含的语音分量的至少一个言语检测信号。所述系统和方法还包括:基于所述输入信号和所述至少一个言语检测信号来生成所述增益控制信号;控制可控增益块以放大或衰减所述输入信号以具有预定均值或最大或绝对峰值信号电平,前提是在所述输入信号中检测到语音分量。

Speech signal leveling

【技术实现步骤摘要】
【国外来华专利技术】言语信号调平专利技术背景1.
本公开涉及用于言语信号调平的系统和方法(通常被称为“系统”)。2.相关技术在诸如言语识别和免提通信的言语信号处理中,充分调平的输出言语信号对于言语识别系统的适当识别率或免提系统的远端侧的适当清晰度至关重要。在简易方法中,自动增益控制(AGC)可以基于(峰值)限幅器,所述限幅器的(输入)增益以如下方式设定:即使轻声地说出或从远距离处说出,言语也被放大以便仍然传送充分调平的输出信号,即,言语信号,所述言语信号的峰值在理想情况下为可接受的最大振幅范围的满刻度。另一方面,限幅器会将在较近距离处以响亮语音说出的任何言语衰减到满刻度。通过这种方式,如果讲话者离输入传声器的距离较短,则信噪比(SNR)将会降低,因为限幅器会更频繁地处于活动状态使得与超出满刻度并被(峰值)限幅器限制为满刻度的言语相比,没有限制非所需噪声和/或残留回声。然而,如果说话者离传声器太远或轻声地说话,则言语输出信号将不会达到满刻度,这可能会再次降低SNR。结果,需要一种自动地调整此类动态变化的情况的言语电平的言语信号调平器。
技术实现思路
一种言语信号调平系统包括可控增益块,其被配置为接收输入信号并通过对所述输入信号施加频率相关或与频率无关的可控增益来生成输出信号,所述增益取决于增益控制信号。所述系统还包括言语检测块,其被配置为接收所述输入信号并生成指示所述输入信号中所包含的语音分量的至少一个言语检测信号。所述系统还包括增益控制块,其被配置为接收所述输入信号和所述至少一个言语检测信号并基于所述输入信号和所述至少一个言语检测信号来生成所述增益控制信号。所述增益控制块还被配置为控制可控增益块以放大或衰减所述输入信号以具有预定均值或最大或绝对峰值信号电平,前提是在所述输入信号中检测到语音分量。一种言语信号调平方法包括:通过对输入信号施加频率相关或与频率无关的可控增益来生成输出信号,所述增益取决于增益控制信号;以及生成指示所述输入信号中所包含的语音分量的至少一个言语检测信号。所述方法还包括:基于所述输入信号和所述至少一个言语检测信号来生成所述增益控制信号;以及控制可控增益块以放大或衰减所述输入信号以具有预定均值或最大或绝对峰值信号电平,前提是在所述输入信号中检测到语音分量。在查阅以下详细描述和随附附图后,其他系统、方法、特征和优点将对所属领域技术人员明显或将变得明显。预期所有此类附加系统、方法、特征以及优点都包括在本描述中、在本专利技术的范围内并且受以下权利要求的保护。附图说明参考以下附图和描述可以更好地理解所述系统。附图中的部件不一定按比例绘制,而是重点放在说明本专利技术的原理上。此外,在附图中,相同的附图标记在所有不同视图中指示对应部分。图1是示出示例性言语调平系统的信号处理结构和信号流的简化示意图。图2是示出图1中所示的言语调平系统的示例性实现方式的信号处理结构和信号流的详细示意图。图3是示出示例性言语调平方法的流程图。图4是示出另一种示例性言语调平系统的信号处理结构和信号流的简化示意图。图5是示出图4中所示的言语调平系统的示例性实现方式的信号处理结构和信号流的详细示意图。图6是示出图4中所示的言语调平系统的修改的信号处理结构和信号流的详细示意图。图7是示出图4中所示的言语调平系统的另一种修改的信号处理结构和信号流的详细示意图。具体实施方式在对示例性言语调平系统和方法的以下描述中,块被理解为具有以下至少一者的硬件系统或其元件:执行软件的处理单元(诸如控制器、处理器等)和用于实施所需信号传输或处理功能的专用电路结构。块可以彼此连接或以另一种方式可操作地彼此耦合,以提供特定信号流结构并生成特定信号,如下详述。言语(语音)的特性是存在无声间隔(空白停顿)和没有词汇含义的发音(有声停顿)。空白停顿和有声停顿有可能边界重合,被实现为长度可变的在子句和段落级别的无声间隔,并且通常标记叙事单元的边界。言语中的停顿通常是可归因于身体、社会心理、交际、语言学和认知原因的多因现象。图1是示出示例性言语调平系统(其可以执行示例性言语调平方法)的信号处理结构和信号流的示意图。图1中所示的言语调平系统包括接收输入信号x(n)并提供输出信号y(n)的可控增益块101(例如,可控放大器、可控衰减器、可控滤波器、乘法器等)。输出信号y(n)是已施加了频率相关或与频率无关的可控增益G的输入信号x(n)。可控增益块101(即,其增益G)通过增益控制信号g(n)来控制。输入信号x(n)还被供应给言语检测块102,所述言语检测块生成指示输入信号x(n)中所包含的语音分量的至少一个言语检测信号。在所示的示例性系统中,提供了两个言语检测信号(语音活动检测信号VAD(n)(例如,VAD标志)和言语停顿检测信号SPD(n)(例如,SPD标志)),所述两个言语检测信号的生成和特性在下面进一步详细说明。输入信号x(n)还被供应给增益控制块103,所述增益控制块另外接收言语检测信号并基于输入信号x(n)和一个或多个言语检测信号(例如,语音活动检测信号VAD(n)和任选地言语停顿检测信号SPD(n))来生成增益控制信号g(n)。增益控制块103控制可控增益块101,使得将输入信号x(n)放大或衰减以具有预定均值或最大或绝对峰值信号电平,前提是在输入信号x(n)中没有检测到语音分量。例如,可以阻止输入信号x(n),即,输出信号y(n)为(几乎为)零,前提是在输入信号x(n)中没有检测到语音分量。图1中所示的言语调平系统还可以包括任选的延迟块104,所述延迟块在将输入信号x(n)供应给可控增益块101之前将其延迟某个时间(例如,某个数量的帧或样本)使得供应给可控增益块101的输入信号x(n)相对于输入信号x(n)被提供给言语检测块102和增益控制块103时有延迟。下面进一步概述了可以利用延迟块104的情况。言语检测块102还可以例如从寄存器或存储器(都未示出)接收SNR阈值VadSnrTH、阈值VadTH以及计时器值Vad计时器用于语音活动检测,以及任选地接收SNR阈值SpdSnrTH、阈值SpdTH以及计时器值SpdTimer用于任选的言语停顿检测。此外,最小噪声阈值MinNoise、初始均方根(RMS)值RmsInit_dB、均方根阈值RMSTH以及阈值MaxAbsPeak中的至少一者可以被提供给言语检测块102。增益控制块103还可以例如从寄存器或存储器(都未示出)接收任选的平滑时间参数τ平滑,调谐参数MaxVadGain和调谐参数MaxSpdGain中的至少一者,以及参考电平RefLevel或参考峰值电平RefPeakLevel。任选地,(峰值)限幅器块105可以可操作地连接在可控增益块101的下游以接收输出信号y(n)并提供受限的输出信号Out(n)。(峰值)限幅器块105还可以接收预定限幅器增益LimGain、限幅器阈值LimTh、上升时间AttackT和释放时间ReleaseT。图2是示出另一种示例性言语调平系统(其执行另本文档来自技高网...

【技术保护点】
1.一种言语信号调平系统,其包括:/n可控增益块,其被配置为接收输入信号并通过对所述输入信号施加频率相关或与频率无关的可控增益来生成输出信号,所述增益取决于增益控制信号;/n言语检测块,其被配置为接收所述输入信号并生成指示所述输入信号中所包含的语音分量的至少一个言语检测信号;以及/n增益控制块,其与所述可控增益块和所述言语检测块可操作地耦合,所述增益控制块被配置为接收所述输入信号和所述至少一个言语检测信号,并基于所述输入信号和所述至少一个言语检测信号来生成所述增益控制信号;其中所述增益控制块还被配置为如果所述输入信号中检测到语音分量则控制所述可控增益块以放大或衰减所述输入信号以具有预定均值或最大或绝对峰值信号电平。/n

【技术特征摘要】
【国外来华专利技术】20170718 EP 17181799.21.一种言语信号调平系统,其包括:
可控增益块,其被配置为接收输入信号并通过对所述输入信号施加频率相关或与频率无关的可控增益来生成输出信号,所述增益取决于增益控制信号;
言语检测块,其被配置为接收所述输入信号并生成指示所述输入信号中所包含的语音分量的至少一个言语检测信号;以及
增益控制块,其与所述可控增益块和所述言语检测块可操作地耦合,所述增益控制块被配置为接收所述输入信号和所述至少一个言语检测信号,并基于所述输入信号和所述至少一个言语检测信号来生成所述增益控制信号;其中所述增益控制块还被配置为如果所述输入信号中检测到语音分量则控制所述可控增益块以放大或衰减所述输入信号以具有预定均值或最大或绝对峰值信号电平。


2.如权利要求1所述的系统,其中
所述言语检测块还被配置为生成指示所述输入信号中所包含的语音分量的语音活动检测信号和指示在所述输入信号中发生言语停顿的言语停顿检测信号中的至少一者;以及
所述增益控制块还被配置为基于所述语音活动检测信号和所述言语停顿检测信号中的至少一者来生成所述增益控制信号。


3.如权利要求2所述的系统,其中所述言语检测块还被配置为:
从所述输入信号确定所述输入信号的至少两个频带的至少两个信噪比;
将所述至少两个信噪比与用于语音活动检测的信噪比阈值和用于言语停顿检测的信噪比阈值进行比较;
提供指示所述至少两个信噪比是否大于用于语音活动检测的所述信噪比阈值的第一信号,以及指示所述至少一个信噪比是否大于用于言语停顿检测的所述信噪比阈值的第二信号;以及
对所述第一信号求和以提供第一和信号并对所述第二信号求和以提供第二和信号;其中
用于语音活动检测的所述信噪比阈值大于用于言语停顿检测的所述信噪比阈值。


4.如权利要求3所述的系统,其中所述言语检测块还被配置为:
确定所述输入信号的均方根值或最大绝对峰值;
将所述输入信号的所述均方根值与均方根阈值进行比较,或者将所述最大绝对峰值与最大绝对峰值阈值进行比较;以及
进行将所述第一和信号与语音活动检测阈值进行比较和将所述第二和信号与言语停顿检测阈值进行比较中的至少一项;其中所述言语检测块还被配置为进行以下至少一项:
如果所述第一和信号超过所述语音活动检测阈值并且所述均方根值超过所述均方根阈值或所述最大绝对峰值超过所述最大绝对峰值阈值,则提供表示第一逻辑状态的更新后第一和信号,否则提供表示第二逻辑状态的更新后第一和信号;以及
如果所述第二和信号超过所述言语停顿检测阈值并且所述均方根值超过所述均方根阈值或所述最大绝对峰值超过所述最大绝对峰值阈值,则提供表示第一逻辑状态的更新后第二和信号,否则提供表示第二逻辑状态的更新后第二和信号。


5.如权利要求1或2所述的系统,其中所述增益控制块还被配置为:
确定指示所述输入信号的均方根的均值信号,用滤波器将所述均值信号平滑化以提供平滑均值信号;以及采取参考均值电平与所述平滑均值信号之间的比率以提供所述增益控制信号;或者
确定指示所述输入信号的最大绝对峰值的最大绝对峰值信号,用滤波器将所述最大绝对峰值信号平滑化以提供平滑最大绝对峰值信号;以及采取参考最大绝对峰值电平与所述平滑最大绝对峰值信号之间的比率以提供所述增益控制信号。


6.如权利要求1至5中的任一项所述的系统,其中所述增益控制块还被配置为进行以下至少一项:
将所述可控增益块的所述增益控制为处于或低于预定第一增益阈值;以及
将所述可控增益块的所述增益控制为处于或低于第二增益阈值,所述第二增益阈值取决于所述至少一个言语检测信号;以及
如果在所述输入信号中没有检测到语音分量,控制所述可控增益块的所述增益以阻止所述输入信号使得没有输出信号被提供。


7.如权利要求1至6中的任一项所述的系统,其中所述系统被配置为使得用于将所述输入信号传输到所述可控增益块的时间等于用于在所述...

【专利技术属性】
技术研发人员:M克里斯托夫
申请(专利权)人:哈曼贝克自动系统股份有限公司
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利