用于音频信号的改进的语音/噪音分类的复合信号激活探测制造技术

技术编号:3045730 阅读:170 留言:0更新日期:2012-04-11 18:40
通过确认音频信号是否包括非语音信息(122、124、125)可在对音频信号进行编码期间保留可感知相关非语音信息。如果这样,对音频信号的语音/噪音分类进行忽略(43),从而防止将音频信号误分类为噪音。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及声频信号压缩,特别涉及在对声频信号进行压缩时语音/噪音的分类。
技术介绍
语音编码器和译码器通常分别设置在无线电发射机和无线电接收机中,并且它们可以同时工作,从而可在给定的发射机和接收机之间沿着无线电通信线路进行语音(话音)通信。语音编码器和语音译码器的结合经常称之为语音编码译码器。移动无线电话(如蜂窝式移动电话)就是常规通信设备的一个例子,这种常规通信设备通常包括一个具有一语音编码器的无线电发射机和一个具有一语音译码器的无线电接收机。在常规的基于信息组的语音编码器中,引入的语音信号被分成若干块并将这种块称为帧。用于普通的4kHz电话带宽范围的帧长通常为20ms或160次采样。可将上述帧进一步分成一些子帧,其长度通常为5ms或40次采样。在对引入的音频信号进行压缩的过程中,语音编码器通常使用先进的有损压缩技术。通过一个信道如一条无线电通信线路将压缩的(或编码的)信号信息传送给译码器。然后译码器试图从引入的压缩信号信息中复制出输入音频信号。如果引入的音频信号的某些特征是公知的,则在信道中可保持尽可能低的位速率。如果音频信号包含与收听者相关的信息,则该信息会被保留下来。然而如果音频信号仅包含非相关信息(如背景噪音),则可以通过仅发射有限的关于信号的信息量来节省带宽。对于仅包含非相关信息的许多信号,非常低的位速率经常可达到高性能压缩。在极端的情况中,可在译码器中通过上述信道对输入信号进行合成而不进行任何信息的更新,直到重新确定输入的声频信号包括相关的信息为止。可以方便地利用非常低的位速率十分精确地复制出的典型信号包括恒定噪音、汽车噪音,在某种程度上还包括一些多路重合噪音。对于更复杂的非语音信号像音乐或语音和音乐的合成,要求通过译码器利用更高的位速率对其进行准确复制。对于许多通常类型的背景噪音,需要更低的语音位速率,以得到足够好的信号模型。目前的移动系统利用了在背景噪音持续的过程中下调发射的位速率这一事实。例如在使用连续发射技术的常规系统中,可变速率(VR)语音编码器可使用其最低的位速率。在常规的非连续发射(DTX)方案中,当讲演者停顿时发射机就停止发送编码的语音帧。在规则或不规则间隔内(例如每100ms到500ms),发射机发送适合于在译码器中产生常规的柔和噪音的语音参数。这些适合产生柔和噪音(CNG)的参数通常被编码成有时称之为静寂描述符(SID)帧的信号。在接收机处,译码器利用在SID帧中接收到的柔和噪音参数并通过常规柔和噪音注入(CNI)算法来合成仿真噪音。在常规的DTX系统中的译码器内产生柔和噪音时,通常可以感觉到这种噪音变化非常小,并与在有源模式(非DTX)下产生的背景噪音有很大的不同。产生这种感觉的原因是DTX SID帧并没有像正常的语音帧那样经常地向接收机发送。在具有DTX模式的常规线性预测合成分析(LPAS)编码译码器中,常需在数帧范围内对背景噪音的频谱和能量进行估算(例如平均值),然后将估算的参数在SID帧内量化并将其通过信道传送给译码器。发送具有较低更新率的SID帧而不发送规则语音帧的好处有两方面。例如由于更低的能量消耗而使移动式无线电收发信机中的电池寿命得以延长,而且由发射机引起的干扰下降从而提高了系统的容量。如果利用一种相当简单的压缩模式对复合信号如音乐进行压缩,并且相应的位速率也相当低,则在译码器中复制出的信号与使用较好(较高质量)压缩技术而获得的结果有很大的不同。通过对复合信号误分类噪音可使用相当简单的压缩方案。当出现这种误分类时,不仅译码器输出拙劣的复制信号,而且不利的是误分类本身导致从较高质量的压缩方案转换到较低质量的压缩方案。为了修正上述误分类,需要再转回到较高质量方案的。如果在压缩方案之间的这种转换经常发生,则收听者通常能听得见并感到很刺耳。从前述可知,在适当的情况下,如在演讲者停顿期间对背景噪音进行压缩,仍保持低位速率(高压缩率)时,需要减少主观上相关信号误分类。可利用非常强的压缩技术从而使得收听者不会感到刺耳。在DTX系统中使用如上所述的柔和噪音参数就是强压缩技术的一个例子,就象利用随机激励方法的常规低速率线性预测编码(LPC)那样。利用强压缩技术的编码技术通常只可以精确地复制出可感知的简单噪音类型如稳定的汽车噪音、街道噪音、餐馆噪音(混串音)和其它类似的信号。用于确定输入声频信号是否包含相关信息的常规分类技术主要基于输入声频信号的较简单的稳态分析。如果确定输入信号为稳定的,则假定其为类似噪音的信号。然而,单单是这种常规稳态分析会引起复合信号,上述复合信号相当稳定,但实际上包含被误分类为噪音的可感知的相关信息。不利的是这种误分类可引起如上所述的问题。
技术实现思路
因此需要一种分类技术,这种分类技术能可靠地检测到上述类型的复合信号内的可感知相关信息的存在。本专利技术提供了复合信号激活检测,其能可靠地检测到复合非语音信号,这些非语音信号包括对收听者感知重要的相关信息。能被可靠地检测到的复合非语音信号的例子包括音乐、曲维持乐〔musie on-hold〕、语音与音乐的组合、背景中的音乐以及其它音调或泛音声音。附图说明图1示意性地展示了根据本专利技术的一个示范性语音编码设备的相关部分;图2展示了图1中的复合信号激活检测器的示范性实施例;图3展示了图1中的语音激活检测器的示范性实施例;图4展示了图1中的释放延迟逻辑块的示范性实施例;图5展示了图2中的参数发生器的示范性操作流程;图6展示了图2中的计数器控制器的示范性操作流程;图7展示了图2中的一个部分的示范性操作流程;图8展示了图2中的另一部分的示范性操作流程;图9展示了图3中的一个部分的示范性操作流程; 图10展示了图3中的计数器控制器的示范性操作流程;图11展示了图3中的另一部分的示范性操作流程;图12展示了可由图1~11中的实施例完成的示范性操作流程;图13展示了图2中的复合信号激活检测器的另一个实施例。具体实施例方式图1为示意性地展示了根据本专利技术的一个示范性语音编码设备的相关部分。这种语音编码设备例如可以安装在通过无线电通信信道进行声频信息传递的无线电接收机中。这种无线电接收机的一个例子是移动无线电话,如蜂窝式移动电话。在图1中,将输入声频信号输入到复合信号激活检测器(CAD)以及话音激活检测器(VAD)中。复合信号激活检测器CAD响应声频输入信号并进行相关性分析,从而确定输入信号是否包括收听者感知的相关信息,然后向VAD输出一组信号相关参数。VAD利用这些信号相关参数连同接收到的声频输入信号进行确定输入声频信号是语音还是噪音。VAD作为一个语音/噪音分类器;语音/噪音显示作为输出。CAD接收到语音/噪音显示并作为其输入。CAD响应语音/噪音显示和输入声频信号,产生一组输出到释放延迟逻辑块的复合信号标识,该释放延迟逻辑块也接收由VAD产生的语音/噪音显示作为其输入。释放延迟逻辑块响应复合信号标识和语音/噪音显示,并产生输出,该输出能指示出输入声频信号是否包括收听者能感觉到的相关信息,收听者将在信道的另一端听到在接收机中的译码设备输出的复制声频信号。例如释放延迟逻辑块的输出可适当地用于控制DTX的操作(在DTX系统中)或位速率(在可变速率VR编码器中)。如果释放延迟逻辑块的输出表明输入声频信号不包含相关本文档来自技高网
...

【技术保护点】
一种在对音频信号进行编码的期间将可感知相关非语音信息保留在音频信号中的方法:包括作出第一个关于所述音频信号是否包括语音或噪音信息的判断;作出第二个关于音频信号是否包括对收听者可感知相关的非语音信息的判断;以及根据第二个判断有选择地忽略所述第一判断。

【技术特征摘要】
US 1998-11-23 60/109556;US 1999-11-5 09/4347871.一种在对音频信号进行编码的期间将可感知相关非语音信息保留在音频信号中的方法包括作出第一个关于所述音频信号是否包括语音或噪音信息的判断;作出第二个关于音频信号是否包括对收听者可感知相关的非语音信息的判断;以及根据第二个判断有选择地忽略所述第一判断。2.如权利要求1所述的方法,其中所述作出第二判断的步骤包括将预定值与相关值相比较,该相关值与音频信号被分割成的相应的帧相关。3.如权利要求2所述的方法,其中所述有选择地忽略步骤包括根据一个相关值大于预定值而忽略所述第一判断。4.如权利要求2所述的方法,其中所述有选择地忽略步骤包括根据在给定的时间周期内相关值的预定数大于预定值而忽略所述第一判断。5.如权利要求4所述的方法,其中所述有选择地忽略步骤包括根据连续相关值的预定数大于预定值而忽略所述第一判断。6.如权利要求2所述的方法,包括对于每一帧探测到音频信号的高通滤波模型的最高标准相关值,所述最高标准相关值分别相应于所述第一次提及的相关值。7.如权利要求6所述的方法,其中所述探测步骤包括对于每一帧探测最大幅度标准相关值。8.如权利要求1所述的方法,其中所述有选择地忽略步骤包括根据可感知相关非语音信息的第二判断忽略噪音的第一判断。9.一种将可感知相关信息保留在音频信号中的方法,包括对于将音频信号被分割成的多个帧中的每一帧探测音频信号的高通滤波模型的最高标准相关值;产生所述标准相关值的第一序列;确定代表值的第二序列来分别表示第一序列的标准相关值;将代表值与阈值相比较从而得到音频信号是否包含可感知相关信息的指示。10.如权利要求9所述的方法,其中所述探测步骤包括将相关性分析应用到音频信号中而不产生音频信号的高通滤波模型。11.如权利要...

【专利技术属性】
技术研发人员:J斯维德伯格E伊库登A乌利登I约翰森
申请(专利权)人:艾利森电话股份有限公司
类型:发明
国别省市:SE[瑞典]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1