多模式空间音频编码的舒适噪声生成制造技术

技术编号：40711006 阅读：6 留言：0更新日期：2024-03-22 11:12

提供了一种用于生成舒适噪声的方法。该方法包括：针对第一空间音频编码模式下的至少一个音频信号提供背景噪声参数的第一集合N<subgt;1</subgt;；以及针对第二空间音频编码模式下的至少一个音频信号提供背景噪声参数的第二集合N<subgt;2</subgt;。第一空间音频编码模式用于活动段；第二空间音频编码模式用于非活动段。该方法还包括：使背景噪声参数的第一集合N<subgt;1</subgt;适配于第二空间音频编码模式，从而提供适配的背景噪声参数的第一集合该方法还包括：通过在转换周期内组合和N<subgt;2</subgt;来生成舒适噪声参数。该方法还包括：基于舒适噪声参数来生成舒适噪声。

全部详细技术资料下载

【技术实现步骤摘要】

公开了与多模式空间音频不连续传输(dtx)和舒适噪声生成相关的实施例。

技术介绍

1、尽管电信网络中的容量在不断增加，但是限制每个通信信道所需的带宽仍然令人非常关注。在移动网络中，针对每个呼叫的传输带宽较小意味着移动网络可以并行服务于大量用户。降低传输带宽也会在移动设备和基站两者中产生较低的功耗。这转化为给移动运营商节约了能量和成本，而最终用户将经历延长的电池寿命和增加的通话时间。

2、用于减少语音通信中的传输带宽的一种这样的方法是利用语音中的自然停顿。在大多数对话中，一次仅一个讲话者是活动的；因此在一个方向上的语音停顿通常会占据信号的一半以上。使用典型对话的这一属性来减小传输带宽的方法是采用不连续传输(dtx)方案，其中在语音停顿期间中断活动信号编码。针对所有3gpp移动电话标准(包括2g、3g和volte)对dtx方案进行了标准化。它也通常用于ip语音(voip)系统。

3、在语音停顿期间，通常发送背景噪声的极低比特率编码，以允许接收端中的舒适噪声发生器(cng)使用具有与原始噪声相似特性的背景噪声来填充停顿。cng使声音更自然，因为背景噪声被保持并且不随着语音而开启和关闭。非活动段(例如，语音中的停顿)中的完全静音感知起来是恼人的，并且经常导致误解呼叫已中断。

4、dtx方案可以包括语音活动检测器(vad)，vad向系统指示是使用活动信号编码方法(当检测到语音活动时)还是使用低速率背景噪声编码(当未检测到语音活动时)。这在图1中示意性地示出。系统100包括vad 102、语音/音频编码器

5、可以通过支持立体声或多声道音频传输来进一步增强通信服务。对于立体声传输，一种解决方案是使用两个单声道编解码器，该两个单声道编解码器独立地对立体声信号的左部分和右部分进行编码。通常更高效的更复杂解决方案是组合对左输入信号和右输入信号的编码，即所谓的联合立体声编码。术语信号和声道在许多情况下可以互换使用来表示音频声道的信号，例如立体声音频的左声道和右声道的信号。

技术实现思路

1、常见的舒适噪声(cn)生成方法(其用于所有3gpp语音编解码器)是发送与语音停顿中的背景噪声的能量和频谱形状有关的信息。这可以使用比语音段的常规编码数量明显更少的比特来完成。在接收机侧，通过以下方式来生成cn：创建伪随机信号，然后基于从发送侧接收的信息来使用滤波器对信号的频谱进行整形。该信号生成和频谱整形可以在时域或频域中完成。

2、在典型的dtx系统中，容量增益部分地来自于使用比常规编码少的比特来对cn进行编码的事实，但主要来自于cn参数通常不像常规编码参数那样频繁地发送的事实。这通常运行良好，因为背景噪声特征的变化不像例如语音信号那样快。编码的cn参数在通常被称为“sid帧”的地方中被发送，其中sid表示静音描述符。典型的情况是，cn参数在每第8语音编码器帧发送，其中，一个语音编码器帧通常是20ms。cn参数然后用作接收机中cng的基础，直到接收到下一个cn参数集。图2示意性地示出了这一点，示出了当“活动编码”开启(也被称为活动段或活动编码段)时，不存在“cn编码”，并且当“活动编码”未开启(也被称为非活动段或非活动编码段)时，然后“cn编码”在每第8帧间歇地进行。

3、避免cn中不期望的波动的一种解决方案是在所有8个语音编码器帧期间对cn参数进行采样，然后发送基于(例如，通过平均)所有8个帧的参数。图3示意性地示出了这一点，示出了8个帧上的平均间隔。尽管8个帧的固定sid间隔对于语音编解码器来说是典型的，但可以使用更短或更长的间隔来发送cng参数。sid间隔也可以例如基于信号特性随时间而变化，使得cn参数对于静止信号更新的频率较低，而对于变化信号更新的频率较高。

4、具有dtx系统的语音/音频编解码器合并用于对非活动段(例如，非语音段)进行编码的低比特率编码模式，从而允许解码器生成具有与输入信号特性相似的特性的舒适噪声。一个示例是3gpp evs编解码器。在evs编解码器中，在解码器中还存在以下功能：在活动段期间分析信号，并使用该分析的结果来改进下一个非活动段中舒适噪声的生成。

5、evs编解码器是多模式编解码器的示例，其中使用不同编码技术的集合来创建具有极大灵活性的编解码器，以处理例如不同的输入信号和不同的网络条件。未来的编解码器将甚至更加灵活，支持立体声和多声道音频以及虚拟现实场景。为了能够覆盖宽范围的输入信号，这种编解码器将使用若干种不同的编码技术，这些编码技术可以取决于例如输入信号和网络条件的特性来自适应地选择。

6、给定cn编码的特定目的并且期望保持cn编码的复杂度低，即使编码器合并了用于编码语音、音乐或其他信号的若干种不同模式，具有用于cn编码的一种特定模式也是合理的。

7、在理想情况下，从活动编码到cn编码的转换应该是听不见的，但这并不总是可以实现的。在使用不同于cn编码的编码技术对活动段进行编码的情况下，可听转换的风险更高。典型的示例如图4所示，其中，cn的电平高于前面的活动段。注意，尽管示出了一个信号，但所有声道都可以存在类似的可听转换。

8、通常，舒适噪声编码过程产生cn参数，其将允许解码器重新创建具有与输入信号的能量相对应的能量的舒适噪声。在一些情况下，修改舒适噪声的电平可以是有利的，例如稍微降低它以获得语音停顿中的噪声抑制效果或更好地匹配在活动信号编码期间正在再现的背景噪声的电平。

9、活动信号编码可以具有噪声抑制效果，该噪声抑制效果使再现的背景噪声的电平低于原始信号，特别是当噪声与语音混合时。这不一定是故意的设计选择；它可以是所使用的编码方案的副作用。如果该电平降低是固定的或对于特定编码模式或通过解码器中已知的其他方式是固定的，则可以将舒适噪声的电平降低相同的量以使从活动编码到舒适噪声的转换平滑。但是，如果电平降低(或增加)是信号相关的，则当编码从活动编码切换到cn编码时，可能存在能量的阶跃。这种能量的阶梯式变化将被收听者感知为是恼人的，特别是在舒适噪声的电平高于在舒适噪声之前的活动编码中的噪声的电平的情况下。

10、联合多声道音频编解码器(例如，立体声编解码器)可能出现另外的困难，其中，不仅需要考虑单声道信号特性，而且需要考虑诸如声道间电平差、声道间相干性等的空间特性。对于这种多声道信号的编码和表示，由于声道之间的冗余，对每个声道的单独编码(包括dtx和cng)不是高效的。作为替代，各种多声道编码技术可以用于更高效的表示本文档来自技高网...

【技术保护点】

1.一种解码器(1300)，被配置为：

2.根据权利要求1所述的解码器，其中，针对所述至少一个输出音频声道生成舒适噪声包括：将所生成的舒适噪声参数应用于至少一个中间音频信号。

3.根据权利要求2所述的解码器，其中，针对所述至少一个输出音频声道生成舒适噪声包括对所述至少一个中间音频信号的上混。

4.根据权利要求1至3中任一项所述的解码器，其中，所述至少一个音频信号基于至少两个输入音频声道的信号，并且其中，所述背景噪声参数的第一集合N1和所述背景噪声参数的第二集合N2各自基于单个音频信号，其中，所述单个音频信号基于对所述至少两个输入音频声道的信号的下混。

5.根据权利要求1至4中任一项所述的解码器，其中，获得背景噪声参数的第一集合N1包括从节点接收所述背景噪声参数的第一集合N1，以及其中，获得背景噪声参数的第二集合N2包括从所述节点接收所述背景噪声参数的第二集合N2。

6.根据权利要求5所述的解码器，其中，所述节点包括编码器。

7.根据权利要求1所述的解码器，其中，使所述背景噪声参数的第一集合N1适配于所述第二空

8.根据权利要求7所述的解码器，其中，所述变换函数包括N1、NS1和NS2的函数，其中，NS1包括指示所述第一空间音频编码模式的背景噪声的下混和/或空间特性的空间编码参数的第一集合，以及NS2包括指示所述第二空间音频编码模式的背景噪声的下混和/或空间特性的空间编码参数的第二集合。

9.根据权利要求7至8中任一项所述的解码器，其中，应用所述变换函数包括计算其中，Strans是标量补偿因子。

10.根据权利要求9所述的解码器，其中，Strans具有以下值：

11.根据权利要求9所述的解码器，其中，Strans具有以下值：

12.根据权利要求1至11中任一项所述的解码器，其中，所述转换周期是固定长度的非活动帧。

13.根据权利要求1至11中任一项所述的解码器，其中，所述转换周期是可变长度的非活动帧。

14.根据权利要求1至13中任一项所述的解码器，其中，通过在转换周期内组合所述适配的背景噪声参数的第一集合和所述背景噪声参数的第二集合N2来生成舒适噪声参数包括：应用和N2的加权平均。

15.根据权利要求1至14中任一项所述的解码器，其中，通过在转换周期内组合所述适配的背景噪声参数的第一集合和所述背景噪声参数的第二集合N2来生成舒适噪声参数包括计算：

16.根据权利要求1至14中任一项所述的解码器，其中，通过在转换周期内组合所述适配的背景噪声参数的第一集合和所述背景噪声参数的第二集合N2来生成舒适噪声参数包括计算：

17.根据权利要求16所述的解码器，其中，生成舒适噪声参数包括针对频率子带b的至少一个频率系数kb计算：

18.根据权利要求15至17中任一项所述的解码器，其中，k被确定为：

19.根据权利要求1至13中任一项所述的解码器，其中，通过在转换周期内组合所述适配的背景噪声参数的第一集合和所述背景噪声参数的第二集合N2来生成舒适噪声包括：应用和N2的非线性组合。

20.根据权利要求1至19中任一项所述的解码器，还包括：确定通过在转换周期内组合所述适配的背景噪声参数的第一集合和所述背景噪声参数的第二集合N2来生成舒适噪声参数，其中，通过在转换周期内组合所述适配的背景噪声参数的第一集合和所述背景噪声参数的第二集合N2来生成舒适噪声参数是作为确定通过在转换周期内组合所述适配的背景噪声参数的第一集合和所述背景噪声参数的第二集合N2来生成舒适噪声参数的结果而执行的。

21.根据权利要求20所述的解码器，其中，确定通过在转换周期内组合所述适配的背景噪声参数的第一集合和所述背景噪声参数的第二集合N2来生成舒适噪声参数是基于评估主要声道的第一能量和次要声道的第二能量。

22.根据权利要求1至21中任一项所述的解码器，其中，所述背景噪声参数的第一集合N1、所述背景噪声参数的第二集合N2、以及所述适配的背景噪声参数的第一集合中的一个或多个包括描述信号特性和/或空间特性的一个或多个参数，所述一个或多个参数包括以下中的一个或多个：(i)表示信号能量和频谱形状的线性预测系数；(ii)激发能；(iii)声道间相干性；(iv)声道间电平差；以及(v)边增益参数。

...

【技术特征摘要】

1.一种解码器(1300)，被配置为：

2.根据权利要求1所述的解码器，其中，针对所述至少一个输出音频声道生成舒适噪声包括：将所生成的舒适噪声参数应用于至少一个中间音频信号。

3.根据权利要求2所述的解码器，其中，针对所述至少一个输出音频声道生成舒适噪声包括对所述至少一个中间音频信号的上混。

4.根据权利要求1至3中任一项所述的解码器，其中，所述至少一个音频信号基于至少两个输入音频声道的信号，并且其中，所述背景噪声参数的第一集合n1和所述背景噪声参数的第二集合n2各自基于单个音频信号，其中，所述单个音频信号基于对所述至少两个输入音频声道的信号的下混。

5.根据权利要求1至4中任一项所述的解码器，其中，获得背景噪声参数的第一集合n1包括从节点接收所述背景噪声参数的第一集合n1，以及其中，获得背景噪声参数的第二集合n2包括从所述节点接收所述背景噪声参数的第二集合n2。

6.根据权利要求5所述的解码器，其中，所述节点包括编码器。

7.根据权利要求1所述的解码器，其中，使所述背景噪声参数的第一集合n1适配于所述第二空间音频编码模式包括应用变换函数。

8.根据权利要求7所述的解码器，其中，所述变换函数包括n1、ns1和ns2的函数，其中，ns1包括指示所述第一空间音频编码模式的背景噪声的下混和/或空间特性的空间编码参数的第一集合，以及ns2包括指示所述第二空间音频编码模式的背景噪声的下混和/或空间特性的空间编码参数的第二集合。

9.根据权利要求7至8中任一项所述的解码器，其中，应用所述变换函数包括计算其中，strans是标量补偿因子。

10.根据权利要求9所述的解码器，其中，strans具有以下值：

11.根据权利要求9所述的解码器，其中，strans具有以下值：

12.根据权利要求1至11中任一项所述的解码器，其中，所述转换周期是固定长度的非活动帧。

13.根据权利要求1至11中任一项所述的解码器，其中，所述转换周期是可变长度的非活动帧。

14.根据权利要求1至13中任一项所述的解码器，其中，通过在转换周期内组合所...

【专利技术属性】
技术研发人员：托马斯·詹森托夫特戈德，查尔斯·基努西亚，弗雷德里克·詹森，
申请(专利权)人：瑞典爱立信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人