用于声音编解码器中的语音/音乐分类和核心编码器选择的方法和设备技术

技术编号：35811710 阅读：20 留言：0更新日期：2022-12-03 13:33

两阶段语音/音乐分类设备和方法分类输入声音信号，并选择用于编码声音信号的核心编码器。第一阶段将输入声音信号分类为多个最终分类之一。第二阶段提取输入声音信号的高级特征，并响应于所提取的高级特征和在第一阶段中选择的最终分类，选择用于编码输入声音信号的核心编码器。核心编码器。核心编码器。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于声音编解码器中的语音/音乐分类和核心编码器选择的方法和设备

[0001]本公开涉及声音编解码，更具体地，涉及语音/音乐分类和核心编码器选择，尤其但不排他地，涉及能够例如在复杂音频场景中以低比特率和低延迟产生良好声音质量的多声道声音编解码器。
[0002]在本公开和所附权利要求中：
[0003]‑
术语“声音”可以涉及语音、音频和任何其他声音；
[0004]‑
术语“stereo(立体声)”是“stereophonic(立体声)”的缩写；以及
[0005]‑
术语“mono(单声道)”是“monophonic(单声道)”的缩写。

技术介绍

[0006]历史上，会话电话是用仅具有一个换能器(transducer)的手机实现的，该换能器仅向用户的一只耳朵输出声音。在过去的十年中，用户已经开始结合耳机使用他们的便携式手机来通过他们的双耳接收声音，主要是为了听音乐，但有时也是为了听语音。然而，当使用便携式手机来发送和接收会话语音时，内容仍然是单声道的，但是当使用耳机时是被呈现给用户的双耳的。
[0007]利用最新的3GPP语音编解码标准，如参考文献[1](其全部内容通过引用方式并入本文)中描述的EVS(增强型语声服务)，通过便携式手机发送和接收的编解码声音(例如语音和/或音频)的质量已经得到了显著提高。下一步自然是发送立体声信息，使得接收器尽可能接近通信链路另一端捕捉到的真实生活音频场景。
[0008]在音频编解码器中，例如如参考文献[2](其全部内容...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种两阶段语音/音乐分类设备，用于分类输入声音信号，并选择用于编码声音信号的核心编码器，包括：第一阶段，用于将输入声音信号分类为多个最终分类之一；以及第二阶段，用于提取输入声音信号的高级特征，并响应于所提取的高级特征和在第一阶段中选择的最终分类，选择用于编码输入声音信号的核心编码器。2.根据权利要求1所述的两阶段语音/音乐分类设备，其中第一阶段包括基于相对帧能量的输入声音信号中的音节首/起音检测器。3.根据权利要求2所述的两阶段语音/音乐分类设备，其中，音节首/起音检测器在每一帧中更新当前帧中的输入声音信号的相对能量和先前帧中的输入声音信号的相对能量之间的差值的累积和。4.根据权利要求3所述的两阶段语音/音乐分类设备，其中，为了更新当前帧中的累积和，音节首/起音检测器添加(a)在先前帧中更新的累积和以及(b)当前帧中输入声音信号的相对能量和先前帧中输入声音信号的相对能量之间的差。5.根据权利要求3或4所述的两阶段语音/音乐分类设备，其中，仅当当前帧中的输入声音信号的相对能量大于先前帧中的输入声音信号的相对能量时，音节首/起音检测器才更新当前帧中的累积和。6.根据权利要求3至5中任一项所述的两阶段语音/音乐分类设备，其中，音节首/起音检测器使用所述累积和来更新音节首/起音帧的计数器，并且其中，在由状态机确定的输入声音信号的ENTRY状态下，如果所述累积和大于给定值，则计数器在每一帧中递增，否则被重置。7.根据权利要求3至6中任一项所述的两阶段语音/音乐分类设备，其中，如果所述累积和位于给定范围内，则音节首/起音检测器输出被设置为第一值的二进制标志，以指示检测到音节首/起音，并且否则，二进制标志被设置为第二值，以指示没有检测到音节首/起音。8.根据权利要求1至7中任一项所述的两阶段语音/音乐分类设备，其中，第一阶段包括包含梅尔频率倒谱系数特征的输入声音信号的特征的提取器。9.根据权利要求1至7中任一项所述的两阶段语音/音乐分类设备，其中第一阶段包括输入声音信号的至少一个以下特征的提取器：(a)开环基音特征；(b)语声测量特征；(c)与来自LP分析的线谱频率相关的特征；(d)与来自LP分析的残余能量相关的特征；(e)短期相关性图特征；(f)非平稳性特征；(g)梅尔频率倒谱系数特征；(h)功率谱差特征；以及(i)频谱平稳性特征。10.根据权利要求1至7中任一项所述的两阶段语音/音乐分类设备，其中第一阶段包括输入声音信号的特征的提取器，以及用于基于所提取的特征的直方图检测异常点特征的异常点检测器。
11.根据权利要求10所述的两阶段语音/音乐分类设备，其中异常点检测器为每个特征计算下限和上限，将特征值与下限和上限进行比较，并且将其值位于下限和上限之间定义的范围之外的特征标记为异常点特征。12.根据权利要求11所述的两阶段语音/音乐分类设备，其中，异常点检测器使用所述特征的直方图的归一化版本、包含所述特征的直方图的最大值的频率间隔的索引以及阈值来计算所述下限和上限。13.根据权利要求10至12中任一项所述的两阶段语音/音乐分类设备，其中，异常点检测器基于检测到的异常点特征的数量来确定特征的向量作为异常点。14.根据权利要求13所述的两阶段语音/音乐分类设备，其中异常点检测器不是丢弃异常点向量，而是用从至少一个先前帧获得的特征值替代所述向量中的异常点特征。15.根据权利要求13或14所述的两阶段语音/音乐分类设备，其中异常点检测器包括检测到的异常点特征的计数器，并且当检测到的异常点特征的数量等于或高于给定值时，将标志设置为给定值，以指示所述特征的向量是异常点。16.根据权利要求10至15中任一项所述的两阶段语音/音乐分类设备，其中第一阶段包括用于平滑所提取的特征的短期向量的过滤器。17.根据权利要求16所述的两阶段语音/音乐分类设备，其中过滤器是使用遗忘因子的无限脉冲响应过滤器。18.根据权利要求16或17所述的两阶段语音/音乐分类设备，其中，过滤器在由状态机确定的输入声音信号的ENTRY状态或ACTIVE状态的帧中不执行特征向量平滑，并且其中，当不执行特征向量平滑时，使用未过滤向量的特征值。19.根据权利要求1至18中任一项所述的两阶段语音/音乐分类设备，其中第一阶段包括非线性特征向量变换器，用于将从输入声音信号中提取的非正态特征变换成具有正态形状的特征。20.根据权利要求19所述的两阶段语音/音乐分类设备，其中所述非线性特征向量变换器使用Box
‑
Cox变换将非正态特征变换成具有正态形状的特征。21.根据权利要求20所述的两阶段语音/音乐分类设备，其中由非线性特征向量变换器执行的Box
‑
Cox变换使用具有指数的幂变换，并且其中指数的不同值定义不同的Box
‑
Cox变换曲线，并且其中非线性特征向量变换器基于正态性测试选择Box
‑
Cox变换的指数值。22.根据权利要求20或21所述的两阶段语音/音乐分类设备，其中由非线性特征向量变换器执行的Box
‑
Cox变换使用偏差来确保所提取的特征的所有输入值都是正的。23.根据权利要求21所述的两阶段语音/音乐分类设备，其中正态性测试产生偏斜和峰度测量，并且其中非线性特征向量变换器仅将Box
‑
Cox变换应用于满足与偏斜和峰度测量相关的条件的特征。24.根据权利要求1至23中任一项所述的两阶段语音/音乐分类设备，其中，第一阶段包括主成分分析器，以减少声音信号特征维度并增加声音信号分类判别性，其中，主成分分析器执行正交变换，以将从输入声音信号中提取的一组可能相关的特征转换成形成主成分的一组线性不相关的变量。25.根据权利要求24所述的两阶段语音/音乐分类设备，其中，主成分分析器通过去除所述输入声音信号的提取特征的向量的平均值并将所述向量缩放到单位方差来标准化所
述向量。26.根据权利要求25所述的两阶段语音/音乐分类设备，其中，主成分分析器使用以下关系式来变换特征向量：Y(n)＝W
T
X(n)其中X(n)是列特征向量，并且W是主成分分析载荷的矩阵，并且上标T指示向量转置。27.根据权利要求1至26中任一项所述的两阶段语音/音乐分类设备，其中第一阶段包括高斯混合模型(GMM)计算器，以确定与从输入声音信号中提取的给定特征向量由语音GMM生成的概率成比例的第一分数，以及与给定特征向量由音乐GMM生成的概率成比例的第二分数，其中GMM计算器通过计算这些第一分数和第二分数之间的差来组合第一分数和第二分数，以产生差分分数。28.根据权利要求27所述的两阶段语音/音乐分类设备，其中负差分分数指示输入声音信号是语音，并且正差分分数指示输入声音信号是音乐。29.根据权利要求27或28所述的两阶段语音/音乐分类设备，其中GMM计算器在计算第一分数和第二分数之间的差时使用决策偏差。30.根据权利要求29所述的两阶段语音/音乐分类设备，其中，GMM计算器从第二分数中减去第一分数，以计算第一分数和第二分数之间的差，并且其中，决策偏差是加到所述差上的非负值。31.根据权利要求29或30所述的两阶段语音/音乐分类设备，其中GMM计算器在训练数据库的活动帧中预测指示输入声音信号是语音、音乐或噪声信号的标签，并且其中GMM计算器使用所述标签来寻找决策偏差。32.根据权利要求29至31中任一项所述的两阶段语音/音乐分类设备，其中，GMM计算器使用决策偏差来计算差分分数，其中，所述差分分数具有限制在给定范围内的值。33.根据权利要求27至32中任一项所述的两阶段语音/音乐分类设备，其中第一阶段包括来自GMM计算器的差分分数的自适应平滑器。34.根据权利要求33所述的两阶段语音/音乐分类设备，其中自适应平滑器包括使用遗忘因子的无限脉冲响应(IIR)过滤器。35.根据权利要求34所述的两阶段语音/音乐分类设备，其中自适应平滑器使用与当前帧的相对能量成线性比例并限制在给定区间内的第一参数来计算遗忘因子。36.根据权利要求34或35所述的两阶段语音/音乐分类设备，其中自适应平滑器使用与差分分数的导数成比例的第二参数来计算遗忘因子。37.根据权利要求36所述的两阶段语音/音乐分类设备，其中自适应平滑器使用以下操作中的至少一个来计算第二参数：(a)计算差分分数的短期均值；(b)如果差分分数小于0并且小于短期均值，则将第二参数设置为0；(c)在第一帧中，如果差分分数小于0且小于短期均值，且短期均值大于0，则将第二参数设置为减去差分分数；否则，自适应平滑器增加第二参数；(d)如果差分分数不小于0和短期均值，则将第二参数重置为0；以及(e)最后将第二参数映射到给定区间。38.根据权利要求34至37中任一项所述的两阶段语音/音乐分类设备，其中自适应平滑
器使用第三参数来计算遗忘因子，所述第三参数对指示潜在音乐音节首的差分分数的突然上升做出反应。39.根据权利要求38所述的两阶段语音/音乐分类设备，其中自适应平滑器使用以下操作中的至少一个来计算第三参数：(a)计算差分分数的短期均值；(b)将第三参数设置为0，但是如果(a)输入声音信号处于由状态机确定的ACTIVE状态，(b)短期均值大于0，以及(c)当前帧中的短期均值大于先前帧中的短期均值，则修改第三参数；(c)在第一帧中，如果(a)输入声音信号处于ACTIVE状态，(b)当前帧中的短期均值大于0，(c)当前帧中的短期均值大于先前帧中的短期均值，以及(d)先前帧中的短期均值小于0，则将第三参数设置为减去短期均值；否则，自适应平滑器增加第三参数；(d)如果(a)输入声音信号不处于ACTIVE状态，(b)短期均值不大于0，以及(c)当前帧中的短期均值不大于先前帧中的短期均值，则将第三参数重置为0；以及(e)最后将第三个参数映射到给定区间。40.根据权利要求34至39中任一项所述的两阶段语音/音乐分类设备，其中，自适应平滑器分析差分分数的长期均值和长期方差，并执行以下操作中的至少一个：(a)如果状态机确定输入声音信号处于ENTRY状态，则将差分分数的长期均值和长期方差设置为0；(b)计算对应于差分分数的长期标准方差的长期均值
‑
长期方差比；(c)在长期标准方差大于给定值的帧中减少遗忘因子；以及(d)将IIR过滤器的遗忘因子限制在给定范围内。41.根据权利要求1至40中任一项所述的两阶段语音/音乐分类设备，其中，所述多个最终分类包括与语音相关的第一最终分类、与音乐相关的第二最终分类和与带有背景音乐的语音相关的第三最终分类。42.根据权利要求27至40中任一项所述的两阶段语音/音乐分类设备，其中第一阶段包括将输入声音信号分类为三个最终分类之一的依赖状态的类别分类器，这三个最终分类包括SPEECH/NOISE、MUSIC和UNCLEAR，其中最终分类UNCLEAR与带有背景音乐的语音相关。43.根据权利要求42所述的两阶段语音/音乐分类设备，其中当在当前帧中，输入声音信号处于由状态机确定的ENTRY状态时，依赖状态的类别分类器基于在当前帧之前的ENTRY状态的帧中计算的差分分数的加权平均值，选择三个最终分类SPEECH/NOISE、MUSIC和UNCLEAR之一。44.根据权利要求43所述的两阶段语音/音乐分类设备，其中，如果在当前帧中，绝对帧能量低于给定值，则依赖状态的类别分类器将最终分类设置为SPEECH/NOISE。45.根据权利要求43或44所述的两阶段语音/音乐分类设备，其中，如果在输入声音信号的ENTRY状态中的帧中的差分分数的加权平均值小于2.0，则依赖状态的类别分类器将最终分类设置为SPEECH/NOISE。46.根据权利要求43至45中任一项所述的两阶段语音/音乐分类设备，其中，如果在输入声音信号的ENTRY状态中的帧中的差分分数的加权平均值高于2.0，则依赖状态的类别分类器在当前帧中的差分分数高于2.0的情况下将最终分类设置为MUSIC，而在当前帧中的差
分分数不高于2.0的情况下设置为UNCLEAR。47.根据权利要求43至46中任一项所述的两阶段语音/音乐分类设备，其中，在除了由状态机确定的输入声音信号的ENTRY之外的状态中，依赖状态的类别分类器基于差分分数的平滑版本和在先前帧中选择的最终分类SPEECH/NOISE、MUSIC或UNCLEAR来选择最终分类SPEECH/NOISE、MUSIC或UNCLEAR。48.根据权利要求42至47中任一项所述的两阶段语音/音乐分类设备，其中依赖状态的类别分类器首先将当前帧中的最终分类初始化为先前帧中设置的分类SPEECH/NOISE、MUSIC或UNCLEAR。49.根据权利要求47所述的两阶段语音/音乐分类设备，其中依赖状态的类别分类器首先将当前帧中的最终分类初始化为先前帧中设置的分类SPEECH/NOISE、MUSIC或UNCLEAR，并且其中，在当前帧中，响应于平滑的差分分数交叉于给定阈值，依赖状态的类别分类器从先前帧中设置的最终分类SPEECH/NOISE、MUSIC或UNCLEAR转换为最终分类的另一个。50.根据权利要求42至45中任一项所述的两阶段语音/音乐分类设备，其中，在给定数量的帧之后，依赖状态的类别分类器从先前帧中设置的最终分类SPEECH/NOISE、MUSIC或UNCLEAR转换到这些分类中的另一个。51.根据权利要求49或50所述的两阶段语音/音乐分类设备，其中，如果ACTIVE帧的计数器低于第一阈值，差分帧能量的累积和等于零，并且平滑的差分分数大于第二阈值，则依赖状态的类别分类器从先前帧中设置的最终分类SPEECH/NOISE转换到最终分类UNCLEAR。52.根据权利要求42至51中任一项所述的两阶段语音/音乐分类设备，其中，如果作为输入声音信号的开环基音分析的副产品的短基音标志等于给定值，并且差分分数的平滑的版本大于给定阈值，则依赖状态的类别分类器从先前帧中设置的最终分类SPEECH/NOISE转换到最终分类UNCLEAR。53.根据权利要求48至52中任一项所述的两阶段语音/音乐分类设备，其中依赖状态的类别分类器不执行SPEECH/NOISE和MUSIC分类之间的直接转换。54.根据权利要求1至53中任一项所述的两阶段语音/音乐分类设备，其中第二阶段包括当前帧中的输入声音信号的附加高级特征的提取器，其中附加高级特征包括输入声音信号的音调。55.根据权利要求42至53中任一项所述的两阶段语音/音乐分类设备，其中第二阶段包括当前帧中的输入声音信号的附加高级特征的提取器，其中所述附加高级特征包括以下特征中的至少一个：(a)输入声音信号的音调；(b)输入声音信号的长期稳定性，其中附加高级特征的提取器产生指示输入声音信号的长期稳定性的标志；(c)输入声音信号中的片段起音，其中附加高级特征的提取器产生如下的指示符(a)片段起音在输入声音信号的当前帧中的位置或者(b)片段起音不存在；以及(d)频谱峰均比形成从输入声音信号的功率谱计算的输入声音信号的频谱锐度的测量。56.根据权利要求55所述的两阶段语音/音乐分类设备，其中输入声音信号的音调由音调标志表示，该音调标志反映输入声音信号高达给定频率的较低频率范围中的频谱稳定性
和和谐性两者。57.根据权利要求56所述的两阶段语音/音乐分类设备，其中附加高级特征的提取器使用相关性图计算音调标志，该相关性图形成在输入声音信号的残余能谱的较低频率范围中的多个第一频率间隔中的信号稳定性和和谐性的测量，并且在存在峰值的残余能谱的片段中计算。58.根据权利要求57所述的两阶段语音/音乐分类设备，其中附加高级特征的提取器应用相关性图的平滑，并计算在当前帧中输入声音信号的较低频率范围内跨频率间隔的相关性图的加权和，以产生单个数字。59.根据权利要求58所述的两阶段语音/音乐分类设备，其中附加高级特征的提取器通过将所述单个数字与自适应阈值进行比较来设置音调标志。60.根据权利要求1至59中任一项所述的两阶段语音/音乐分类设备，其中第二阶段包括核心编码器初始选择器，用于使用如下来进行核心编码器的初始选择(a)相对帧能量，(b)输入声音信号在第一阶段被分类的最终分类，以及(c)所提取的高级特征。61.根据权利要求59所述的两阶段语音/音乐分类设备，其中第二阶段包括核心编码器初始选择器，用于使用下列条件进行核心编码器的初始选择：(a)如果相对帧能量高于第一值，频谱峰均比高于第二值，并且所述单个数字高于自适应阈值，则初始选择TCX核心编码器；(b)如果条件(a)不成立，并且输入声音信号在第一阶段被分类的最终分类是SPEECH/NOISE，则初始选择ACELP核心编码器；(c)如果条件(a)和(b)不成立，并且输入声音信号在第一阶段被分类的最终分类是UNCLEAR，则初始选择GSC核心编码器；以及(d)如果条件(a)、(b)和(c)不成立，则初始选择TCX核心编码器。62.根据权利要求27至40中任一项所述的两阶段语音/音乐分类设备，其中第二阶段包括核心编码器初始选择器，用于响应于所提取的高级特征和在第一阶段中选择的最终分类进行核心编码器的初始选择，以及如果核心编码器初始选择器初始选择了GSC核心编码器，则包括初始核心编码器选择的细化器。63.根据权利要求62所述的两阶段语音/音乐分类设备，其中，如果(a)信号片段的多个第一频率间隔中的能量与该信号片段的总能量之比低于第一值，并且(b)差分分数的短期均值高于第二值，则初始核心编码器选择的细化器将GSC核心编码器的初始选择改变为ACELP核心编码器的选择。64.根据权利要求62所述的两阶段语音/音乐分类设备，其中，对于具有短且稳定的基音周期的输入声音信号，初始核心编码器选择的细化器将GSC核心编码器的初始选择改变为(a)如果差分分数的平滑的版本低于给定值，则选择ACELP核心编码器，或者(b)如果平滑的差分分数大于或等于给定值，则选择TCX核心编码器。65.根据权利要求62所述的两阶段语音/音乐分类设备，其中初始核心编码器选择的细化器用于将GSC核心编码器的初始选择改变为(a)响应于输入声音信号的长期稳定性的TCX核心编码器的选择，以及(b)大于给定值的开环基音。66.根据权利要求62所述的两阶段语音/音乐分类设备，其中，假设核心编码器选择的改变被启用的指示符具有第一值，并且转换帧计数器具有第二值，如果在输入声音信号中
检测到片段起音，则初始核心编码器选择的细化器将GSC核心编码器的初始选择改变为ACELP核心编码器的选择。67.根据权利要求62所述的两阶段语音/音乐分类设备，其中，假设核心编码器选择的改变被启用的指示符具有第一值，转换帧计数器不具有第二值，并且标识对应于当前帧中起音位置的片段的指示符大于第三值，如果在输入声音信号中检测到片段起音，则初始核心编码器选择的细化器将GSC核心编码器的初始选择改变为ACELP核心编码器的选择。68.一种两阶段语音/音乐分类设备，用于分类输入声音信号，并选择用于编码声音信号的核心编码器，包括：至少一个处理器；以及耦合到所述处理器并存储非暂时性指令的存储器，所述指令在被运行时使所述处理器实现：第一阶段，用于将输入声音信号分类为多个最终分类之一；以及第二阶段，用于提取输入声音信号的高级特征，并响应于所提取的高级特征和在第一阶段中选择的最终分类，选择用于编码输入声音信号的核心编码器。69.一种两阶段语音/音乐分类设备，用于分类输入声音信...

【专利技术属性】
技术研发人员：V马伦诺夫斯基，
申请(专利权)人：沃伊斯亚吉公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人