【技术实现步骤摘要】
【国外来华专利技术】音频编码器和解码器
本文件涉及一种音频编码和解码系统(被称为音频编解码器系统)。具体地,本文件涉及一种特别适合于话音编码/解码的基于变换的音频编解码器系统。
技术介绍
通用的感知音频编解码器通过按采样的覆盖几十毫秒(例如,20ms)的块大小使用诸如修正离散余弦变换(MDCT)的变换来实现相对高的编码增益。这样的基于变换的音频编解码器系统的例子是高级音频编码(AAC)或高效率(HE)-AAC。然而,当将这样的基于变换的音频编解码器系统用于话音信号时,话音信号的质量向着较低比特率恶化快于音乐信号,尤其是在干瘪的(非回响的)语音信号的情况下。因此,基于变换的音频编解码器系统本质上并不非常适合于话音信号的编码或者包括话音分量的音频信号的编码。换句话说,与对于话音信号实现的编码增益相比,基于变换的音频编解码器系统就对于音乐信号实现的编码增益而言表现出不对称性。该不对称性可以通过向基于变换的编码提供附件来解决,其中,这些附件旨在改进频谱成形或信号匹配。关于这样的附件的例子是预/后成形、时间噪声成形(TNS)和时间扭曲MDCT。此外,该不对称性可以通过基于短期预测滤波(LPC) ...
【技术保护点】
一种被配置为将语音信号编码为比特流的基于变换的语音编码器(100、170),该编码器(100、170)包括:‑组帧单元(101),所述组帧单元(101)被配置为接收块集合(132、332);其中,所述块集合(132、332)包括变换系数的多个顺序块(131);其中,所述多个顺序块(131)指示所述语音信号的采样;其中,变换系数的块(131)包括用于对应的多个频率区间(301)的多个变换系数;‑包络估计单元(102),被配置为基于变换系数的所述多个顺序块(131)来确定当前包络(133);其中,所述当前包络(133)指示用于所述对应的多个频率区间(301)的多个频谱能量值(3 ...
【技术特征摘要】
【国外来华专利技术】2013.04.05 US 61/808,675;2013.09.09 US 61/875,5531.一种被配置为将语音信号编码为比特流的基于变换的语音编码器(100、170),该编码器(100、170)包括:-组帧单元(101),所述组帧单元(101)被配置为接收块集合(132、332);其中,所述块集合(132、332)包括变换系数的多个顺序块;其中,所述多个顺序块指示所述语音信号的采样;其中,变换系数的每个块包括用于对应的多个频率区间(301)的多个变换系数;-包络估计单元(102),被配置为基于变换系数的所述多个顺序块来确定当前包络(133);其中,所述当前包络(133)指示用于所述对应的多个频率区间(301)的多个频谱能量值(303);-包络量化单元(103),被配置为通过对当前包络(133)量化来确定经量化的当前包络(134);-包络插值单元(104),被配置为基于所述经量化的当前包络(134)和经量化的前一个包络(135)来分别确定用于变换系数的所述多个顺序块的多个经插值包络(136);以及-平整单元(108),被配置为通过分别使用对应的所述多个经插值包络(136)使变换系数的对应的所述多个顺序块平整来确定平整的变换系数的多个块(140);其中,所述比特流基于所述平整的变换系数的多个块(140)而被确定。2.根据权利要求1所述的基于变换的语音编码器(100、170),其中-基于变换的语音编码器(100、170)还包括包络增益确定单元(105、106),所述包络增益确定单元(105、106)被配置为分别地确定用于变换系数的所述多个顺序块的多个包络增益;-基于变换的语音编码器(100、170)还包括包络细化单元(107),所述包络细化单元(107)被配置为通过分别根据所述多个包络增益偏移所述多个经插值包络(136)的频谱能量值(303)来确定多个调整的包络(139);-所述平整单元(108)被配置为通过分别使用对应的所述多个调整的包络(139)使变换系数的对应的所述多个顺序块平整来确定所述平整的变换系数的多个块(140)。3.根据权利要求2所述的基于变换的语音编码器(100、170),其中,所述包络增益确定单元(105、106)被配置为确定用于变换系数的第一块的第一包络增益,以使得与使用第一经插值包络(139)推导出的平整的变换系数的对应的第一块(140)的平整的变换系数的方差相比较,使用第一调整的包络(139)推导出的平整的变换系数的对应的第一块(140)的平整的变换系数的方差被调整。4.根据权利要求3所述的基于变换的语音编码器(100、170),其中,所述包络增益确定单元(105、106)被配置为确定用于变换系数的所述第一块的第一包络增益,以使得使用第一调整的包络(139)推导出的平整的变换系数的对应的第一块(140)的平整的变换系数的方差是一。5.根据权利要求2至4中的任何一个所述的基于变换的语音编码器(100、170),其中,所述包络增益确定单元(105、106)被配置为将指示所述多个包络增益的增益数据(162)插入到所述比特流中。6.根据权利要求1至4之一所述的基于变换的语音编码器(100、170),其中-当前包络(133)指示关于对应的多个频带(302)的多个频谱能量值(303);-频带(302)包括一个或更多个频率区间(301);-包络估计单元(102)被配置为基于针对特定频带(302)的所述多个顺序块的变换系数来确定关于所述特定频带(302)的频谱能量值(303)。7.根据权利要求6所述的基于变换的语音编码器(100、170),其中,每一频带(302)的频率区间(301)的数量随着频率增大而增大。8.根据权利要求6所述的基于变换的语音编码器(100、170),其中,所述包络估计单元(102)被配置为基于针对所述特定频带(302)的所述多个顺序块的变换系数的均方根值来确定关于所述特定频带(302)的频谱能量值(303)。9.根据权利要求1至4之一所述的基于变换的语音编码器(100、170),其中所述包络量化单元(103)被配置为:-将包络数据(161)插入到指示所述经量化的当前包络(134)的比特流中。10.根据权利要求1至4之一所述的基于变换的语音编码器(100、170),其中-变换系数的每个块包括MDCT系数;和/或-变换系数的每个块包括在256个频率区间(301)中的256个变换系数;和/或-块集合(132、332)包括变换系数的四个或更多个顺序块。11.根据权利要求1至4之一所述的基于变换的语音编码器(100、170),其中-基于变换的语音编码器(100、170)被配置为在多种不同的模式下进行操作,所述多种不同的模式包括短步幅模式和长步幅模式;-当基于变换的语音编码器(100、170)在短步幅模式下操作时,组帧单元(101)、包络估计单元(102)和包络插值单元(104)被配置为对包括变换系数的所述多个顺序块的块集合(132、332)进行处理;以及-当基于变换的语音编码器(100、170)在长步幅模式下时,组帧单元(101)、包络估计单元(102)和包络插值单元(104)被配置为对包括变换系数的单个块的块集合(132、332)进行处理。12.根据权利要求11所述的基于变换的语音编码器(100、170),在长步幅模式下,-所述包络估计单元(102)被配置为确定所述块集合(132、133)内所包括的变换系数的所述单个块的当前包络(133);以及-所述包络插值单元(104)被配置为将用于变换系数的所述单个块的经插值包络(136)确定为变换系数的所述单个块的当前包络(133)。13.一种被配置为对比特流进行解码以提供重构的语音信号的基于变换的语音解码器(500),所述解码器(500)包括:-包络解码单元(531),所述包络解码单元(531)被配置为从所述比特流内所包括的包络数据(161)确定经量化的当前包络(134);其中,所述经量化的当前包络(134)指示关于对应的多个频率区间的多个频谱能量值(303);其中,所述比特流包括指示重构的平整的变换系数的多个顺序块(148)的数据(163、164);其中,重构的平整的变换系数的每个块(148)包括用于对应的所述多个频率区间(301)的多个重构的平整的变换系数;-包络插值单元(104),所述包络插值单元(104)被配置为基于经量...
【专利技术属性】
技术研发人员:L·维勒莫斯,J·克里萨,P·何德林,
申请(专利权)人:杜比国际公司,
类型:发明
国别省市:荷兰;NL
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。