使用用于增强隐藏的参数对音频内容进行编码和解码的编码器、解码器和方法技术

技术编号:16049312 阅读:27 留言:0更新日期:2017-08-20 09:08
本发明专利技术涉及一种用于对类语音内容和/或一般音频内容进行编码的编码器,其中该编码器被配置为至少在一些帧中将参数嵌入比特流中,该参数在原始帧丢失、损坏或延迟的情况下增强隐藏;以及一种用于对类语音内容和/或一般音频内容进行解码的解码器,其中该解码器被配置为使用在时间上稍后发送的参数以在原始帧丢失、损坏或延迟的情况下增强隐藏;以及一种编码方法和一种解码方法。

【技术实现步骤摘要】
【国外来华专利技术】使用用于增强隐藏的参数对音频内容进行编码和解码的编码器、解码器和方法
本专利技术涉及使用编码器和解码器的音频编解码器,其中有缺陷(例如,丢失、损坏或延迟)的音频帧通过使用错误隐藏机制被至少部分地重建。本专利技术通过在比特流内提供所选择的错误隐藏辅助参数来改进传统的错误隐藏机制,该错误隐藏辅助参数增强了解码器侧的隐藏。
技术介绍
在VoIP系统中,分组到达具有不同的延迟或者甚至在接收器处交换的时间顺序。由于预期每个分组在确定的周期性时间点用于在语音/音频解码器处进行解码,所以需要所谓的去抖动缓冲器来消除时间抖动并且如果可能的话恢复分组之间的正确顺序。去抖动缓冲器的可用性使得能够使用信道感知编码,其中当前帧的部分冗余副本在编码器内被编码在未来帧的主副本之上。如果当前帧在接收器处丢失或到达太晚,则在后面的帧中到达的其部分冗余副本可以用于合成丢失的帧。取决于实际的可用系统延迟和帧错误率(FER)(即,当前信道条件),可以在编码器处动态地控制主帧和其部分冗余副本之间的延迟(或帧数)(即,所谓的FEC偏移)以及对是否需要发送特定帧的部分冗余副本的决定。尽管这种技术需要降低主帧的总体大小以保持比特率不变,但是在中等FER和高FER下,与基于非信道感知/冗余的方法相比,它允许更好的质量。诸如互联网之类的网络除了发送数据之外还被用于诸如召开会议之类的VolP通信。因此,将多个语音或音乐编码为数字数据,对数据进行分组排列,并且通过网络将分组发送给接收者。VolP要求该过程实时发生。允许实时使用的协议的缺点是它们不可靠,因为它们允许分组丢失,而不对其进行取回。当这种情况发生时,不对它们携带的语音或音频段进行重建,并且接收者听到令人讨厌的语音或音乐空白。这些空白被认为是降低服务质量。为了隐藏分组已丢失的事实,已经设计出冗余方案。对重复原始数据方面的冗余分组进行编码和发送。如果分组丢失,则其数据从其希望不会丢失的相应冗余分组中恢复和/或重建。接收端的抖动缓冲器收集主分组和冗余分组,并将它们馈送到播放它们的解码器。针对RTP定义的第一个媒体特定的纠错方案是RFC2198[1]中规定的音频冗余编码。这是专为语音电话会议而设计的。每个分组以更严重压缩的格式包含音频数据的原始帧和前一帧的冗余副本。基于分组的业务可能经受高分组丢失率、抖动和重排序。前向纠错(FEC)是解决分组丢失问题的一种技术。通常,FEC涉及将冗余信息与编码语音一起发送。解码器尝试使用冗余信息来重建丢失的分组。媒体独立的FEC技术基于音频流内的比特而添加冗余信息(独立于语音流的特征的更高层次的知识)。另一方面,媒体依赖的FEC技术基于语音流的特征而添加冗余信息。授权的专利US6,757,654[2]描述了用于对语音数据进行编码的改进的FEC技术。US6,757,654公开了:“[该技术包括:]编码器模块使用主合成模型对输入语音信号进行主编码,以产生主编码数据,并使用冗余合成模型对输入语音信号进行冗余编码,以产生冗余编码数据。分组器将主编码数据和冗余编码数据组合成一系列分组,并通过诸如互联网协议(IP)网络之类的基于分组的网络来发送分组。解码模块使用主合成模型对分组进行主解码,并使用冗余合成模型对分组进行冗余解码。该技术在解码期间和解码之后提供主合成模型和冗余合成模型之间的交互,以提高合成的输出语音信号的质量。例如,这种“交互”可以采用使用其他模型更新一个模型中的状态的形式。此外,本技术利用主帧和冗余帧的FEC交错耦合(即,帧n的主数据与帧n-1的冗余数据的耦合),以在编码器模块和解码器模块处提供预先处理。预先处理补充关于语音信号的可用信息,从而提高输出合成语音的质量。两种模式用于对语音信号进行编码的交互协作大大扩展了传统系统以前考虑的冗余编码的使用。”会议论文[3]提出了针对互联网电话的联合播放缓冲器和前向纠错(FEC)调整方案,其中包含端到端延迟对所感知的音频质量的影响。会议论文[3]表示基于端到端延迟和语音信号的失真感知音频质量。开发了联合速率/错误/播出延迟控制算法,从而优化这种质量测量。如[3]所述,大多数音频会议工具使用媒体特定的FEC。信号处理FEC的原理是在多个分组中传输用不同质量编码器编码的每个音频段。当分组丢失时,包含相同段(可被不同编码)的另一分组可能够覆盖丢失。所有的现有技术都是基于冗余的,这意味着利用后面的帧发送当前帧的非常低的比特率版本。虽然冗余音频编码可以提供精确的修复(如果冗余副本与原始相同),但是更有可能将使用较低的比特率,因此将实现较低的质量。在高级语音和音频编码的背景下,每帧的数据速率越来越大,并且传输非常低的比特率版本导致相对差的质量。因此,期望改进现有的错误隐藏机制。
技术实现思路
本专利技术的实施例通过提供以下项来创建改进的解决方案:至少具有独立权利要求1的特征的编码器,至少具有独立权利要求22的特征的解码器,根据权利要求42所述的系统,至少包括独立权利要求43的特征的编码方法,至少包括独立权利要求44的特征的解码方法,根据权利要求45所述的计算机程序,至少具有权利要求46的特征的编码器,至少具有权利要求55的特征的解码器,根据独立权利要求62至64中的至少一个所述的装置,至少具有独立权利要求65的特征的切换式编码器或解码器,至少具有独立权利要求66的特征的变换域编码器或解码器,以及根据独立权利要求68所述的方法或计算机程序。根据权利要求1,提出提供了一种编码器,用于对类语音内容和/或一般音频内容进行编码,其中该编码器被配置为至少在一些帧中将参数嵌入比特流中,所述参数在原始帧丢失、损坏或延迟的情况下增强隐藏。即使标准隐藏机制可用于丢失的帧,嵌入在帧中的参数将用于增强这种隐藏。因此,本专利技术提出不具有仅是主帧的低比特率版本的部分副本,而是仅传输将增强隐藏的一些选择的参数。因此,解码器可不同于现有技术中提出的解码器而工作。已经发现提供增强错误隐藏的一些选择的参数(例如,这些参数定义丢失帧的特性,否则这些丢失帧将基于已丢失、损坏或延迟的有缺陷帧之前的先前帧而被估计)带来了(有缺陷帧的)良好的错误隐藏,同时保持所需的比特率低。换句话说,增强隐藏的参数的传输使得可以基于关于先前解码的帧的信息来重建有缺陷的帧,其中隐藏帧的大部分信息是从有缺陷帧之前(或之后)的一个或更多个帧导出的,但是其中通常需要从之前或之后正确编码的帧导出的有缺陷帧的最相关特性中的一个或更多个(或错误隐藏的最重要参数中的一个或更多个)通过增强隐藏的参数以相当准确的方式来表示。换言之,用于增强错误隐藏的嵌入式参数优选地不足以重建有缺陷的帧,因为它们不包含所有所需类型的信息,但是支持错误隐藏,因为最重要类型的信息由参数提供,而用于隐藏的其他类型的信息必须从在解码器侧先前解码的帧导出。因此,实现了错误隐藏质量和比特率之间的良好折中。在实施例中,编码器可以被配置为创建主帧和所谓的“部分副本”,其中“部分副本”不是主帧的低比特率版本,但是其中“部分副本”包含参数(例如,如果所考虑的帧有缺陷,则是隐藏所需的一些最相关的参数)。换句话说,如本文所使用的“部分副本”不是作为冗余信息嵌入比特流中的(原始)音频内容的低比特率表示,并且稍后可以将其用于完全合成输出信号。相反,本专利技术构思是嵌入一些本文档来自技高网
...
使用用于增强隐藏的参数对音频内容进行编码和解码的编码器、解码器和方法

【技术保护点】
一种用于对类语音内容和/或一般音频内容(2)进行编码的编码器(1),其中,所述编码器(1)被配置为至少在一些帧(8)中将参数(6)嵌入比特流(5)中,所述参数(6)在原始帧(4)丢失、损坏或延迟的情况下增强隐藏。

【技术特征摘要】
【国外来华专利技术】2014.08.27 EP 14182553.9;2015.04.17 EP 15164126.31.一种用于对类语音内容和/或一般音频内容(2)进行编码的编码器(1),其中,所述编码器(1)被配置为至少在一些帧(8)中将参数(6)嵌入比特流(5)中,所述参数(6)在原始帧(4)丢失、损坏或延迟的情况下增强隐藏。2.根据权利要求1所述的编码器,其中,所述编码器(1)被配置为创建主帧(4)和部分副本(8),其中所述部分副本(8)不是所述主帧(4)的低比特率版本,但是所述部分副本(8)包含所述参数(6)。3.根据权利要求1或2所述的编码器,其中,所述编码器(1)被配置为将所述参数(6)延迟一段时间,并且将所述参数(6)嵌入分组(9)中,其中所述分组(9)被编码且在时间上稍后被发送。4.根据权利要求1至3中任一项所述的编码器,其中,所述编码器(1)被配置为减小主帧比特率,其中所述主帧比特率减小和部分副本帧编码机制一起确定要包括在恒定的总比特率内的所述主帧(4)和所述部分副本帧(8)之间的比特率分配。5.根据权利要求2至4中任一项所述的编码器,其中,所述编码器(1)被配置为创建具有所述类语音内容类型和所述一般音频内容类型中的一种类型的主帧(4)以及具有所述类语音内容类型和所述一般音频内容类型中的另一种类型的部分副本(8)。6.根据前述权利要求中任一项所述的编码器,其中,所述编码器(1)是使用TCX编码方案的编解码器的一部分。7.根据权利要求6所述的编码器,其中,所述编码器(1)被配置为检测所述帧是否包含噪声音频信号,或者所述帧是否包含具有在一段时间内平稳的尖锐谱线的噪声基底,并基于所述检测将所述参数(6)嵌入TCX帧中。8.根据权利要求6或7所述的编码器,其中,所述参数(6)包括ISF或LSF参数,具体是预测编码的ISF或LSF参数。9.根据权利要求6至8中任一项所述的编码器,其中,所述参数(6)包括信号分类参数。10.根据权利要求6至9中任一项所述的编码器,其中,所述参数(6)包括TCX全局增益或TCX全局等级。11.根据权利要求6至10中任一项所述的编码器,其中,所述参数(6)包括窗口信息和频谱峰值位置中的至少一个。12.根据权利要求1至5所述的编码器,其中,所述编码器(1)是切换式编解码器的一部分,其中所述切换式编解码器包括至少两个核心编码方案,其中第一核心编码方案使用ACELP,第二核心编码方案使用TCX。13.根据权利要求12所述的编码器,其中,所述编码器(1)被配置为当在ACELP帧之后存在第一TCX帧时,在切换之后不将部分副本(8)放置在TCX帧(4)之上。14.根据权利要求6至13中任一项所述的编码器,其中,所述编码器(1)被配置为在编码之前分析所述信号,并且基于所分析的信号禁用所述部分副本或者提供减小的部分副本(8)。15.根据权利要求1至14所述的编码器,其中,所述编码器(1)被配置为在使用不同量的信息和/或不同参数集(6)的多个部分副本模式之间进行选择,其中所述部分副本模式的选择基于参数。16.根据权利要求15所述的编码器,其中,所述多个部分副本模式中的至少一个是频域隐藏模式。17.根据权利要求15所述的编码器,其中,所述多个部分副本模式中的至少两个是不同的时域隐藏模式。18.根据权利要求17所述的编码器,其中,如果帧包含瞬态或如果帧的全局增益低于先前帧的全局增益,则选择所述至少两个时域隐藏模式中的一个。19.根据权利要求1至18中任一项所述的编码器,其中,所述编码器(1)被配置为在存在LTP数据的情况下发送LTP滞后。20.根据权利要求1至19中任一项所述的编码器,其中,所述编码器(1)被配置为发送分类器信息。21.根据权利要求1至20中任一项所述的编码器,其中,所述编码器(1)被配置为发送LPC参数、LTP增益、噪声等级和脉冲位置中的至少一个。22.一种用于对类语音内容和/或一般音频内容(2)进行解码的解码器(31),其中,所述解码器(31)被配置为在原始帧(4)丢失、损坏或延迟的情况下使用在时间上稍后发送的参数(6)以增强隐藏。23.根据权利要求22所述的解码器,其中,所述解码器(31)被配置为接收主帧(4)和部分副本(8),其中所述部分副本(8)不是所述主帧(4)的低比特率版本,但是所述部分副本(8)包含所述参数(6)。24.根据权利要求22或23之一所述的解码器(31),其中所述参数(6)包含在部分副本(8)中,并且其中所述解码器(31)被配置为在当前丢失帧(4b)的部分副本(8b)可用的情况下从去抖动缓冲器接收该部分副本。25.根据权利要求22至24中任一项所述的解码器,其中,所述解码器(31)被配置为接收具有所述类语音内容类型和所述一般音频内容类型中的一种类型的主帧(4)以及具有所述类语音内容类型和所述一般音频内容类型中的另一种类型的部分副本(8)。26.根据权利要求22至25中任一项所述的解码器,其中,所述解码器(31)是使用TCX编解码方案的编解码器的一部分。27.根据权利要求26所述的解码器,其中,所述参数(6)包括ISF或LSF参数,具体是预测编码的ISF或LSF参数。28.根据权利要求26或27之一所述的解码器,其中,所述参数(6)包括信号分类参数。29.根据权利要求26至28中任一项所述的解码器,其中,所述参数(6)包括TCX全局增益或TCX全局等级。30.根据权利要求26至29中任一项所述的解码器,其中,所述参数(6)包括窗口信息和频谱峰值位置中的至少一个。31.根据权利要求22至25中任一项所述的解码器,其中,所述解码器(31)是切换式编解码器的一部分,其中所述切换式编解码器包括至少两个核心编码方案,其中第一核心编码方案使用ACELP,第二核心编码方案使用TCX。32.根据权利要求31所述的解码器,其中,所述解码器(31)被配置为在ACELP帧之后的第一TCX帧对于所述解码器(31)不可用的情况下,在切换之后使用ACELP隐藏。33.根据权利要求22至32所述的解码器,其中,所述解码器(31)被配置为在使用不同量的信息和/或不同参数集(6)的多个部分副本模式之间进行选择。34.根据权利要求33所述的解码器,其中,所述多个部分副本模式中的至少一个是频域隐藏模式。35.根据权利要求33所述的解码器,其中,所述多个部分副本模式中的至少两个是不同的时域隐藏模式。36.根据权利要求22至35中任一项所述的解码器,其中,所述解码器(31)被配置为在存在LTP数据的情况下接收LTP滞后。37.根据权利要求22至36中任一项所述的解码器,其中,所述解码器(31)被配置为接收分类器信息。38.根据权利要求22至37中任一项所述的解码器,其中,所述解码器(31)被配置为接收LPC参数、LTP增益、噪声等级和脉冲位置中的至少一个。39.根据权利要求22至38中任一项所述的解码器,其中,所述解码器(31)被配置为根据隐藏模式以两个不同因子减少音调增益和代码增益。40.根据权利要求39所述的解码器,其中,第一因子是0.4,第二因子是0.7。41.根据权利要求23至40中任一项所述的解码器,其中,所述解码器(31)被配置为:如果先前主帧(4a)丢失,则不考虑从所述部分副本(8b)解码的音调,并且其中所述解码器(31)被配置为:将音调固定为预测音调以用于后续丢失的主帧,而不是使用所发送的音调。42.一种系统,包括根据权利要求1至21中任一项所述的编码器(1)和根据权利要求22至41中任一项所述的解码器(31)。43.一种用于对类语音内容和/或一般音频内容(2)进行编码的方法,所述方法包括以下步骤:至少在一些帧(8)中将参数(6)嵌入比特流(5)中,所述参数(6)在原始帧(4)丢失、损坏或延迟的情况下增强隐藏。44.一种用于对类语音内容和/或一般音频内容进行解码的方法,所述方法包括以下步骤:在原始帧(4)丢失、损坏或延迟的情况下使用在时...

【专利技术属性】
技术研发人员:热雷米·勒康特本杰明·舒伯特迈克尔·施内伯马丁·迪茨
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:德国,DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1