【技术实现步骤摘要】
用于对音频信号进行译码的译码器和方法本申请是国家申请号为201480009744.8,国际申请日为2014年2月20日,进入国家日期为2015年8月20日,专利技术名称为“使用依赖瞬态位置的重叠对音频信号编码或译码的设备及方法”的申请的分案申请。
本专利技术是有关于对音频或图像信号的处理,且更特别是有关于对存在瞬态的音频或图像信号的编码或译码,例如,通过使用依赖瞬态位置的重叠对音频信号编码或译码的设备及方法。
技术介绍
基于重叠FFT或改进的离散余弦变换(MDCT)的现代频域语音/音频编码机制提供某些适应度给非静态信号特征。以MPEG标准化的通用编译码器,亦即MPEG-1第三层,极著名为MP3,MPEG-4(HE-)AAC[1],以及最近的MPEG-0xHE-AAC(USAC)和由IETF[2]规定的Opus/Celt编译码器,允许使用至少两个不同的变换长度之中一个对帧(frame)的编码-关于静态信号信道的一个长度M的长变换,或8个长度M/8(每个)的短变换。在MPEG编译码器的情况下,从长到短及从短到长变换的切换(亦称为块切换)需要使用非对称窗口化的瞬态变换, ...
【技术保护点】
1.一种用于对音频信号进行译码的译码器,所述音频信号包括转换后的窗口化样本的块的序列及相关的窗口信息(160),所述窗口信息(160)从至少三个不同的窗口中识别用于块的特定窗口,所述译码器包括:处理器(156),用于提供频谱值的块的序列;可控转换器(158),用于通过使用重叠‑相加处理将所述频谱值的块的序列转换成时域表示,其中所述可控转换器(158)由所述窗口信息控制,以将由所述窗口信息表示的窗口应用至对应的块以计算译码后的音频信号,其中所述窗口选自包括至少三个窗口的组,所述三个窗口包括具有第一重叠长度(203)的第一窗口(201)、具有第二重叠长度(218)的第二窗口(2 ...
【技术特征摘要】
2013.02.20 US 61/767,1151.一种用于对音频信号进行译码的译码器,所述音频信号包括转换后的窗口化样本的块的序列及相关的窗口信息(160),所述窗口信息(160)从至少三个不同的窗口中识别用于块的特定窗口,所述译码器包括:处理器(156),用于提供频谱值的块的序列;可控转换器(158),用于通过使用重叠-相加处理将所述频谱值的块的序列转换成时域表示,其中所述可控转换器(158)由所述窗口信息控制,以将由所述窗口信息表示的窗口应用至对应的块以计算译码后的音频信号,其中所述窗口选自包括至少三个窗口的组,所述三个窗口包括具有第一重叠长度(203)的第一窗口(201)、具有第二重叠长度(218)的第二窗口(215)、以及具有第三重叠长度(229)或不具有重叠的第三窗口(224),其中所述第一重叠长度(203)大于所述第二重叠长度(218),并且其中所述第二重叠长度(218)大于所述第三重叠长度(229)或大于零重叠,其中,所述音频信号是通过用于对音频信号进行编码的设备而编码的,所述用于对音频信号进行编码的设备包括:可控窗口化装置(102),用于将所述音频信号窗口化,以提供窗口化样本的块的序列;转换器(104),用于将所述窗口化样本的块的序列转换成频谱表示,所述频谱表示包括频谱值的帧的序列;瞬态位置检测器(106),用于识别在帧的瞬态预看区域内的瞬态的位置;以及控制器(108),用于响应于所识别出的所述瞬态的位置(210-213),控制所述可控窗口化装置(102),以将具有特定重叠长度的所述特定窗口应用至所述音频信号,其中,所述控制器(108)被配置成从所述包括至少三个窗口的组中选择所述特定窗口,其中,基于所述瞬态位置选择所述特定窗口,以使得两个时间相邻的重叠窗口中的一个具有所述瞬态的位置的第一窗口系数,而所述两个时间相邻的重叠窗口中的另一个具有所述瞬态的位置的第二窗口系数,其中所述第二窗口系数是所述第一窗口系数的至少九倍大。2.如权利要求1所述的译码器,其中所述可控转换器(158)包括:频率-时间转换器(170),用于将所述频谱值的块转换成时间表示;合成窗口化装置(172),用于将合成窗口应用至所述频谱值的块的时间表示;以及重叠-加法器(174),用于重叠及添加时间相邻的窗口时间表示,以获得所述译码后的音频信号,其中所述合成窗口化装置(172)、所述重叠-加法器(174)或所述频率-时间转换器(170)由相关的窗口信息控制,以应用由所述窗口信息(160)表示的重叠及所述合成窗口。3.如权利要求1所述的译码器,其中所述窗口信息(603)包括先前重叠信息(606),所述先前重叠信息(606)指示先前窗口的较后部分的重叠,并且其中所述窗口信息包括当前重叠信息(607),所述当前重叠信息(607)指示所述较后部分的重叠,其中所述控制器(180)被配置成用于依据所述先前窗口的所述较后部分的所述重叠信息,确定紧接在所述先前窗口之后的窗口的较早部分。4.如权利要求1所述的译码器,其中所述第一窗口、所述第二窗口与所述第三窗口具有限定帧的、相关的相同变换尺寸;以及其中所述第一重叠长度为所述第一窗口的长度的四分之一或三分之一或一半,其中所述第二重叠长度为所述第一重叠长度的一半或三分之一,并且其中所述第三重叠长度为所述第二重叠长度的一半或四分之一或八分之一或小于或等于1.25毫秒。5.如权利要求1所述的译码器,其中所述可控转换器(158)被配置成用于利用重叠及添加功能执行逆改进的离散余弦变换或逆改进的离散正弦变换或任何其它混叠降低变换。6.如权利要求1所述的译码器,其中所述第一重叠长度包括256个样本或10毫秒,其中所述第二重叠长度包括128个样本或5毫秒,其中所述第三重叠长度包括16个样本或0.6毫秒,且其中帧长度包括512个样本或20毫秒。7.如权利要求1所述的译码器,其中第一变换长度包括512MDCT或MDST系数,其中第二变换长度包括256MDCT或MDST系数,并且其中第三变换长度包括128MDCT或MDST系数。8.如权利要求1所述的译码器,其中在用于编码的所述设备中使用的窗口与在所述译码器中使用的对应窗口相同,及其中所述译码器具有只读存储器(197),在只读存储器(197)中仅储存单一组的窗口以在用于编码的所述设备和所述译码器中使用。9.一种用于对音频信号进行译码的译码器,所述音频信号包括转换后的窗口化样本的块的序列及相关的窗口信息(160),所述窗口信息(160)从至少三个不同的窗口中识别用于块的特定窗口,所述译码器包括:处理器(156),用于提供频谱值的块的序列;可控转换器(158),用于通过使用重叠-相加处理将所述频谱值的块的序列转换成时域表示,其中所述可控转换器(158)由所述窗口信息控制,以将由所述窗口信息表示的窗口应用至对应的块以计算译码后的音频信号,其中所述窗口选自包括至少三个窗口的组,所述三个窗口包括具有第一重叠长度(203)的第一窗口(201)、具有第二重叠长度(218)的第二窗口(215)、以及具有第三重叠长度(229)或不具有重叠的第三窗口(224),其中所述第一重叠长度(203)大于所述第二重叠长度(218),并且其中所述第二重叠长度(218)大于所述第三重叠长度(229)或大于零重叠,其中所述可控转换器(158)包括:频率-时间转换器(170),用于将所述频谱值的块转换成时间表示;合成窗口化装置(172),用于将合成窗口应用至所述频谱值的块的时间表示;以及重叠-加法器(174),用于重叠及添加时间相邻的窗口时间表示,以获得所述译码后的音频信号,其中所述合成窗口化装置(172)、所述重叠-加法器(174)或所述频率-时间转换器(170)由相关的窗口信息控制,以应用由所述窗口信息(160)表示的重叠及所述合成窗口,其中所述窗口信息(603)包括变换长度信息(600)及重叠信息(602),其中控制器(180)被配置成用于基于先前窗口信息(606)及当前窗口信息(607),确定用于频谱值的块的窗口和重叠,其中所述当前窗口信息(607)或指示具有第一变换长度的第一变换或每个均具有第二变换长度的两个第二变换,或指示具有所述第二变换长度的第二变换及每个均具有第三变换长度的两个第三变换或具有所述第三变换长度的四个变换,以及其中所述第一变换长度为所述第二变换长度的尺寸的两倍,并且其中所述第二变换长度为所述第三变换长度的尺寸的两倍。10.一种用于对音频信号进行译码的译码器,所述音频信号包括转换后的窗口化样本的块的序列及相关的窗口信息(160),所述窗口信息(160)从至少三个不同的窗口中识别用于块的特定窗口,所述译码器包括:处理器(156),用于提供频谱值的块的序列;可控转换器(158),用于通过使用重叠-相加处理将所述频谱值的块的序列转换成时域表示,其中所述可控转换器(158)由所述窗口信息控制,以将由所述窗口信息表示的窗口应用至对应的块以计算译码后的音频信号,其中所述窗口选自包括至少三个窗口的组,所述三个窗口包括具有第一重叠长度(203)的第一窗口(201)、具有第二重叠长度(218)的第二窗口(215)、以及具有第三重叠长度(229)或不具有重叠的第三窗口(224),其中所述第一重叠长度(203)大于所述第二重叠长度(218),并且其中所述第二重叠长度(218)大于所述第三重叠长度(229)或大于零重叠,其中用于当前帧的所述窗口信息指示变换长度信息(600),所述变换长度信息(600)要求第二变换长度小于限定所述帧的第一变换长度,以及其中所述可控转换器(158)被配置成用于应用与第三变换长度相关的两个或四个窗口的序列,其中在与所述第三变换长度相关的两个时间相邻的窗口之间的重叠为所述第三重叠长度,并且其中所述第三变换长度小于所述第二变换长度。11.一种用于对音频信号进行译码的译码器,所述音频信号包括转换后的窗口化样本的块的序列及相关的窗口信息(160),所述窗口信息(160)从至少三个不同的窗口中识别用于块的特定窗口,所述译码器包括:处理器(156),用于提供频谱值的块的序列;可控转换器(158),用于通过使用重叠-相加处理将所述频谱值的块的序列转换成...
【专利技术属性】
技术研发人员:克里斯蒂安·黑尔姆里希,热雷米·勒孔特,戈兰·马尔科维奇,马库斯·施内尔,贝恩德·埃德勒,斯特凡·罗伊施尔,
申请(专利权)人:弗劳恩霍夫应用研究促进协会,
类型:发明
国别省市:德国,DE
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。