在音频编解码器中维持感觉不和谐和声音定位提示的不变性制造技术

技术编号:37376245 阅读:15 留言:0更新日期:2023-04-27 07:19
一种方法包括:接收基于音频流的多个音频通道,将基于至少一个声学感知算法的模型应用于多个音频通道以生成第一模型化音频流,使用第一组量化参数对多个音频通道进行量化,使用第一组量化参数对量化的多个音频通道进行去量化,将基于至少一个声学感知算法的模型应用于去量化的多个音频通道以生成第二模型化音频流,对第一模型化音频流和第二模型化音频流进行比较,响应于确定第一模型化音频流和第二模型化音频流的比较不符合准则,生成第二组量化参数,以及使用第二组量化参数对多个音频通道进行量化。道进行量化。道进行量化。

【技术实现步骤摘要】
【国外来华专利技术】在音频编解码器中维持感觉不和谐和声音定位提示的不变性


[0001]实施例涉及编码音频流。

技术介绍

[0002]音频编码器(例如,MP3编码器、opus编码器)通常具有两个量化目标。第一目标是匹配信号(例如,通过选择时间窗和其他量化决策),并且第二目标是尊重听力阈值(例如,利用频率和时间掩蔽两者)。
[0003]量化包括使用诸如窗口化DCT的积分变换,从而产生实值系数。系数以整数形式存储。系数的整数化产生误差,其有时被称为量化误差。为了最大的压缩节省,将量化的量最大化。

技术实现思路

[0004]在一个一般方面中,一种设备、系统、非暂时性计算机可读介质(其上存储有可以在计算机系统上执行的计算机可执行程序代码)和/或方法可以利用一种方法来执行过程,该方法包括:接收基于音频流的多个音频通道,将基于至少一个声学感知算法的模型应用于所述多个音频通道以生成第一模型化音频流,使用第一组量化参数对所述多个音频通道进行量化,使用第一组量化参数对量化的多个音频通道进行去量化,将基于至少一个声学感知算法的模型应用于去量化的多个音频通道以生成第二模型化音频流,对第一模型化音频流和第二模型化音频流进行比较,响应于确定第一模型化音频流和第二模型化音频流的比较不符合准则,生成第二组量化参数,以及使用第二组量化参数对所述多个音频通道进行量化。
[0005]在另一个一般方面中,一种设备、系统、非暂时性计算机可读介质(其上存储有可以在计算机系统上执行的计算机可执行程序代码)和/或方法可以利用一种方法来执行过程,该方法包括:接收音频流,将基于至少一个声学感知算法的模型应用于音频流以生成第一模型化音频流,使用第一组量化参数来压缩音频流,使用第一组量化参数将压缩的音频流解压缩,将基于至少一个声学感知算法的模型应用于解压缩的音频流以生成第二模型化音频流,对第一模型化音频流和第二模型化音频流进行比较,响应于确定第一模型化音频流和第二模型化音频流的比较不符合准则,生成第二组量化参数,以及使用第二组量化参数来压缩音频流。
[0006]实施方式可以包括以下特征中的一个或多个。例如,基于至少一个声学感知算法的模型可以是不和谐模型。基于至少一个声学感知算法的模型可以是定位模型。基于至少一个声学感知算法的模型可以是显著性模型。基于至少一个声学感知算法的模型可以是使用监督学习算法和无监督学习算法中的至少一个来训练的经过训练的机器学习模型。基于至少一个声学感知算法的模型可以是基于在频域中应用于音频通道的频率和水平算法。基于至少一个声学感知算法的模型可以是基于至少两个频率分量之间的掩蔽水平的计算。基于至少一个声学感知算法的模型可以是基于时间增量比较、水平增量比较以及应用于与左
音频通道和右音频通道相关联的瞬态的传递函数中的至少一个。基于至少一个声学感知算法的模型可以是基于在频域中应用于音频通道的频率、水平以及耳蜗放置算法。
附图说明
[0007]根据下文给出的详细描述和附图,示例性实施例将得到更充分的理解,其中,通过相同的附图标记表示相同的元件,附图标记仅通过图示的方式给出,并且因此不限制示例性实施例,并且其中:
[0008]图1示出根据至少一个示例性实施例的音频编码器的框图。
[0009]图2示出根据至少一个示例性实施例的音频编码器的组件的框图。
[0010]图3A示出根据至少一个示例性实施例的确定音频不和谐的方法的框图。
[0011]图3B示出根据至少一个示例性实施例的确定音频不和谐的另一个方法的框图。
[0012]图3C示出根据至少一个示例性实施例的确定音频不和谐的又一个方法的框图。
[0013]图4A示出根据至少一个示例性实施例的确定音频定位的方法的框图。
[0014]图4B示出根据至少一个示例性实施例的确定音频定位的另一个方法的框图。
[0015]图4C示出根据至少一个示例性实施例的确定音频定位的又一个方法的框图。
[0016]图5A示出根据至少一个示例性实施例的确定音频显著性的方法的框图。
[0017]图5B示出根据至少一个示例性实施例的确定音频显著性的另一个方法的框图。
[0018]图5C示出根据至少一个示例性实施例的确定音频显著性的又一个方法的框图。
[0019]图6示出根据至少一个示例性实施例的装置的框图。
[0020]图7示出根据至少一个示例性实施例的计算机设备和移动计算机设备的示例。
[0021]应当注意,这些附图旨在示出在某些示例性实施例中使用的方法、结构和/或材料的一般特征,并补充以下提供的书面描述。然而,这些附图并非按比例绘制,并且也可能未精确地反映任何给定实施例的精确结构或性能特性,并且不应被解读为限定或限制由示例性实施例所包含的值或属性的范围。例如,为了清楚起见,可以缩小或夸大层、区域和/或结构元件的相对厚度和定位。在各个附图中使用相似或相同的附图标记旨在指示相似或相同元件或特征的存在。
具体实施方式
[0022]通常,为了最大的压缩节省,将量化的量最大化。然而,量化(例如,有损压缩过程)倾向于使音频的动态变平。换言之,量化可以减少音高和音量的差异或减少不和谐并使音频流听起来更和谐。这可以降低一段音乐的艺术表现力,或使声音似乎像人造的或不自然的。量化倾向于还减少声音定位提示,从而使声源更模糊并且彼此之间的区别更小。这可以使得更加难以集中注意力(例如,对于乐队的吉他手),因为声音似乎融合在一起。例如,吉他啸叫、啸音或其他反馈(例如,由于手指跨弦和/或指板移动)可以由于量化而被无意地减少或去除。
[0023]示例性实施方式以如下方式选择量化参数:可以将量化对听力的定性影响最小化。例如,实施方式可以包括通过不和谐模型化、声音定位模型化和显著性模型化来减少量化,所有这些(单独或一起)都可以减少量化对听力体验(例如,艺术表现力、声源区分等)的影响。通过在不同频率下和在不同掩蔽条件下对人类听觉的可变效率和分辨率进行模型
化,并基于上述模型化对量化参数进行调整、选择、修订等(例如,以减少压缩),可以将量化的影响最小化。
[0024]图1示出根据至少一个示例性实施例的音频编码器的框图。如图1所示,音频编码器至少包括滤波器组105块、量化110块、代码化115块、比特流格式化120块以及模型化和参数修订125块。
[0025]滤波器组105可以被配置为将音频流或信号(例如,音频输入5)划分为频率子带(例如,等宽频率子带)。频率子带可以在人类可听见的范围内。因此,频率子带可以是基于人耳的音频分辨率。频率子带可以使用离散余弦变换(DCT)进行变换(或数字化)。在一些实施方式中,可以将频率子带称为通道。在一些实施方式中,通道可以是指乐器(例如,吉他、喇叭、麦克风、鼓等)。在一些实施方式中,通道可以是指左通道和/或右通道(例如,一副耳机的左通道/右通道)。
[0026]量化110可以被配置为通过降低数字的精度来减少存储数值(例如,整数、浮点值等)所需的比特数。比特分配可以使用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:接收基于音频流的多个音频通道;将基于至少一个声学感知算法的模型应用于所述多个音频通道以生成第一模型化音频流;使用第一组量化参数对所述多个音频通道进行量化;使用所述第一组量化参数对量化的多个音频通道进行去量化;将所述基于至少一个声学感知算法的模型应用于所述去量化的多个音频通道以生成第二模型化音频流;对所述第一模型化音频流和所述第二模型化音频流进行比较;响应于确定所述第一模型化音频流和所述第二模型化音频流的比较不符合准则,生成第二组量化参数;以及使用所述第二组量化参数对所述多个音频通道进行量化。2.根据权利要求1所述的方法,其中,所述基于至少一个声学感知算法的模型是不和谐模型。3.根据权利要求1所述的方法,其中,所述基于至少一个声学感知算法的模型是定位模型。4.根据权利要求1所述的方法,其中,所述基于至少一个声学感知算法的模型是显著性模型。5.根据权利要求1至4中任一项所述的方法,其中,所述基于至少一个声学感知算法的模型是使用监督学习算法和无监督学习算法中的至少一个来训练的经过训练的机器学习模型。6.根据权利要求1至5中任一项所述的方法,其中,所述基于至少一个声学感知算法的模型是基于在频域中应用于所述音频通道的频率和水平算法。7.根据权利要求1至6中任一项所述的方法,其中,所述基于至少一个声学感知算法的模型是基于至少两个频率分量之间的掩蔽水平的计算。8.根据权利要求1至7中任一项所述的方法,其中,所述基于至少一个声学感知算法的模型是基于时间增量比较、水平增量比较以及应用于与左音频通道和右音频通道相关联的瞬态的传递函数中的至少一个。9.根据权利要求1至7中任一项所述的方法,其中,所述基于至少一个声学感知算法的模型是基于在频域中应用于所述音频通道的频率、水平以及耳蜗放置算法。10.一种方法,包括:接收音频流;将基于至少一个声学感知算法的模型应用于所述音频流以生成第一模型化音频流;使用第一组量化参数来压缩所述音频流;使用所述第一组量化参数将压缩的所述音频...

【专利技术属性】
技术研发人员:于尔基
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1