经由音频分类进行动态音量调节的方法和装置制造方法及图纸

技术编号:30655436 阅读:14 留言:0更新日期:2021-11-06 08:22
公开了经由音频分类进行动态音量调节的方法、装置、系统和制品。示例方法包括:利用经神经网络训练的模型对与第一音量水平相关联的音频信号的参数进行分析,以确定与音频信号相关联的分类组;确定音频信号的输入音量,所述选择基于与音频信号相关联的分类组;向音频信号施加增益值,所述增益值基于分类组和输入音量,所述增益值将第一音量水平修改成第二音量水平;以及向音频信号施加压缩值,所述压缩值将第二音量水平修改成满足目标音量阈值的第三音量水平。第三音量水平。第三音量水平。

【技术实现步骤摘要】
【国外来华专利技术】经由音频分类进行动态音量调节的方法和装置
[0001]相关申请
[0002]本专利要求2018年9月7日提交的美国临时申请62/728,677和2018年10月12日提交的美国临时申请62/745,148的优先权和利益。美国临时申请62/702,734和美国临时申请62/745,148通过引用整体并入本文。


[0003]本公开总体上涉及音量调节,并且更具体地,涉及经由音频分类进行动态音量调节的方法和装置。

技术介绍

[0004]近年来,使用越来越多的渠道传送了大量具有时变特性的媒体。可以使用更传统的渠道(例如,无线电)或者使用最新开发的渠道(诸如使用因特网连接的流传输设备)来接收。随着这些渠道的开发,也已经开发了能够对来自多个源的音频进行处理和输出的系统。例如,一些汽车媒体系统能够从光盘(CD)、蓝牙连接设备、通用串行总线(USB)连接设备、Wi

Fi连接设备、辅助输入端和其它源传送媒体。
附图说明
[0005]图1是根据本公开的教导构造的用于经由音频分类进行动态音量调节的示例系统的示意图。
[0006]图2是示出图1的媒体单元的附加细节的框图。
[0007]图3是示出音频分类引擎的框图,该音频分类引擎能够提供经训练的模型以供图1和图2的媒体单元使用。
[0008]图4和图5是表示示例机器可读指令的流程图,该示例机器可读指令可以用于实现图1和图2的媒体单元106,以经由音频分类执行动态音量调节。
[0009]图6是可以执行图4和图5的指令以实现图1和图2的示例媒体单元106的示例处理器平台的示意图。
[0010]附图未按比例绘制。在任何可能的情况下,将在整个附图和所附书面描述中使用相同的附图标记来指代相同或相似的部分。
具体实施方式
[0011]在常规音频媒体实现中,与不同媒体相关联的音频信号可以具有不同音量。例如,一张CD上的媒体可以以与另一张CD的媒体显著不同的音量被记录和/或制作母带(mastered)。类似地,从流传输设备读取的媒体可以具有与从不同设备读取的媒体或经由不同应用从同一设备读取的媒体显著不同的音量水平。随着用户越来越多地收听来自各种不同源的媒体,源之间以及同一源的媒体之间的音量水平差异会变得非常明显,并且可能引起收听者的不适。
[0012]在一些用于音量调整的常规方法中,利用动态范围压缩器来压缩音频信号的总动态范围,以满足音量阈值。在一些常规实现中,这样的动态范围压缩持续地监测并调节音频信号的音量,以便满足音频信号的音量阈值。这样的持续调节对收听者对音频信号的感知具有可感知的影响,因为曲目(track)的原始动态会被显著更改。在一些示例中,动态范围压缩显著降低了感知的音频信号质量(例如,通过将失真(artifacts)引入音频中)。
[0013]在本文公开的示例方法、装置、系统和制品中,使用音频分类来确定音频信号的类别,并且随后执行音量调节,以最小化使音频信号位于目标音量范围内所需的动态范围压缩量。本文公开的示例方法、装置、系统和制品利用音频信号的分类和实时输入音频测量的组合来确定可以施加至音频信号的目标增益值。例如,在确定与音频信号相关联的分类组之后,可以(例如,从将音量增益调节值与分类组相关的查找表中)读取分类增益值。可以另外确定音频信号的输入音量。然后,基于输入音量和推荐的分类增益值,可以确定目标增益值。目标增益值是这样的音量调节:其被施加至输入音频信号,以使音量更接近目标音量范围(例如,在

21dbFS的+/

1dbFS内),使得在将经增益调节的信号提供给压缩器时,减少了使经增益调节的信号位于目标音量范围内所需的压缩量。
[0014]在本文公开的示例方法、装置、系统和制品中,基于输入音频信号的分类并基于音频信号的输入音量来计算目标增益值,以减少使音频信号的音量处于目标音量范围内所需的压缩量。在一些示例中,当首次检测到输入音频信号时,初步压缩音频信号的动态范围,以使音频信号的音量处于目标音量范围内,直到对输入音频信号进行分类并且确定输入音频信号的音量为止。在一些示例中,通过在首次检测到音频信号时仅利用压缩来调节音频信号,收听者可以短暂地察觉到压缩,因为音频电平的降低不是由手动音量调节引起的。然而,一旦确定了音频信号的初始音量和音频信号的分类,目标增益值就被计算出,以减少使音频信号的音量处于目标音量范围内所需的压缩量。在一些示例中,分类和初始音量确定可以足够快地发生(例如,在五秒之内、在一秒之内等),以致于收听者无法察觉到压缩的初始使用。
[0015]本文公开的一些示例方法、装置、系统和制品确定音频信号源的改变并对其做出响应。在一些示例中,除了使用压缩之外,或者代替使用压缩,执行初始音量调节。例如,响应于音频信号输入变化(例如,从无音频信号到呈现音频信号的变化,从一个音频信号输入源到另一音频信号输入源的变化等),可以确定初始音量水平(例如,基于特定于音频信号源的先前音量调节设置),并且可以执行初始音量水平调节。在一些示例中,使用“淡入(fade

in)”技术来执行初始音量水平调节,该技术在输入信号改变之后逐渐增大音频音量水平。在一些示例中,初始音量水平调节可以基于与音频输入信号的类型(例如,FM无线电、AM无线电、CD、辅助音频源等)相关联的存储设置。
[0016]本文公开的示例方法、装置、系统和制品将音频信号分类成多个分类组中的一个或更多个分类组。在确定分类组时,可以使用分类组的特性(例如,可用动态余量、典型动态范围等)来以最小的损失(例如,利用最小动态范围压缩)调节音频信号的音量。在一些示例中,可以在训练数据中使用模式识别来识别分类组。例如,可以基于诸如信号中表示的乐器、音频信号制作年份、音乐流派等的因素来对音频信号进行分组。一旦对训练数据进行了分组,就可以将诸如动态范围值分布、音量值分布或任何其它音频特性的特性与分类组关联地存储(例如,按查找表)。在一些示例中,当对音频信号进行分类时,可以确定概率分布
(例如,与输出音频信号所属的一个特定分类组相反)。例如,分类处理可以输出:音频信号属于表示从1976年到1995年的无鼓音乐的组的可能性为50%,音频信号属于表示从1996年至今的无鼓音乐的组的可能性为30%,音频信号属于表示从1976年至1995年的具有合成鼓的音乐的组的可能性为18%,或者属于另一组的可能性为2%。在一些这样的示例中,选择与分类组相关联的增益值以执行音量调节可能涉及平均化技术(例如,确定与各个组相关联的增益值,以及根据音频信号属于相应组的概率对各个值进行加权)。
[0017]在本文公开的一些示例方法、装置、系统和制品中,利用代表性的各种音频信号(例如,表示多种流派、多个时间段等)的大量音量配置文件(volume profile)来训练音频信号分类器执行音频信号的分类。例如,音量配置文件包括歌曲中按时间的音量值。在一些示例中,除了音量配置文件之外或代替音量配置文件,可以利用音频信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种装置,所述装置包括:音频信号分类器,所述音频信号分类器利用神经网络对与第一音量水平相关联的音频信号的参数进行分析,以确定与所述音频信号相关联的分类组;输入音量检测器,所述输入音量检测器确定所述音频信号的输入音量;音量调节器,所述音量调节器向所述音频信号施加增益值,所述增益值基于所述分类组和所述输入音量,所述增益值将所述第一音量水平修改成第二音量水平;以及动态范围压缩器,所述动态范围压缩器向所述音频信号施加压缩值,所述压缩值将所述第二音量水平修改成满足目标音量阈值的第三音量水平。2.根据权利要求1所述的装置,所述装置还包括源改变确定器,所述源改变确定器确定所述音频信号的源是否已改变。3.根据权利要求2所述的装置,其中,所述源改变确定器基于以下至少一项来确定所述音频信号的所述源是否已改变:(1)所述音频信号所关联的当前压缩器增益与所述音频信号所关联的先前压缩器增益的比较,(2)所述音频信号所关联的RMS功率与所述音频信号所关联的先前RMS功率的比较,或者(3)所述音频信号所关联的当前音频样本值与所述音频信号所关联的先前音频样本值的比较。4.根据权利要求2所述的装置,其中,所述音量调节器还响应于确定所述音频信号的所述源已改变而重置所述音频信号的所述增益值。5.根据权利要求1所述的装置,其中,所述分类组与以下至少一项相关联:(1)由所述音频信号表示的音乐的流派,(2)由所述音频信号表示的所述音乐的时间段,或者(3)由所述音频信号表示的所述音乐中存在的乐器。6.根据权利要求1所述的装置,其中,所述输入音量检测器还确定第一时间段内的第四音量水平未落在所述目标音量阈值内,所述第一时间段在第二时间段之后发生,所述第三音量水平与所述第二时间段相关联;并且所述动态范围压缩器还调节所述压缩值以适应第五音量水平,经调节的压缩值将所述第四音量水平修改成满足所述目标音量阈值的第五音量水平。7.根据权利要求1所述的装置,其中,所述目标音量阈值处于5满刻度相对分贝(dBFS)至21dBFS内。8.一种非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质包括指令,所述指令在被执行时使处理器至少:利用神经网络对与第一音量水平相关联的音频信号的参数进行分析,以确定与所述音频信号相关联的分类组;确定所述音频信号的输入音量;向所述音频信号施加增益值,所述增益值基于所述分类组和所述输入音量,所述增益值将所述第一音量水平修改成第二音量水平;以及向所述音频信号施加压缩值,所述压缩值将所述第二音量水平修改成满足目标音量阈值的第三音量水平。9.根据权利要求8所述的非暂时性计算机可读存储介质,其中,所述指令在被执行时使所述处理器确定所述音频信号的源是否已改变。
10.根据权利要求9所述的非暂时性计算机可读存储介质,其中,确定所述音频信号的源是否已改变是基于以下至少一项进行的:(1)所述音频信号所关联的当前压缩器增益与所述音频信号所关联的先前压...

【专利技术属性】
技术研发人员:M
申请(专利权)人:格雷斯诺特有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1