用于自适应背景音频增益平滑的装置和方法制造方法及图纸

技术编号:39832040 阅读:7 留言:0更新日期:2023-12-29 16:13
一种用于提供输出增益序列的装置

【技术实现步骤摘要】
【国外来华专利技术】用于自适应背景音频增益平滑的装置和方法


[0001]本专利技术涉及一种用于自适应背景音频增益平滑的装置和方法,例如,用于对实时场景中为自动回避背景内容而产生的增益信号进行平滑的装置和方法


技术介绍

[0002]在两个或更多个不同音频信号的自动混合的情况下,其中一个信号
(
前景
)
由语音组成
(
有或没有背景噪声
)
,第二信号
(
或一组信号
)
由背景声音
(
包括例如音乐

一般声音如环境音

噪声

动效拟音

音效,但可能也包括语音
)
组成,后一个信号
(
背景
)
的音频水平可能需要被衰减,以确保包括在前景信号中的语音一旦与输出节目中的背景信号混合就仍然是可理解的

[0003]为了达到美观的混合效果,背景信号的时变衰减应该尽可能小

平滑和不引人注目以不中断内容流

它仍然应该与收听环境

播放系统或接收者的收听能力所要求的一样高

这两个相反的要求在非自适应系统中很难实现

最终,自动生成的混合节目的美学质量高度取决于混合方法识别和分析输入信号的相关特征的能力,例如,语音内容的存在或不存在,分量信号电平,背景信号内容类别
(
音乐,噪声
)。
此外,低延迟
(
或实时
)
应用要求以小的或不存在的前瞻性
(
来自未来样本的信息
)
和低的处理延迟
(
在所设想的应用中,产生的最大总延迟在几百毫秒的数量级
)
来计算衰减并将其适配于输入信号

由于这些原因,现有的技术解决方案在低延迟的应用中通常在美学上不令人满意,因此很少使用

[0004]自动混合技术的美学愉悦感在很大程度上取决于每次回避过程的开始和结束时发生的攻击和释放阶段的行为

为了得到愉快的结果,攻击和释放阶段需要在感知上是平滑的

然而,他们还需要能够对重大信号变化迅速做出反应

更具体地说:
[0005]慢时间常数为平稳信号提供了平滑的行为

[0006]在长达几秒的时间范围内发生后续回避事件的情况下,背景衰减的延迟释放有助于获得更愉快的收听体验

[0007]当背景信号电平突然显著增加时,攻击阶段需要快速反应以保证前景可听性

[0008]在某些情况下,背景信号可以例如包括应该在前景水平呈现的讲话
(
例如,纪录片中以原始语言的采访
)。
因此,在这些情况下,只要没有另外的前景信号同时发生,就必须迅速释放回避

[0009]这两个相反的需求,在使用快速时间常数的实时工具中实现时,可以容易导致恼人的回避增益行为,从而导致不愉快的背景电平的快速波动
(
又称“泵浦
(pumping)”)。
[0010]离线回避的好处是,基于文件的处理允许显著的大的前瞻信号检测,从而防止这种令人不愉快和不希望的回避增益噪声

此外,用户知道源内容上下文,因此可以设置算法以产生具有预期美学质量和声音愉悦性的节目输出

这包括根据所处理的内容调整前瞻

攻击和释放的能力

此外,用户可以验证生成的混合,并且如果不满意,可以对算法设置进行更改以获得不同的结果

[0011]由于实时处理的“现场”特征,算法需要包括在小的前瞻尺寸的约束下根据源内容
的特性调整其行为的方法

[0012]源背景内容最重要的两个语义特征是突然的响度变化
(
例如,大声的音乐前奏
)
和语音存在
(
在回避期间或之后
)。
[0013]实时回避处理器需要能够快速检测这些事件和做出响应

[0014]在现有技术中已知三种计算背景衰减方法

[0015]作为第一种背景衰减方法,存在静态衰减

一旦前景信号
(FGO)
的电平,例如语音,超过定义的阈值,背景信号
(BGO)
将衰减预定电平

此方法不考虑
BGO
电平,因此即使
BGO
的电平较低并且衰减是不必要的,也会被衰减

不必要的衰减损坏修改后的背景信号的美感,并且在最坏的情况下,由于过度衰减会造成间隙

[0016]作为另一种背景衰减方法,“回避”在技术中被使用
。BGO
通过控制放大器
(“压缩器”)
被衰减,其控制值来自前景信号
(“侧链回避”)。
即使考虑了
FGO
信号的电平,但操作也以错误的方向进行,即
FGO
信号电平越高,
BGO
衰减得越多

此外,该方法仍然没有考虑
BGO
电平,导致即使
BGO
的电平很低且不需要衰减,
BGO
也会发生衰减

[0017]另一种背景衰减概念与“自动混合器”有关

不同的制造商使用不同的算法,这些算法专门处理等效
FGO
信号
(
例如,脱口秀中的几个声音
)
的混合

在自动混合器降低非激活信号之前,将各个
FGO
信号的电平手动调整到相同的感知响度或电平

背景信号不包括在此混合概念中

[0018]另一种方法已经在
1938
年的早期出版物中概述
(

[3])
,说明“对话和音效的音量水平通常由操作员控制,他手动调整混音面板,以保持背景声音和对话之间相同的音量水平比
。”该出版物描述了一种非计算的混合方法,因为它已经被声音工程师实践,并且被称为“音量推子骑乘”。
背景信号的电平被手动降低,反映了前景和背景之间的响度关系:背景被充分衰减,以确保前景信号足够可听和美观

然而,同一份出版物指出,由于手动无法足够快地控制音量,因此无法在音效和对话之间始终保持平衡

[0019]此外,在现有技术中,
Jot
等人
(
参见
[1])
描述了一种基于附加到音频流的边信息和用户的个性化设置来解决提高解码器和播本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种用于提供输出增益序列的装置
(100)
,其中输出增益序列适合于衰减音频信号的背景信号,其中所述装置
(100)
包括:信号特征提供器
(110)
,被配置为接收或确定关于音频信号的一个或多个特征的信号特征信息,其中信号特征信息取决于背景信号,信号特征信息包括取决于音频信号的背景信号和前景信号的输入增益序列;以及增益序列发生器
(120)
,被配置为根据输入增益序列确定输出增益序列;其中,为了确定输出增益序列,将输出增益序列的当前增益的当前增益值修改为目标增益值,增益序列发生器
(120)
被配置为通过在转换时段期间根据修改规则逐渐改变当前增益值至目标增益值,来确定在增益序列中继当前增益之后的多个后续增益,其中,修改规则取决于信号特征信息;和
/
或其中,增益序列发生器
(120)
被配置为除了输入增益序列之外,还根据一个或多个信号特征中的另一个来确定目标增益值
。2.
根据权利要求1所述的装置
(100)
,其中,为了衰减背景信号或增加背景信号的衰减,增益序列发生器
(120)
被配置为通过在转换时段期间根据修改规则逐渐改变当前增益值至目标增益值,来确定继当前增益之后的多个后续增益,使得转换时段的持续时间取决于信号特征信息
。3.
根据权利要求1或2所述的装置
(100)
,其中,如果输入增益序列的较小的第一输入增益值比第二输入增益值指示背景信号对前景信号的较大的干扰,较小的第一输入增益值导致与输入增益序列的第二输入增益值较大时的转换时段的第二持续时间相比较短的转换时段的第一持续时间,或其中,如果输入增益序列的较小的第一输入增益值比第二输入增益值指示背景信号对前景信号的较小的干扰,较小的第一输入增益值导致与输入增益序列的第二输入增益值较大时的转换时段的第二持续时间相比较长的转换时段的第一持续时间
。4.
根据上述权利要求中任何一个所述的装置
(100)
,其中,为了减少背景信号的衰减,增益序列发生器
(120)
被配置为根据信号特征信息从两个或更多个修改规则候选中选择修改规则候选作为修改规则;其中,与增益序列发生器
(120)
选择两个或更多个修改规则中的第二个时的转换时段的第二持续时间相比,增益序列发生器
(120)
选择两个或更多个修改规则候选中的第一个导致较短的转换时段的第一持续时间,在转换时段期间,增益序列发生器
(120)
将当前增益值逐渐改变为目标增益值
。5.
根据权利要求4所述的装置
(100)
,其中,增益序列发生器
(120)
被配置为,如果信号特征信息指示背景信号的当前部分包括语音,或如果信号特征信息包括高于语音阈值的

背景信号包括语音的概率的置信度值,选择两个或更多个修改规则候选中的第一个;以及增益序列发生器
(120)
被配置为,如果信号特征信息指示背景信号的当前部分不包括语音,或者如果置信度值小于或等于语音阈值,选择两个或更多个修改规则候选中的第二个
。6.
根据权利要求4或5所述的装置
(100)
,其中,两个或更多个修改规则候选中的每一个定义至少两个子修改规则,其中至少两个子修改规则中的第一个在转换时段的第一子时段期间应用,其中至少两个子修改规则中的第二个在转换时段的第二子时段期间应用,其中第二子时段在时间上在第一子时段之后,并且其中,至少两个子修改规则中的第一个与至少两个子修改规则中的第二个相比,定
义从多个后续增益中的一个到其直接后继的朝目标增益值的更快适应
。7.
根据上述权利要求中任何一个所述的装置
(100)
,其中,为衰减背景信号或增加背景信号的衰减,增益序列发生器
(120)
被配置为根据输入增益序列的输入增益和根据背景信号中语音的存在来确定目标增益值
。8.
根据权利要求7所述的装置
(100)
,其中,增益序列发生器
(120)
被配置为,如果信号特征信息指示背景信号包括语音或指示背景信号包括语音的概率的置信度值大于阈值,确定目标增益值是取决于输入增益的第一值,其中,增益序列发生器
(120)
被配置为,如果信号特征信息指示背景信号不包括语音或指示背景信号包括语音的概率的置信度值小于或等于阈值,确定目标增益值为取决于输入增益的第二值,第二值与第一值不同,其中,与在背景信号上应用具有第二值的目标增益值相比,在背景信号上应用具有第一值的目标增益值更多地衰减背景信号
。9.
根据上述权利要求中任何一个所述的装置
(100)
,其中,信号特征提供器
(110)
被配置为根据信号特征信息确定是否应修改输出增益序列的当前增益的当前增益值
。10.
根据权利要求9所述的装置
(100)
,其中,信号特征提供器
(110)
被配置为使用输入增益序列的当前输入增益的当前输入增益值用于阈值测试来进行阈值测试,其中阈值测试包括确定当前输入增益值是否小于阈值,或阈值测试包括确定当前输入增益值是否小于或等于阈值
。11.
根据权利要求
10
所述的装置
(100)
,其中,阈值根据期望目标值和容差值定义,其中,信号特征提供器
(110)
被配置为根据阈值测试确定是否应修改输出增益序列的当前增益的当前增益值,以及其中,信号特征提供器
(110)
被配置为,如果当前输入增益值小于期望目标增益减去容差值,确定应修改输出增益序列的当前增益的当前增益值,或其中,信号特征提供器
(110)
被配置为,如果当前输入增益值大于期望目标增益加上容差值,确定应修改输出增益序列的当前增益的当前增益值
。12.
根据上述权利要求中任何一个所述的装置
(100)
,其中前景信号和背景信号被编码在音频帧序列中,和
/
或其中音频信号被编码在音频帧序列中,其中,待由增益序列发生器
(120)
确定的输出增益序列是与音频帧序列的当前帧相关联的输出增益的当前序列,以及其中,为了确定输出增益的当前序列,增益序列发生器
(120)
被配置为使用在音频帧序列的当前帧中编码的信息,而不使用在时间上在当前音频帧之后的音频帧序列的后续帧中编码的信息
。13.
根据上述权利要求中任何一个所述的装置
(100)
,其中,增益序列发生器
(120)
被配置为确定自适应攻击时间,使得转换时段的持续时间
取决于自适应攻击时间,在转换时段期间,增益序列发生器被配置为通过逐渐改变当前增益值来确定继当前增益之后的多个后续增益,其中,增益序列发生器
(120)
被配置为根据自适应攻击时间确定继当前增益之后的多个后续增益
。14.
根据权利要求
13
所述的装置
(100)
,其中,增益序列发生器
(120)
被配置为根据输入增益序列的输入增益中的一个的输入增益值来确定自适应攻击时间,或指示存储在装置的当前输入增益缓冲器内的输入增益序列的多个输入增益的多个输入增益值的平均值
。15.
根据权利要求
14
所述的装置
(100)
,其中,信号特征提供器
(110)
被配置为根据以下确定自适应攻击时间:其中
AAT
为自适应攻击时间,其中
minAT
为预定义的最小攻击时间,其中
maxAT
为预定义的最大攻击时间,其中如果允许重置自适应攻击时间值,
AAT(t

1)
被设置为
maxAT
,否则使用先前的
...

【专利技术属性】
技术研发人员:亚历山德罗
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1