【技术实现步骤摘要】
【国外来华专利技术】用于基于深度神经网络的纯净对话响度估计的装置与方法
[0001]本专利技术关于基于神经网络的响度估计,且特别地,关于用于提供音频信号的感兴趣的信号分量的响度的估计的装置及方法
。
技术介绍
[0002]音频及电视广播及后期制作中的响度监测具有较长历史,参见
[1]。
其使得能够响度控制,亦即调整节目材料的电平,使得其匹配目标响度,且从而改良语音可懂度及一般使用者体验
。
[0003]通常使用用于响度估计的输入信号的三个定义
。
[0004]根据第一定义,估计全输入信号的平均响度,且此类估计称为节目响度
(
参见
[2])。
[0005]第二定义指定当信号电平高于阈值时估计响度且从而排除安静部分
(
门控
)(
参见
[2])。
[0006]根据第三定义,通过在语音存在时估计响度来估计对话响度
(
参见
[2])。
[0007]对话响度适合于响度控制,这是由于一 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.
一种用于提供音频信号的感兴趣的信号分量的响度的估计的装置
(100)
,其中装置
(100)
包括:输入接口
(110)
,被配置为接收音频信号的多个样本,以及神经网络
(120)
,被配置为接收音频信号的多个样本或从音频信号的多个样本得出的多个得出值作为输入值,且被配置为从多个输入值确定至少一个输出值,使得至少一个输出值指示音频信号的感兴趣的信号分量的响度的估计
。2.
如权利要求1所述的装置
(100)
,其中音频信号同时包括音频信号的感兴趣的信号分量及其他信号分量,其中其他信号分量对感兴趣的信号分量的响度的估计的影响减小或不存在
。3.
如权利要求1或2所述的装置
(100)
,其中音频信号的感兴趣的信号分量为音频信号的语音分量,以及其中神经网络
(120)
被配置为从多个输入值确定至少一个输出值,使得至少一个输出值指示音频信号的语音分量的响度的估计
。4.
如权利要求3所述的装置
(100)
,其中音频信号同时包括音频信号的语音分量及背景分量,其中背景分量对语音分量的响度的估计的影响减小或不存在
。5.
如权利要求1或2所述的装置
(100)
,其中音频信号的感兴趣的信号分量为环境中的多个声源中的至少一个第一声源的声音分量,其中音频信号同时包括环境中的多个声源中的至少一个第一声源的声音分量及一个或多个其他声源的其他声音分量,其中神经网络
(120)
被配置为从多个输入值确定至少一个输出值,使得至少一个输出值指示至少一个第一声源的声音分量的响度的估计,其中一个或多个其他声源的其他声音分量对至少一个第一声源的声音分量的响度的估计的影响减小或不存在
。6.
如权利要求5所述的装置
(100)
,其中至少一个第一声源的声音分量为在环境中说话的多个人中的第一人的语音分量,其中一个或多个其他声源的其他声音分量为在环境中说话的多个人中的一个或多个其他人的其他语音分量,其中音频信号同时包括在环境中说话的第一人的等语音分量及一个或多个其他人的其他语音分量,其中神经网络
(120)
被配置为从多个输入值确定至少一个输出值,使得至少一个输出值指示第一人的语音分量的响度的估计,其中一个或多个其他人的其他语音分量对第一人的语音分量的响度的估计的影响减小或不存在
。7.
如权利要求5所述的装置
(100)
,其中至少第一声源的声音分量为环境中的多个非人类声源中的至少一个非人类声源的声音分量,其中一个或多个其他声源的其他声音分量为多个非人类声源中的一个或多个其他非
人类声源的其他声音分量,其中音频信号同时包括环境中的至少一个第一非人类声源的声音分量及一个或多个其他非人类声源的其他声音分量,其中神经网络
(120)
被配置为从多个输入值确定至少一个输出值,使得至少一个输出值指示至少一个第一非人类声源的声音分量的响度的估计,其中一个或多个其他非人类声源的其他声音分量对至少一个第一非人类声源的声音分量的响度的估计的影响减小或不存在
。8.
如权利要求5所述的装置
(100)
,其中至少一个第一声源的声音分量为环境中的一个或多个歌手的歌声,其中一个或多个其他声源的其他声音分量为伴随环境中的一个或多个歌手的歌声的伴奏乐器的声音分量,其中音频信号同时包括一个或多个歌手的歌声及伴奏乐器的声音分量,其中神经网络
(120)
被配置为从多个输入值确定至少一个输出值,使得至少一个输出值指示歌声的响度的估计,其中伴奏乐器的声音分量对歌声的响度的估计的影响减小或不存在
。9.
如上述权利要求中一个所述的装置
(100)
,其中神经网络
(120)
被配置为确定指示整个音频信号的响度的估计的至少一个其他输出值
。10.
如上述权利要求中一个所述的装置
(100)
,其中神经网络
(120)
被配置为确定指示在语音存在时音频信号的响度的估计的一个或多个其他输出值
。11.
如上述权利要求中一个所述的装置
(100)
,其中神经网络
(120)
被配置为确定指示音频信号的背景分量的响度的估计的另外一个或多个输出值
。12.
如上述权利要求中一个所述的装置
(100)
,其中装置
(100)
被配置为确定及输出指示音频信号的语音分量的部分响度的估计的至少一个其他输出值,其中音频信号的语音分量的部分响度取决于音频信号的语音分量的响度及音频信号的背景分量的响度
。13.
如上述权利要求中一个所述的装置
(100)
,其中装置
(100)
包括后处理器,被配置为取决于置信度信息来修改音频信号的感兴趣的信号分量的响度的估计,和
/
或被配置为输出置信度信息,其中置信度信息指示关于通过神经网络
(120)
进行的音频信号的感兴趣的信号分量的响度的估计是否可靠的可靠性,或其中置信度信息指示一个或多个值,一个或多个值指示通过神经网络
(120)
进行的音频信号的感兴趣的信号分量的响度的估计的可靠度
。14.
如权利要求
13
所述的装置
(100)
,其中后处理器被配置为将由神经网络
(120)
提供的至少一个输出值是否指示音频信号的感兴趣的信号分量的响度的估计高于音频信号的总响度,确定为置信度信息,以及其中,若由神经网络
(120)
提供的至少一个输出值指示音频信号的感兴趣的信号分量
的响度的估计高于音频信号的总响度,后处理器被配置为修改感兴趣的信号分量的响度的估计,使得音频信号的感兴趣的信号分量的响度等于音频信号的总响度,或后处理器被配置为输出置信度信息,置信度信息包括音频信号的感兴趣的信号分量的响度的估计不可靠的指示
。15.
如权利要求
13
或
14
所述的装置
(100)
,其中后处理器被配置为确定及输出置信度信息,置信度信息包括指示通过神经网络
(120)
进行的音频信号的感兴趣的信号分量的响度的估计的可靠度的置信度值,使得置信度值取决于音频信号的感兴趣的信号分量的响度的估计,且进一步取决于音频信号的其他信号分量的响度或响度的估计
。16.
如权利要求
15
所述的装置
(100)
,其中置信度值取决于音频信号的感兴趣的信号分量的响度的估计与音频信号的其他信号分量的响度或响度的估计之间的差,或其中置信度值取决于音频信号的感兴趣的信号分量的响度的估计与音频信号的其他信号分量的响度或响度的估计的比率
。17.
如上述权利要求中一个所述的装置
(100)
,其中神经网络
(120)
已使用多个数据训练项目被训练,其中多个数据训练项目中的每个包括一个或多个参考响度值及多个音频训练信号部分中的一个
。18.
如权利要求
17
所述的装置
(100)
,其中神经网络
(120)
已取决于损失函数被训练,其中,为确定在训练期间损失函数的返回值,神经网络
(120)
被配置为针对多个数据训练项目中的一个或多个数据训练项目中的每个确定音频训练信号部分的一个或多个响度值估计,且其中神经网络
(120)
已取决于损失函数被训练,使得损失函数的返回值取决于音频训练信号部分的一个或多个响度值估计及一个或多个数据训练项目中的每个的一个或多个参考响度值
。19.
如权利要求
18
所述的装置
(100)
,其中一个或多个数据训练项目中的数据训练项目的一个或多个参考响度值中的一个指示数据训练项目的音频训练信号部分的感兴趣的信号分量的响度,且其中数据训练项目的一个或多个响度值估计中的一个指示通过神经网络
(120)
对数据训练项目的音频训练信号部分的感兴趣的信号分量的响度的估计;和
/
或其中一个或多个数据训练项目中的数据训练项目的一个或多个参考响度值中的一个指示数据训练项目的音频训练信号部分的其他信号分量的响度,且其中数据训练项目的一个或多个响度值估计中的一个指示通过神经网络
(120)
对数据训练项目的音频训练信号部分的其他信号分量的响度的估计;和
/
或其中一个或多个数据训练项目中的数据训练项目的一个或多个参考响度值中的一个指示数据训练项目的整个音频训练信号部分的响度,且其中数据训练项目的一个或多个响度值估计中的一个指示通过神经网络
(120)
对数据训练项目的整个音频训练信号部分的响
度的估计;和
/
或其中一个或多个数据训练项目中的数据训练项目的一个或多个参考响度值中的一个指示在语音存在时数据训练项目的音频训练信号部分的响度,且其中数据训练项目的一个或多个响度值估计中的一个指示在语音存在时通过神经网络
(120)
对数据训练项目的音频训练信号部分的响度的估计,和
/
或其中一个或多个数据训练项目中的数据训练项目的一个或多个参考响度值中的一个指示数据训练项目的音频训练信号部分的感兴趣的信号分量的部分响度,且其中数据训练项目的一个或多个响度值估计中的一个指示通过神经网络
(120)
对数据训练项目的音频训练信号部分的感兴趣的信号分量的部分响度的估计
。20.
如权利要求
18
或
19
所述的装置
(100)
,其中损失函数根据下式限定:其中
Loss
指示损失...
【专利技术属性】
技术研发人员:克里斯蒂安,
申请(专利权)人:弗劳恩霍夫应用研究促进协会,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。