一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质技术

技术编号:30407172 阅读:34 留言:0更新日期:2021-10-20 11:15
本发明专利技术公开了一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质,属于音视频处理技术领域。本发明专利技术的提取方法为:对两个声道的源分量能量之比进行估计,并求解音频在每帧的各正频率点分量值;然后获取环境分量相位角的最优估计;最后,通过共轭对称关系构建对应的负频率点分量值,并对每帧的各频率点分量值进行频域到时域的转换处理,得到待进行提取的双声道音频信号的左右升到的环境分量信号与源分量信号。本发明专利技术可用于立体声扩展,使得通道格式立体声音频可以与任意通道数的再现系统兼容。在音频质量方面,经本发明专利技术提取方法所提取出源分量、环境分量的时域波形与原始语音的左声道源分量、环境分量的波形具有高度一致性。高度一致性。高度一致性。

【技术实现步骤摘要】
一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质


[0001]本专利技术属于音频
,具体涉及一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质。

技术介绍

[0002]如今基于通道的音频格式得到了广泛应用,但基于通道的音频往往具有特定的播放配置,即它无法与不同的播放系统兼容。因此考虑到当今播放系统的多样性,需要对不同通道数的音频信号进行分解和重构以满足不同配置的播放系统,并获得更好的空间质量(spatial quality)。
[0003]传统的音频重构技术根据播放系统分为两类,一种是扬声器播放,常见技术有混音(audio remixing),另一种是耳机播放,常见技术有虚拟化(virtulization)等。基于文献《Spatial sound reproduction using conventional and parametric loudspeakers》和《Spatial audio processing:MPEG surround and other applications》可知,扬声器播放的音频重构需要额外的组件,导致相应的设备成本更加昂贵。另一方面耳机播放重构出的声音,其空间质量相对实录立体声还存在差距。
[0004]针对以上问题,一种改进的思路是通过前端算法处理的手段,建立立体声信号模型,使用音频的相位信息来营造更真实的空间听感。将双声道音频分解为源分量(primary component)和环境分量(ambient component)的线性组合,其中音频左右通道分别表示为x
L
和x
R
,并满足:x
L
=p
L
+a
L
,x
R
=p
L
+a
R
,其中p
L
、p
R
分别代表左右通道的源分量,a
L
和a
R
分别代表左右通道的环境分量。在文献《Primary

Ambient Extraction Using Ambient Spectrum Estimation for Immersive Spatial Audio Reproduction》中,提出了一种通过对每帧每个频点的环境分量相位做最优估计来实现源分量及环境分量提取的技术,但该方法的优化目标为每帧每频点的环境分量相位,在本专利技术的技术方案的实现过程中,专利技术人发现:实际生活中一种更常见的情况是不同帧相同频点处的环境分量相位差相同,因此没有必要对左、右声道每帧、每频点处的环境分量相位均做最优估计。

技术实现思路

[0005]本专利技术公开了一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质,以减小对双声道音频的进行源分量及环境分量提取时的计算量,提升运算速度。
[0006]一方面,本专利技术提供了一种基于双声道音频的一种改进的源分量及环境分量提取方法,包括下列步骤:
[0007]步骤1:估算左、右通道源分量之比k;
[0008]其中,r
00
、r
11
分别表示左右通道源分量的自相关系
数,r
01
表示左右通道源分量的互相关系数;
[0009]步骤2:对待进行分量提取的双声道音频信号进行分帧,将每帧信号变换到频域,并提取每一帧内左、右通道的的正频率点的音频信号分量x
L
[m,f]、x
R
[m,f],其中,m表示帧数,f表示频率值;
[0010]且:x
L
[m,f]=p
L
[m,f]+a
L
[m,f],x
R
[m,f]=p
R
[m,f]+a
R
[m,f];
[0011]其中,p
L
[m,f]、p
R
[m,f]分别表示左、右通道的正频点的源分量,a
L
[m,f]、a
R
[m,f]分别表示左、右通道的正频点的环境分量;
[0012]步骤3:根据公式θ[m,f]=∠(x
R
[m,f]‑
kx
L
[m,f])构造参数θ[m,f],即θ[m,f]为音频信号分量(x
R
[m,f]‑
kx
L
[m,f])所对应的正频点的相位;
[0013]步骤4:定义左、右通道环境分量的相位差为Δθ[f]=∠a
R
[m,f]‑
∠a
L
[m,f],其中,∠a
R
[m,f]、∠a
L
[m,f]分别表示环境分量a
R
[m,f]、a
L
[m,f]所对应的正频点的相位;
[0014]将相位差为Δθ[f]的取值范围(

π,π]等距离划分为多个值,得到多个离散的角度θ
i
,下标i表示角度编号;
[0015]遍历每个角度θ
i
,计算当相位差Δθ[f]的取值为θ
i
时的不同帧的同一频点的右声道源分量的1范数之和;
[0016]取不同帧同一频点的右声道源分量的1范数之和最小时的角度θ
i
作为相位差Δθ[f]的最优估计值;
[0017]步骤5:计算相位∠a
R
[m,f]和∠a
L
[m,f],其中∠a
R
[m,f]有两组计算结果,分别定义为∠a
R
[m,f][0]和∠a
R
[m,f][1]:
[0018][0019][0020]∠a
L
[m,f]=∠a
R
[m,f]‑
Δθ[f];
[0021]基于相位∠a
R
[m,f]和∠a
L
[m,f]计算左声道的正频点的环境分量和源分量:
[0022][0023]p
L
[m,f]=x
L
[m,f]‑
a
L
[m,f];
[0024]以及根据p
R
[m,f]=kp
L
[m,f]得到右声道的正频点的源分量p
R
[m,f];
[0025]其中,∠a
R
[m,f]∈{∠a
R
[m,f][0],∠a
R
[m,f][1]},并保留p
R
[m,f]最小的那一组计算结果,得到每帧的左、右声道的正频点的源分量p
L
[m,f]、p
R
[m,f];
[0026]即,当∠a
R
[m,f]=∠a
R
[m,f本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于双声道音频的一种改进的源分量及环境分量提取方法,其特征在于,包括:步骤1:估算左、右通道源分量之比k;其中,r
00
、r
11
分别表示左右通道源分量的自相关系数,r
01
表示左右通道源分量的互相关系数;步骤2:对进行分量提取的双声道音频信号进行分帧,将每帧信号变换到频域,并提取每一帧内左、右通道的正频率点的音频信号分量x
L
[m,f]、x
R
[m,f],其中,m表示帧数,f表示频率值;且:x
L
[m,f]=p
L
[m,f]+a
L
[m,f],x
R
[m,f]=p
R
[m,f]+a
R
[m,f];其中,p
L
[m,f]、p
R
[m,f]分别表示左、右通道的正频点的源分量,a
L
[m,f]、a
R
[m,f]分别表示左、右通道的正频点的环境分量;步骤3:根据公式θ[m,f]=∠(x
R
[m,f]

kx
L
[m,f])构造参数θ[m,f];步骤4:定义左、右通道环境分量的相位差为Δθ[f]=∠a
R
[m,f]

∠a
L
[m,f],其中,∠a
R
[m,f]、∠a
L
[m,f]分别表示环境分量a
R
[m,f]、a
L
[m,f]所对应的正频点的相位;将相位差Δθ[f]的取值范围(

π,π]等距离划分为多个值,得到多个离散的角度θ
i
,下标i表示角度编号;遍历每个角度θ
i
,计算当相位差Δθ[f]的取值为θ
i
时的不同帧的同一频点的右声道源分量的1范数之和;取不同帧同一频点的右声道源分量的1范数之和最小时的角度θ
i
作为相位差Δθ[f]的最优估计值;步骤5:计算相位∠a
R
[m,f]和∠a
L
[m,f],其中∠a
R
[m,f]有两组计算结果,分别定义为∠a
R
...

【专利技术属性】
技术研发人员:史创王苹洁杨浩聪刘英子
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1