当前位置: 首页 > 专利查询>武汉大学专利>正文

声场中空间感知信息量的度量方法及应用技术

技术编号:3826448 阅读:417 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种声场中空间感知信息量的度量方法及应用,该方法以空间感知熵SPE代表一个多声道音频信号中可以被感知到的空间信息量的大小,即表达双耳听音中人耳接收到的空间感知信息量的大小。以双耳听音模型为基础的SPE代表了一个多声道音频信号中可以被感知到的空间信息量的大小,是空间音频编码码率的下限,解决了以单耳听音模型为基础计算的感知熵无法度量声场中空间感知信息量的问题。

【技术实现步骤摘要】

本专利技术涉及一种声场中空间感知信息量的度量方法及应用,具体地说是一种 空间音频系统中基于双耳听音的空间感知信息量的度量方法及应用。
技术介绍
自1948年香农提出熵的概念,创立信息论以来,熵被用来作为信息的量度。 1988年,在香农熵的基础上Johnston提出感知熵(Perc印tual Entropy,以下 简称PE)的概念,并作为可感知音频信号信息的量度,回答感知音频编码的最 基本问题~"在无可感知失真的前提下最少需要多少比特才能表示一个音频序 列。感知熵的理论基础是心理声学,现有主流的感知音频编码器都将PE作为一 项重要的心理声学指标,如MP3和AAC编码器。传统感知音频编码中,以感知熵来估计音频序列中可感知信息量的大小,也 就是说,感知熵给出了信源无感知损失压縮的下限。与传统感知音频编码类似, 空间音频编码的最基本问题就是在无感知失真前提下最少需要多少比特才能表 示一个多声道音频序列的空间信息。2002年Faller和Baumgarte将多声道信号包含的音频信息和空间信息分离 并分别编码,提出了基于双耳线索的空间音频编码技术(Binaural Cues Coding, 以下简称BCC),与传统感知音频编码技术相比,其低码率高音质的优异表现受 到国内外研究机构的关注,成为近年来音频编码领域的研究热点。听觉系统通常有两个输入通道,即左耳和右耳,而以单耳听音模型为基础的 感知熵理论,只考虑了单耳听音的情况。心理声学的研究表明,双耳听音既不是 左耳和右耳听音的简单叠加,也不是左耳和右耳单独听音的平均,而是引入了新的信息,即空间定位信息。传统感知音频编码采取离散声道编码的系统框架,忽略了声道间蕴含的空间 信息。而在以BCC为基础发展起来的空间音频编码系统框架中,将多声道输入信 号的音频信息和空间信息分离并分别编码。在计算输入的多声道音频可感知信息 量时,对于采用下混技术获得的单声道信号依旧能够应用感知熵理论进行度量。3而对于采用空间参数提取技术获得的空间信息,当前的度量方法受自身度量模型 的限制,已经无法适用于空间感知信息量的度量,也就是说,以单耳听音模型为 基础计算的感知熵无法度量声场中的空间感知信息量,无法解决空间音频编码的最基本问题。
技术实现思路
本专利技术目的就在于克服上述现有技术的不足,提出一种声场中空间感知信息 量的度量方法及应用,本专利技术以空间感知熵SPE (Spatial Perc印tual Entropy, 简称SPE)代表一个多声道音频信号中可以被感知到的空间信息量的大小,即表 达双耳听音中人耳接收到的空间感知信息量的大小。一种声场中空间感知信息量的度量方法,包括以下步骤(1) 对输入音频信号进行分帧、时频变换处理,由临界频带滤波单元模拟 听觉系统临界频带滤波过程,确定临界频带的划分规则,确定空间参数集的选取。(2) 对空间参数进行计算,得到各空间参数在临界频带上的数值。(3) 由噪音叠加单元处理由空间参数有限分辨率导致的信息量损失,计算 各空间参数所包含的有效感知量。(4) 由SPE度量单元计算输入信号所具有的空间感知熵SPE。在上述的空间感知信息量的度量方法中,在步骤l中,空间参数包含了声场 中的各种空间参数,如双耳线索参数、高度角线索参数、距离线索参数和水平偏 向角线索参数等。在上述空间感知信息量的度量方法的步骤(1)中,用临界频带滤波单元模 拟听觉系统临界频带滤波过程,临界频带滤波单元是耳蜗的频率位置映射的一个 信号处理模型,由若干个子带的滤波器组成,每个频带的宽度为一个临界带宽。 根据心理声学,每个临界频带可以近似作为一个独立听觉单元,不同临界频带间 的影响忽略不计,只有来自左右耳同一个临界频带的信号才作为一次空间参数计 算的输入。在上述空间感知信息量的度量方法的步骤(2)中,从步骤(1)的输出信号 中提取待度量的空间参数,用a,/ ,&S…表示。由空间参数计算单元对提取的 空间参数进行计算,得到各空间参数在临界频带上的数值。在上述的空间感知信息量的度量方法的步骤(3)中,各空间参数所叠加的 噪音需要体现听觉系统有限精度与神经系统的内在的噪音以及多声源干扰、反 射、混响等非理想因素。这些因素联合使得空间参数具有一定的有限分辨率,在 心理声学上被称为恰可感知差异,它反映了听觉系统总体的灵敏度,记为Aa,A",A5,As...。对于不同的参数其有限分辨率不同。在不考虑这些参数之 间影响的条件下,空间参数的有效感知量估计式如下-其中,a为选取的空间参数,6为频带标志,a(6)为空间参数a在频带Z)上 的数值,Aa(6)为空间参数a在该频带的分辨率,^^(6)为空间参数a在频带6上所具有的有效感知量。在上述的空间感知信息量的度量方法的步骤(4)中,将信息度量单元输出 的信号输入SPE度量单元。空间感知熵SPE包含了所有空间参数的有效感知量, 但考虑各空间参数之间的相互影响,SPE并不是各空间参数有效感知量的简单叠 加,而是小于各空间参数在全频带上有效感知量之和。采用下面的空间感知熵估 计式计算SPE:其中,O"反映了听觉感知的幅度压缩,iV是变换帧长,w为划分的频带数。 ^(6)表示该空间参数a在6频带上所具有的有效感知量。声场中空间感知信息量的度量方法的应用,首先按上述方法计算多路信号的 空间感知熵SPE,然后在编码中,将SPE作为音频编码的下限码率,并指导空间 参数的选取以及空间参数的量化编码。本专利技术以空间感知熵SPE代表一个多声道音频信号中可以被感知到的空间 信息量的大小,即表达双耳听音中人耳接收到的空间感知信息量的大小。以双耳 听音模型为基础的SPE代表了一个多声道音频信号中可以被感知到的空间信息 量的大小,是空间音频编码码率的下限。解决了以单耳听音模型为基础计算的感知熵无法度量声场中的空间感知信息量,无法解决空间音频编码的最基本问题。 附图说明图l为本专利技术方法的流程图。图2为巴克频带划分规则示意图。图3为神经兴奋度曲面图。图4为IC对ILD/ITD影响示意图。图5为空间感知信息量度量方法在音频编码中的应用框图。 具体实施例方式声场中空间感知信息量的度量方法其流程如图l所示,包括以下歩骤-(1)由预处理单元对输入音频信号进行分帧、时频变换处理。以1024采样 点为分帧单位,采用FFT变换实现时域信号到频域信号的转换。由临界频带滤波单元模拟听觉系统临界频带滤波过程,确定临界频带的划分 规则。临界频带滤波单元采用巴克带划分规则,由25个子带的滤波器组成,每 个频带的宽度为一个临界带宽,巴克频带划分规则示意图如图2所示。由空间参数选取单元确定空间参数集的选取,空间参数选取单元包含了声场 中的各种空间参数,如双耳线索参数,高度角线索参数,距离线索参数和水平偏 向角线索参数等等。(2)由空间参数计算单元将空间参数选取单元输出的空间参数进行计算, 得到各空间参数在临界频带上的数值。从步骤(1)的输出信号中提取待度量的 空间参数,用",>5,(5^...表示,计算各空间参数在各频带上的具体数值。(3)由噪音叠加单元处理由空间参数有限分辨率导致的信息量损失,各空间 参数所叠加的噪音需要体现听觉系统有限精度与神经系统的内在的噪音,以及多 声源干扰、反射、混响等非理想因素本文档来自技高网
...

【技术保护点】
一种声场中空间感知信息量的度量方法,其特征在于包括以下步骤: (1)对输入的音频信号进行分帧、时频变换处理,模拟听觉系统临界频带滤波过程,确定临界频带的划分规则,选取声场中的各种空间参数集; (2)对空间参数进行计算,得到各空间 参数在临界频带上的数值; (3)测量空间参数的有限分辨率,由下式计算各空间参数所包含的有效感知量: q↓[α](b)=2「|α(b)/Δα(b)|」 其中,α表示选取的空间参数,b为频带标志,α(b)为空间参数α在频带b上 的数值,Δα(b)为空间参数α在该频带的分辨率,qα(b)表示空间参数α在频带b上所具有的有效感知量; (4)由下式计算输入信号所具有的空间感知熵SPE: SPE=*1/N*σq↓[α](b) 其中,q↓[α](b)表示空 间参数α在频带b上所具有的有效感知量,σ为听觉感知的幅度压缩,N是FFT变换的帧长,n为划分的频带数; SPE即为一个多声道音频信号中可以被感知到的空间信息量的大小。

【技术特征摘要】

【专利技术属性】
技术研发人员:胡瑞敏陈水仙陈文琴张磊王恒曹晟陈冰陈琪
申请(专利权)人:武汉大学
类型:发明
国别省市:83[中国|武汉]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1