当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于三维空间音频感知的音源分离方法技术

技术编号:7466718 阅读:250 留言:0更新日期:2012-06-29 06:11
本发明专利技术提出一种基于三维空间音频感知的音源分离方法,输入声道的音频信号,将其变换至某一特定变换域;基于空间三维空间音频感知理论和人耳空间听觉理论,在个声道的变换域中提取各音源信号的空间线索;根据各音源信号的空间线索的分布概率,在该变换域中分离各音源信号;将变换域中的各分离音源信号还原至时域,实现一种基于空间线索的音源分离方法。本发明专利技术针对实际安防监控环境的复杂多变性,将三维音频、空间音频与音源分离技术相交叉、结合,研究多个音源的空间线索的混合规律,提出了一种基于三维空间音频感知的音源分离方法,从而能够在复杂多变、噪声干扰的实际监控环境中分离出重点音源信号,为多媒体安防、刑侦监控提供了新的技术支持。

【技术实现步骤摘要】

本专利技术涉及音源分离
,尤其是涉及。
技术介绍
近年来,随着“911事件”、“英国伦敦大爆炸”、新疆暴力事件等恐怖事件的增多,世界各国对安全防范系统更为重视,纷纷通过大幅增加财政投入,大量部署安全防范系统,来增强对突发事件的应对能力。2009年我国的安防监控市场总体上处于平稳上升的趋势。据安防行业的调查报告显示,在平安城市、城市报警与监控系统(“3111”工程)、奥会运、世博会、国庆60周年庆典等大型项目的推动下,2009年我国仍处于安防设施建设的高峰期,行业整体发展势头良好, 与2008年相比增长约在10%,市场总体规模保持在1500亿元左右。传统安防技术通常倚重于视频监控资源,然而音频监控资源却能提供一些视频监控资源无法提供的信息。例如,犯罪嫌疑人的声音特征、作案工具声音特征(枪声)等,可为刑侦破案提供有效的技术支撑。然而,在实际安防、刑侦工作中,音频监控信号往往是多个信号成分混和在一起的,并且还包括噪声干扰。由于源信号混合方式未知,源信号也不能被观测,因此必须采用音源分离技术对混合音频信号进行处理,以分离出对刑侦破案有用的音源信号。传统音源分离技术把多输入多输出声学系统当作一个“黑匣子”,在恢复源信号的过程中不考虑系统的内部结构,即不考虑空间声学的特性如独立语音源的方位,从而无法适用于实际复杂多变的安防监控环境。综上所述,提升在复杂多变、噪声干扰的实际安防监控环境中的音源分离效果,是目前音源分离
的关键瓶颈问题,是急需解决的重大难题。
技术实现思路
为了提升在实际复杂多变的安防监控环境中的音源分离效果,本专利技术提出了。本专利技术提出的基于三维空间音频感知的音源分离方法,包括以下步骤步骤1,输入《声道的音频信号,将音频信号变换至变换域,《>2 ;步骤2,基于空间三维空间音频感知理论和人耳空间听觉理论,在W个声道的变换域中提取各音源信号的空间线索;步骤3,根据各音源信号的空间线索的分布概率,在该变换域中分离各音源信号; 步骤4,将步骤3所得变换域中各分离的音源信号还原至时域,得到基于三维空间音频感知的音源分离结果。而且,所述变换域为时频域,所述空间线索为耳间相对延时和耳间相对衰减。而且,步骤3的具体实现方式如下,根据各音源信号的空间线索的分布概率,构造概率分布的二维直方图; 所述二维直方图的二维平面中的横坐标和纵坐标分别为耳间相对延时和耳间相对衰减,竖轴是音源信号的空间线索的分布概率;根据二维直方图中的峰值坐标,通过聚类算法将距离峰值坐标最近的时频点划归为一类;使用二进制时频掩码技术将音源信号根据时频点的分类标记,在时频域实现音源分离。综上所述,针对实际安防监控环境的复杂多变性,本专利技术将三维音频、空间音频与音源分离技术相交叉、结合,研究多个音源的空间线索的混合规律,提出了,从而能够在复杂多变、噪声干扰的实际监控环境中分离人声、 枪声等对刑侦破案有用的重点音源信号,为多媒体安防、刑侦监控提供了新的技术支持。附图说明图1是本专利技术实施例的流程图。图2是本专利技术实施例的时频变换步骤示意图。图3是本专利技术实施例的空间线索提取步骤示意图。图4是本专利技术实施例的空间线索分布概率的二维直方图。图5是本专利技术实施例的时频域分离步骤示意图。图6是本专利技术实施例的逆时频变换步骤示意图。具体实施例方式以下结合附图和实施例详细说明本专利技术技术方案。本专利技术实施例提供的基于三维空间音频感知的音源分离方法包括以下几个步骤, 流程图参见图1 步骤1,输入《声道(《22 )的音频信号,将其变换至某一特定变换域; 实施例中,《取值为2,即包含左声道和右声道的双声道立体声音频信号和而(0 ,如图2所示,采用短时傅里叶变化(Short Time Fourier iTransf orm,简记STFT )将立体声音频信号巧(0、5(0变换到时频域,得到信号巧&钓、巧象劝。其中变量代表时间, 象劝代表时频域,变量I代表时间、Φ代表频率、。具体变换实现采用现有短时傅里叶变换(傅里叶级数)的公式即可,分别如式1、式 2所示,将输入的时域立体声音频信号巧(0、巧(0加载汉明窗函数,(O后变换到时频域,得到时频域的信号巧良 )、巧久 )。&(l, ) = Fw = ~^=厂 Ψ(β'- )Χι(β^' '(1)42π “其中,W(t'-t)表示对音频信号加载滑动窗函数、^irf是傅里叶变换中的角频率、PwU表示对信号加载汉明窗函数后并进行傅里叶变换,即短时傅里叶变换。具体实施时,还可变换到其他变换域。步骤2,基于空间三维空间音频感知理论和人耳空间听觉理论,在η个声道的变换域中提取各音源信号的空间线索。三维空间音频感知是基于人耳空间听觉的生理声学和心理声学,包括了耳间相对延时、耳间相对衰减,以及耳间相关度等空间线索参数。其中,耳间相对延时表示同一个声源发出的声音到达左、右耳的时间差,耳间相对衰减表示同一个声源发出的声音到达左、右耳的强度差,耳间相关度表示同一声源发出的声音到达左、右耳的信号相关度。本专利技术实施例选择耳间相对延时和耳间相对衰减。具体实施时,还可选择其他参数。实施例中,立体声音频信号包含了 5个音源信号,如图3所示,提取各分离音源信号的空间线索参数,记为空间线索办劝、空同线索办 )、空间线索办 )、 空间线索4( , )、空间线索。具体实施时,采用了部分空间线索参数,包括了耳间相对延时5( , )与耳间相对衰减0^ 劝。如式3所示,提取各分离音源的相对延时5(1^ ;如式4所示,提取各分离音源的相对衰减劝;其中,Z表示求复数的相位角。步骤3,根据各音源信号的空间线索的分布概率,在该变换域中分离各音源信号。实施例中,根据各音源的空间线索的分布概率,构造概率分布的二维直方图,如图4所示,图中的每一个峰值代表各个分离的音源,峰值的横纵坐标分别表示音源信号的空间线索(耳间相对延时与耳间相对衰减钓)。如图4中,二维平面的一个轴是巧化 )和她 )的耳间相对衰减(Symmetric attenuation),即α( ,ω),另一个轴是;T1(I1OJ)和χ2( ,ω)的耳间相对延时(Relative delay),即δ(β,ω),竖轴是分布概率(weight)。每一个时频点象劝上可以提取耳间相对延时与耳间相对衰减^^, ),然后综合所有变化到时频域所得时频点,就能够按比例分配计算出空间线索的分布概率。例如,总共有1000个时频点,从其中的100个时频点中提取了空间线索”从200个时频点中提取了空间线索2,从300个时频点中提取了空间线索3,则空间线索i的分布概率就是10%, 空间线索2的分布概率就是20%,空间线索3的分布概率就是30%。具体实施时,首先通过K-means聚类算法或其他现有聚类算法,在二维直方图中确定代表各分离音源信号的峰值的坐标;然后,计算出二维直方图中的二维平面上的各个时频点仏劲与各分离音源信号的峰值坐标的欧氏距离,将距离峰值坐标最近的时频点划归为一类;最后,使用二进制时频掩码技术将各个音源信号标记,在时频域实现音源分离。其中,二进制时频掩码技术为现有技术。具体实现为每一个时频点被划分到哪个音源信号,通过二进制时频掩码控制,其中,^.¢!,^€{0,1}。若 Mj(i,ω) = ,则巧良 )不被划分到音源;本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:胡瑞敏常迪杨玉红林霞杨婉怡涂卫平王晓晨董石
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术