采用感知模型的语音增强制造技术

技术编号:4524588 阅读:276 留言:0更新日期:2012-04-11 18:40
公开了一种基于心理声学模型的语音增强,所述语音增强能够保留语音的保真度同时充分地抑制包含被称为“音乐噪声”的对人工产物的处理的噪声。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及音频信号处理。更具体地,它涉及噪声环境中的语音增强和净化(clarification)。 以引用方式包含的内容这里以引用方式分别包含以下公开出版物的全部内容。 [1S. F. Boll, "Suppression of acoustic noise in speech using spectralsubtraction,"7>"/w. y4co组,5^eee/ ' 尸"oce幼'"g, vol. 27,.pp. 113-120, Apr, 1979. B. Widrow and S. D. Stearns, ^Wa/ /ive 5Ygwfl/尸n cej5/wg. EnglewoodCliffs, NJ: Prentice Hall, 1985. Y, Ephraim and D. Malah, "Speech enhancement using'a minimummean square error Log-spectral amplitude estimator," 7Vw"51.力cowj/" 5"peec/j, SVg"fl//Vocw'"g, vol. 33, pp. 443-445, Dec. 1985. P. J. Wolfe and S. J. Godsill, "Efficient alternatives' to Ephraim and.Malah suppression rule for audio signal enhancement,"五L^S/P/oMma/ oat /i/7_p//ed 5Vgna/ /Voce咖'"g, vol, 2003, Issue 10, Pages 1043-1051,2003. R, Martin, "Spectral subtraction based on minimum statistics," £"OTCO, 1994, pp. U 82-1185.[7〗E. Terhardt, "Calculating Virtual Pitch," //e"〃'"g ^ejearA, pp.55-182, 1,979. 1SO/IEC JTC1 /SC29/WG11, //t/o應ft'o" fec/mo/ogy — CoW"g o/moW"g/n'c似r&s assocz'flfed a"^//od/g"a/加rage meWa ct《wjo /oa6oi" 7.5M歸-Pa/^: A我IS 11172-3, 1992 J. Johnston, "Transform coding of audio signals using perceptual noisecriteria," /£££V. Se/e".加o Co麵"n., vol, 6, pp. 314-323, Feb.1988. S. Gustafsson, P. Jax, P Vary,, "A novel psychoacoustically motivated audio enhancement algorithm preserving background noise characteristics," iVoceW"gs o//mmia"'oW Co _/^*e ce ow/4cowWcs, 5^eec/i, <3"d iS7g"a/ZVocew:"g, 1998. ICASSP '98. Yi Hu, and P. C. Loizou, "Incorporating a psychoacoustic model in frequency domain speech enhancement,"57g"a/尸rocewz."g 丄e/ter, pp. 270 — 273, vol. H, no. 2, Feb. 2004. (23)可使用其它心理声学模型获得掩蔽阈值附a。其它的可能性包含 (参考文献[8)中描述的心理声学模型I和模型II以及在(参考文献9)中说明的心理声学模型。抑制增益的计算(图3, 50)各子带的抑制增益^的值(/t-i, ...,m确定最终信号中的噪声降低和语音畸变的程度。为了得到最优的抑制增益,代价函数被定义 如下= A卩og,o 4 一 logl0 M ]2 + max语音畸变' -1 、 ,2(24)可感知噪声如下划线的括号表示的那样,该代价函数具有两个要素。标有"语 音畸变"的项是施加抑制增益&前后的语音分量幅度的log之间的差13值。标有"可感知噪声"的项是掩蔽阈值的log和施加抑制增益^之 后的估计的噪声分量幅度的log之间的差值。注意,如果在施加抑制 增益之后噪声分量的log低于掩蔽阈值,那么"可感知噪声,,项消失。 代价函数可被进一步表达为语音畸变1og,。g^ -会log,o,"(),O(25)可感知噪声式(25)中的语音畸变项与可感知噪声项的相对重要性由加权因子A确定,这里,0 S A < 00 (26)最优抑制增益使由式(25)表示的代价函数最小化。 g^argminC* (27)G关于A的导数祐:设为等于零,并且二阶导数被验证为正,从而产生以下规则^M22,吣A(28)否则式(28)可被解释如下假定Q是尿-O的情况下即与不考虑语音畸 变的情况对应的使代价函数Q最小化的抑制增益(29)1 否则很显然,由于《x^S^,因此施加&之后的子带信号中的噪声 的功率将不大于掩蔽阈值。因此,它将被掩蔽并变得听不见。换句话说,如果语音畸变不被考虑,即通过A-0使式(25)中的"语音畸 变"项为零,那么,G^是将未掩蔽的噪声分量抑制到可听度的阈值或 以下所需要的最优抑制增益。但是,如果考虑语音畸变,那么(^可能不再是最优的,并且会导致畸变。为了避免这一点,通过指数因子;u附)进一步修改最终的抑〔w〔〃制增益&,其中,加权因子A使语音畸变的程度相对于可感知噪声的程度平衡(见式25)。加权因子尿可由语音增强器的设计人员选择。 它也可以是取决于信号的。因此,加权因子A限定式(25)中的语音 畸变项与噪声抑制项之间的相对重要性,该相对重要性又驱动对于式 (29)的"非语音"抑制增益的修改程度。换句话说,A的值越大, 则"语音畸变"越多地主导对抑制增益&的确定。因此,尿在确定增强的信号的所得到的质量中起重要作用。 一般 而言,较大的A的值导致较小的畸变语音但较大的残留噪声。相反, 较小的A的值消除较多的噪声但以在语音分量中具有较多的畸变为代 价。在实际中,可根据需要调整爲的值。一旦获知^,就可获得增强的子带信号("对于R(附)施加&以 产生增强的子带信号g(m); A:-l,…,幻52:子带信号g(w)然后可用于产生增强的语音信号?(")(使用合成滤波器 组,从《(m)产生增强的语音信号只");*=1,…,IT) 54。时间索引m然后前进l ( "m—m+l" 56)并且重复图3的过程。实现可以在硬件或软件或两者的组合(例如,可编程的逻辑阵列)中 实现本专利技术。除非另外规定,否则,作为本专利技术的一部分包含的过程 不固有地与任何特定计算机或其它装置相关。特别地,本文档来自技高网...

【技术保护点】
一种用于增强由语音分量和噪声分量构成的音频信号的语音分量的方法,包括: 将所述音频信号从时域变换为频域中的多个子带, 处理所述音频信号的子带,所述处理包含响应控制而自适应地降低所述子带中的一些子带的增益,其中,至少部分地从所述子 带中的所述一些子带中的音频信号的噪声分量的幅度的估计得出所述控制,和 将处理后的音频信号从频域变换成时域以提供语音分量被增强的音频信号。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:俞容山
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1