话音活动检测单元及包括话音活动检测单元的听力装置制造方法及图纸

技术编号:17618703 阅读:28 留言:0更新日期:2018-04-04 09:09
本申请公开了话音活动检测单元及包括话音活动检测单元的听力装置,其中所述话音活动检测单元配置成接收至少两个电输入信号在多个频带和多个时刻的时频表示Yi(k,m),i=1,…,M,k为频带指数,m为时间指数,及k和m的特定值定义电输入信号的特定时频瓦,所述电输入信号包括源自目标信号源的目标语音信号和/或噪声信号,所述话音活动检测单元配置成提供包括一个或多个参数的合成话音活动检测估计量,其标示给定时频瓦是否包括或者何种程度地包括目标语音信号;其中所述话音活动检测单元包括第一检测器,用于分析电输入信号的所述时频表示Yi(k,m)及识别所述电输入信号的空间谱特性,及用于根据所述空间谱特性提供合成话音活动检测估计量。

Voice activity detection unit and hearing device including voice activity detection unit

The application discloses a voice activity detection unit and a hearing device including a voice activity detection unit, wherein the voice activity detection unit is configured to receive at least two electrical input signals, representing Yi (k, m) at multiple frequency bands and multiple times, I = 1,... M, K, as the band index, m index and k m time, and the specific value of the definition of the electrical input signal with specific time-frequency tiles, the electrical input signal from the signal source including target speech signal and / or noise signal, the voice activity detection unit is configured to provide a voice synthesis activities include one or more parameters of the detection estimation of timing and frequency to the label whether or to what extent including tile including the target speech signal; wherein the voice activity detection unit includes a first detector for the analysis of the electrical input signal of the time-frequency representation of Yi (k, m) and the identification of the electrical input signal space the spectral characteristics, and used according to the characteristics of the spatial spectrum estimator provides synthetic voice activity detection.

【技术实现步骤摘要】
话音活动检测单元及包括话音活动检测单元的听力装置
本专利技术涉及便携电子设备或可穿戴设备如听力装置例如助听器中的话音活动检测如语音检测。
技术介绍
通常,助听器用户感兴趣的信号为语音信号,例如对话伙伴产生的语音信号。许多目前技术发展水平的助听器中的机载信号处理算法的基本目标是以适当的方式(即放大、增强等)将目标语音信号呈现给助听器用户。为此,这些信号处理算法依赖于某些类型的话音活动检测机制:如果传声器信号中存在目标语音信号,该信号可进行不同于不存在目标语音信号情形的处理。此外,如果目标语音信号活跃,其对于许多助听器信号处理算法获得关于目标源相对于助听器系统的传声器位于何处的信息有价值。针对语音活动检测(或者,更一般地,语音存在概率估计)已提出许多方法。单传声器方法通常依赖于有噪声语音信号的调制深度(如在子频带内观察)在存在语音时高于不存在语音情形的观测结果,例如参见[1]中的第9章、[2]中的第5和6章及其中引用的文献。基于多传声器的方法也已提出,例如参见[3],其估计来自特定已知方向的语音信号何种程度地活跃。
技术实现思路
话音活动检测器在本申请的一方面,提供话音活动检测单元。该话音活动检测单元配置成接收至少两个电输入信号在多个频带和多个时刻的时频表示Yi(k,m),i=1,…,M,k为频带指数,m为时间指数,及k和m的特定值定义电输入信号的特定时频瓦(tile)/时频窗口。电输入信号包括源自目标信号源的目标语音信号和/或噪声信号。话音活动检测单元配置成提供包括一个或多个参数的合成话音活动检测估计量,其标示给定时频瓦是否包括或者何种程度地包括目标语音信号。话音活动检测单元包括第一检测器,用于分析电输入信号的所述时频表示Yi(k,m)及识别所述电输入信号的空间谱特性,及用于根据所述空间谱特性提供合成话音活动检测估计量。从而可提供改善的话音活动检测。在实施例中,提供弥散背景噪声中的点声源(如语音)的改善的识别。在本说明书中,术语“根据Y估计或确定X”意为Y的值受X的值影响,例如Y为X的函数。在本说明书中,话音活动检测器(通常记为“VAD”)提供话音活动检测估计量或测度形式的输出,其包括标示输入信号(在给定时间)是否包括或者何种程度地包括目标语音信号的一个或多个参数。话音活动检测估计量或测度可采取话音活动如语音活动的二元或者渐次(如基于概率的)标示,或者其中间测度,例如当前信噪比(SNR)或者相应的目标(语音)信号和噪声估计量的形式,例如它们在给定时间点(例如基于时频瓦或单位级(k,m))的功率或能含量。在实施例中,话音活动检测估计量标示语音或者包含语音类元素的其它人类发声如歌声或尖叫。在实施例中,话音活动检测估计量标示来自类点(点状)源的语音或者包含语音类元素的其它人类发声,例如来自相对于话音活动检测单元的位置(例如相对于佩戴包括话音活动检测单元的便携听力装置的用户)处于特定位置的人。在实施例中,“语音”的标示为“来自点(或类点)源(如人类)的语音”的标示。在实施例中,“无语音”的标示指明“没有来自点(或类点)源(如人类)的语音”。空间谱特性(例如及话音活动检测估计量)可包括至少两个电输入信号的一个或多个中或者其组合中在给定时间点(例如基于时频瓦级(k,m))分别源自类点声源和其它(弥散)声源的功率或能含量的估计量。即使声信号包含早期反射(如通过头部、躯干和/或耳廓滤波),该信号仍可视为定向或类点信号。在同一时间帧内,通过视向量dearly(m)描述的早期反射将加到通过视向量ddirect(m)描述的直接声音,简单地导致新的视向量dmixed(m),及合成的声学声音仍通过秩1协方差矩阵CX(m)=λX(m)dmixed(m)dmixed(m)H描述。另一方面,如果存在例如因房间墙壁引起的后期反射(例如具有50ms以上的延迟),这样的后期反射贡献于表现为不太完全分开(更弥散)的声源(由满秩协方差矩阵反映)并优选按噪声对待。在实施例中,话音活动检测估计量标示给定时频瓦是否包含目标语音信号。在实施例中,话音活动检测估计量为二元估计量,例如为两个值如(1、0)或者(语音、无语音)。在实施例中,话音活动检测估计量为渐次估计量,例如包括大于2的多个值,或者跨越连续的值范围,例如在最大值(如1,例如标示仅包含语音)和最小值(如0,例如标示仅为噪声(根本无语音元素))之间。在实施例中,话音活动检测估计量标示给定时频瓦是否目标语音信号为主。第一检测器接收多个电输入信号Yi(k,m),i=1,…,M,其中M大于或等于2。在实施例中,输入信号Yi(k,m)源自位于用户的同一耳朵处的输入变换器。在实施例中,输入信号Yi(k,m)源自空间上分离的输入变换器,例如位于用户的两耳朵处。在实施例中,话音活动检测单元包括或连接到用于提供至少两个电输入信号的至少两个输入变换器,其中空间谱特性包括从目标信号源到至少两个传声器的声学传递函数或者从参考输入变换器到至少一另一输入变换器如到(至少两个输入变换器中的)所有其它输入变换器的相对声学传递函数。在实施例中,话音活动检测单元包括或连接到至少两个输入变换器(如传声器),每一输入变换器提供对应的电输入信号。在实施例中,声学传递函数(ATF)或者相对声学传递函数(RATF)按时频表示(k,m)确定。话音活动检测单元可包括(或有权使用)针对用户周围的多个方向如水平角(及可能针对距用户的多个距离)的预定声学传递函数(或相对声学传递函数)的数据库。在实施例中,空间谱特性(及例如话音活动检测估计量)包括目标声源方向或目标声源位置的估计量。空间谱特性可包括电输入信号的视向量的估计量。在实施例中,视向量由M×1向量表示,其包括从目标信号源(处于相对于用户的特定位置)到将电输入信号传送到相对于所述输入单元(如传声器)之中的参考输入单元(如传声器)的话音活动检测单元(或者包括话音活动检测单元的听力装置)的任何输入单元(如传声器)的声学传递函数。在实施例中,空间谱特性(及例如话音活动检测估计量)包括每一时频瓦(k,m)的目标信号-噪声比(SNR)的估计量。在实施例中,每一时频瓦(k,m)的目标信号-噪声比的估计量通过能量比(PSNR)确定并等于所涉及的输入变换器(如参考输入变换器)处的目标信号的功率谱密度的估计量与该输入变换器(如参考输入变换器)处的噪声信号的功率谱密度的估计量的比。在实施例中,合成话音活动检测估计量包括所述能量比(PSNR)或者根据所述能量比(PSNR)确定,例如在后处理单元中。在实施例中,合成话音活动检测估计量为二元估计量,例如具有1或0的值,例如对应于存在语音或者不存在语音。在实施例中,合成话音活动检测估计量为渐次估计量(例如在0和1之间)。在实施例中,如果所述能量比(PSNR)高于第一PSNR比,合成话音活动检测估计量标示(来自类点声源的)语音的存在。在实施例中,如果所述能量比(PSNR)低于第二PSNR比,合成话音活动检测估计量标示语音不存在。在实施例中,第一和第二PSNR比相等。在实施例中,第一PSNR比大于第二PSNR比。基于信噪比估计量的二元决策掩码已在[8]中提出,其中对于局部输入SNR估计量小于0dB阈值的所有T-F窗口,决策掩码等于0;否则等于1。0dB的最小SNR假定对本文档来自技高网...
话音活动检测单元及包括话音活动检测单元的听力装置

【技术保护点】
一种话音活动检测单元,配置成接收至少两个电输入信号在多个频带和多个时刻的时频表示Yi(k,m),i=1,…,M,k为频带指数,m为时间指数,及k和m的特定值定义电输入信号的特定时频瓦,所述电输入信号包括源自目标信号源的目标语音信号和/或噪声信号,所述话音活动检测单元配置成提供包括一个或多个参数的合成话音活动检测估计量,其标示给定时频瓦是否包括或者何种程度地包括目标语音信号;其中所述话音活动检测单元包括第一检测器,用于分析电输入信号的所述时频表示Yi(k,m)及识别所述电输入信号的空间谱特性,及用于根据所述空间谱特性提供合成话音活动检测估计量。

【技术特征摘要】
2016.09.26 EP 16190708.41.一种话音活动检测单元,配置成接收至少两个电输入信号在多个频带和多个时刻的时频表示Yi(k,m),i=1,…,M,k为频带指数,m为时间指数,及k和m的特定值定义电输入信号的特定时频瓦,所述电输入信号包括源自目标信号源的目标语音信号和/或噪声信号,所述话音活动检测单元配置成提供包括一个或多个参数的合成话音活动检测估计量,其标示给定时频瓦是否包括或者何种程度地包括目标语音信号;其中所述话音活动检测单元包括第一检测器,用于分析电输入信号的所述时频表示Yi(k,m)及识别所述电输入信号的空间谱特性,及用于根据所述空间谱特性提供合成话音活动检测估计量。2.根据权利要求1所述的话音活动检测单元,配置成使得所述话音活动检测估计量由所述至少两个电输入信号的一个或多个中或者其组合中在给定时间点的功率或能含量的估计量表示或者包括所述功率或能含量的估计量,所述功率或能含量分别源自a)类点声源和b)其它声源。3.根据权利要求1所述的话音活动检测单元,其中所述空间谱特性包括目标信号源的方向或者目标信号源的位置的估计量。4.根据权利要求1所述的话音活动检测单元,其中所述话音活动检测单元包括或连接到用于提供所述电输入信号的至少两个输入变换器,其中空间谱特性包括从目标信号源到至少两个传声器的声学传递函数或者从参考输入变换器到所述至少两个输入变换器之中的至少一另一输入变换器的相对声学传递函数。5.根据权利要求1所述的话音活动检测单元,其中所述空间谱特性包括每一时频瓦(k,m)的目标信号-噪声比的估计量。6.根据权利要求4所述的话音活动检测单元,其中每一时频瓦(k,m)的目标信号-噪声比的估计量通过输入变换器处的目标信号的功率谱密度的估计量与该输入变换器处的噪声信号的功率谱密度的估计量的能量比确定。7.根据权利要求1所述的话音活动检测单元,包括第二检测器,用于分析所述至少两个电输入信号中的一个或多个的时频表示Yi(k,m),及识...

【专利技术属性】
技术研发人员:J·詹森M·S·佩德森
申请(专利权)人:奥迪康有限公司
类型:发明
国别省市:丹麦,DK

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1