包括低延时声源分离单元的听力装置制造方法及图纸

技术编号:13171465 阅读:31 留言:0更新日期:2016-05-10 14:53
本发明专利技术公开了包括低延时声源分离单元的听力装置,其包括:输入单元;适合保存最后A个音频样本的循环分析缓冲器单元;及适合保存最后L个音频样本的循环合成缓冲器单元;已保存记录的声音例子的数据库,每一记录的声音例子称为原子,对于每一原子,来自第一缓冲器的音频样本与来自第二缓冲器的音频样本重叠,源自第一缓冲器的原子构成重构字典,源自第二缓冲器的原子构成分析字典;声源分离单元,用于分离电输入信号以提供表示至少两个声源的至少两个分离信号,所述声源分离单元配置成,考虑数据库的分析字典中的原子确定最后A个音频样本的最佳表示,及通过使用最佳表示组合数据库的重构字典中的原子而产生L个音频样本的至少两个分离信号。

【技术实现步骤摘要】

本申请涉及听力装置,尤其涉及多声源环境中的声源分离。本专利技术具体涉及包括 用于提供表示来自多个声源产生的声音环境的声音的一个或多个电输入信号的输入单元 的听力装置。 本申请还涉及多声源环境中分离声源的方法。 本申请还涉及包括处理器和程序代码的数据处理系统,程序代码使得处理器执行 本专利技术方法的至少部分步骤。 本专利技术的实施例如可用在下述应用中:听力装置如助听器、头戴式耳机、耳麦、有 源耳朵保护系统、免提电话系统、移动电话、远程会议系统、广播系统、卡拉OK系统、教室放 大系统等。
技术介绍
音频声源分离包括分离音频混合物(音频混合物包括来自声场中混合的多个声 源的声音)内的不同成分声源的任务。目前,解决该问题的大多数方法已"离线"执行,意 味着整个音频混合物在分离时存在(通常为数字式录音的形式),而不是"实时"存在,其中 随着新的音频数据进入系统,声源被分离。在鸡尾酒会情形下,多个竞争性讲话者的存在使 得听单一声源传输的信息很困难,但成功的声源分离能够一次向听者呈现仅从单一讲话者 呈现的?目息。 为使声源分离可用在真实通信情形中,其应实时进行或以非常低的延时进行。如 果在讲出的音频和分离的音频之间出现明显的处理时延,听者可能被讲话者嘴巴运动和对 应的音频之间的不同步弄得烦恼不安,及较少获益于可能的唇读。因此,以低延时(如在进 入和离开系统的音频样本之间低于20ms)运行的声源分离方法是有利的。当前的(基于附 加混合模型的)声源分离方法依赖于使用相当长的分析帧(通常为>50ms级),如果直接实 施,其将违反低延时要求。 在本说明书中,仅考虑我们称为"数据延时"的延时,因为假定在正确的实施和计 算能力下实际的处理算法可及时执行。 针对两讲话者混合问题存在多个解决方案。 -些对实时非负矩阵因数分解(NMF)的研究已提供好的结果,但并未考虑处理足 够小以产生助听器应用所需要的延时性能(<20ms)的窗口大小。同样,概率潜在分量分析 (PLCA)方法也主张实时性能,但作用于长度为64ms的帧时,其不满足助听器用户的延时需 求。 直到目前为止,大多数基于NMF的算法已设计成"离线"运行,然而,将要进行分离 /增强的整个混合信号立刻可用于处理算法。 尽管已报导一些提供实时解决方案的尝试,但仍需要在正常运行期间在听力装置 中给出令人满意的结果的解决方案。
技术实现思路
本专利技术提出使用将要分离的每一声源特有的字典及专用的帧处理方法解决实时 声源分离的问题,以提供增强的分离,即使对于短处理帧也是如此(其产生最低延时)。通 过将先前的输入帧的高速缓存保存在循环缓冲器中,可得到将基于较大的时间上下文输出 的当前帧的滤波器系数。此外,相较于单独使用短输入帧,可获得更好的低延时声源分离性 能。 本申请的目标由所附权利要求限定的及下面描述的专利技术实现。 听力装詈 一方面,本申请的目标由一种听力装置实现,其包括: -输入单元,用于递送表示包括至少两个声源的音频信号的时变电输入信号; -适合保存最后A个音频样本的长度为A的循环分析缓冲器单元;及 -适合保存最后L个音频样本的长度为L的循环合成缓冲器单元,其中L小于A, L个音频样本计划分开在各个声源中; -已保存来自至少两个声源的记录的声音例子的数据库,数据库中的每一条目 (记录的声音例子)称为原子,这些原子源自来自大小对应于合成和分析缓冲器单元的第 一和第二缓冲器的音频样本,对于每一原子,来自第一缓冲器的音频样本与来自第二缓冲 器的音频样本重叠,及其中源自第一缓冲器的原子构成重构字典,及其中源自第二缓冲器 的原子构成分析字典。 听力装置还包括声源分离单元,用于分离电输入信号以提供表示至少两个声源的 至少两个分离信号,声源分离单元配置成,如果原子在数据库的分析字典中,确定最后A个 音频样本的最佳表示(W),及通过使用最佳表示(W)组合数据库的合成(重构)字典中的原 子而产生至少两个分离信号。 本专利技术基于方法的增强最后L个样本与最后A个样本的分离的能力,其中L〈A,同 时分离L个音频样本中存在的各个声源(如话音)。该方法从由长度为A的所记录例子组 成(或源自其)的数据库计算最后A个音频样本的表示,表示W的定义,如加权和的权重, 如组分(如附加)模型定义的,之后应用于来自长度为L的数据库的所记录例子以提供合 成缓冲器的当前内容的当前分离信号。 在实施例中,至少两个声源包括至少一目标声源。在实施例中,至少两个声源包括 噪声声源。在实施例中,至少两个声源包括目标声源和噪声声源。在实施例中,在特定时间 点或时间间隔仅存在目标声源和噪声声源。在实施例中,至少两个声源包括两个以上不同 的目标声源。在实施例中,至少两个声源包括三个以上不同的目标声源。在本说明书中,术 语"目标声源"意为用户有意向注意的声源。在本说明书中,术语"目标声源"意为对其存 在学习的数据库的声源(包括分析和重构字典以用在根据本专利技术的声源分离中)。 在实施例中,听力装置包括用于按时频表示(k,m)提供分析和/或合成缓冲器的 内容的时频(TF)转换单元。在实施例中,时频转换单元提供电输入信号在多个频带、多个 时刻的时间段(如基于时间帧接时间帧地,例如对应于分析和/或合成时间帧/缓冲器),k 为频带指数,m为时间指数,其中(k,m)定义包括电输入信号对应于频率指数k和时刻m的 复值或实值形式的信号分量的特定时频窗口或单元。在实施例中,仅考虑信号的量值。在 实施例中,TF转换单元包括用于对(时变)输入信号进行滤波并提供多个(时变)输出信 号的滤波器组,每一输出信号包括截然不同的输入信号频率范围。在实施例中,TF转换单 元包括用于将时变输入信号转换为频域中的(时变)信号的傅里叶变换单元,如离散傅里 叶变换(DFT)。在实施例中,听力装置考虑的、从最小频率心"到最大频率f _的频率范围 包括从20Hz到20kHz的典型人听频范围的一部分,例如从20Hz到12kHz的范围的一部分。 在实施例中,听力装置的正向和/或分析通路的信号拆分为NI个频带,其中NI如大于5,如 大于10,如大于50,如大于100,如大于500,其中至少部分个别进行处理。在实施例中,听 力装置适于在NP个不同频道处理正向和/或分析通路的信号(NPSNI)。频道可以宽度一 致或不一致(如宽度随频率增加)、重叠或不重叠。 在实施例中,数据库的原子在时域或(时_)频域进行表示。 在实施例中,听力装置包括时-频域到时域转换单元,用于提供分离信号的时域 表不。 在实施例中,声源分离单元包括循环分析和合成缓冲器和/或时域到时-频域转 换单元和/或时-频域到时域转换单元。 在实施例中,听力装置包括特征提取单元,用于提取分析缓冲器和/或合成缓冲 器的内容的特性特征。 在实施例中,特征提取单元配置成按时频表示提供特性特征。特性的例子可以是 特定声源在时频域的短声音例子(即短于100ms)(如图3B、3C中所示)。 在实施例中,声源分离单元配置成使声源分离基于非负矩阵因数分解(NMF)、隐马 尔科夫模型(HMM)或深层神经网络(DNN)。 在实施例中,数据库中每一记录的声音例子由源自分别来自第一和第二缓冲器的 音频样本的原子对组成,第一和第二缓冲器大小对应于合本文档来自技高网
...

【技术保护点】
一种听力装置,包括:‑输入单元,用于递送表示包括至少两个声源的音频信号的时变电输入信号;‑适合保存最后A个音频样本的长度为A的循环分析缓冲器单元;及‑适合保存最后L个音频样本的长度为L的循环合成缓冲器单元,其中L小于A,L个音频样本计划分离在各个声源中;‑已保存来自至少两个声源的记录的声音例子的数据库,数据库中的每一记录的声音例子称为原子,所述原子源自来自大小分别对应于合成和分析缓冲器单元的第一和第二缓冲器的音频样本,对于每一原子,来自第一缓冲器的音频样本与来自第二缓冲器的音频样本重叠,及其中源自第一缓冲器的原子构成重构字典,及其中源自第二缓冲器的原子构成分析字典;所述听力装置还包括:‑声源分离单元,用于分离电输入信号以提供表示至少两个声源的至少两个分离信号,所述声源分离单元配置成,考虑数据库的分析字典中的原子确定最后A个音频样本的最佳表示(W),及通过使用最佳表示(W)组合数据库的重构字典中的原子而产生L个音频样本的至少两个分离信号。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:T·巴克尔T·维塔雷恩N·H·彭托皮丹
申请(专利权)人:奥迪康有限公司
类型:发明
国别省市:丹麦;DK

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1