用于语音提取的系统和方法技术方案

技术编号:8567403 阅读:174 留言:0更新日期:2013-04-12 00:50
在一些实施例中,一种处理器可读介质存储代码,所述代码表示使得处理器接收具有第一分量和第二分量的输入信号的指令。基于所述输入信号的所述第一分量的音高的估计量计算所述输入信号的所述第一分量的估计量。基于所述输入信号的所述第一分量的估计量和所述输入信号的所述第二分量的估计量计算所述输入信号的估计量。基于尺度函数修改所述输入信号的所述第一分量的估计量以产生所述输入信号的经重建的第一分量。所述尺度函数是所述输入信号、所述输入信号的所述第一分量的估计量、所述输入信号的所述第二分量的估计量或从残余信号中的至少一个的函数。

【技术实现步骤摘要】
【国外来华专利技术】
一些实施例涉及语音提取,并且更特别地涉及语音提取的系统和方法。
技术介绍
已知的语音技术(例如自动语音识别或说话人识别)典型地遇到由包括背景噪声、干扰说话人、信道失真等的外部因素干扰的语音信号。例如,在已知的通信系统(例如移动电话、陆线电话、其它无线技术和网络电话技术)中,正在传输的语音信号通常受到外部噪声和干扰源干扰。类似地,戴着助听器和耳蜗植入装置的用户常常受到外部干扰的折磨,外部干扰干扰他们试图理解的语音信号。这些干扰会变得无法抵挡使得用户常常宁愿关闭他们的医疗装置,因此,这些医疗装置在某些情况下对于一些用户是无用的。所以,需要一种语音提取方法来改善由这些装置(例如医疗装置或通信装置)产生的语音信号的品质。另外,已知的语音提取方法常常试图通过依赖于多个传感器(例如麦克风)执行语音分离的功能(例如从语音分离干扰性语音信号或分离背景噪声)以利用它们的几何间隔改善语音信号的品质。然而先前所述的多数通信系统和医疗装置仅仅包括一个传感器(或某个其它有限数量)。所以,已知的语音提取方法不适合用于未进行昂贵修改的这些系统或装置。因此,需要一种改进的语音提取方法,其可以使用单传感器将期望语音与干扰性语音信号或背景噪声分离并且也可以提供好于多麦克风解决方案的语音品质恢复。
技术实现思路
在一些实施例中,一种处理器可读介质存储代码,所述代码表示导致处理器接收具有第一分量和第二分量的输入信号的指令。基于所述输入信号的所述第一分量的音高的估计量计算所述输入信号的所述第一分量的估计量。基于所述输入信号的所述第一分量的估计量和所述输入信号的所述第二分量的估计量计算所述输入信号的估计量。基于尺度函数(scaling function)修改所述输入信号的所述第一分量的估计量以产生所述输入信号的重建第一分量。在一些实施例中,所述尺度函数是所述输入信号、所述输入信号的所述第一分量的估计量、所述输入信号的所述第二分量的估计量或从所述输入信号和所述输入信号的估计量导出的残余信号中的至少一个的函数。附图说明图1是实现根据实施例的语音提取系统的声装置的示意图。图2是根据实施例的处理器的示意图。图3是根据实施例的语音提取系统的示意图。图4是根据另一个实施例的语音提取系统的块图。图5是根据实施例的语音提取系统的标准化子模块的示意图。图6是根据实施例的语音提取系统的频谱-时间分解子模块的示意图。图7是根据实施例的语音提取系统的沉默检测子模块的示意图。图8是根据实施例的语音提取系统的矩阵子模块的示意图。图9是根据实施例的语音提取系统的信号分离子模块的示意图。图10是根据实施例的语音提取系统的可靠性子模块的示意图。图11是根据实施例的用于第一说话人的语音提取系统的可靠性子模块的示意图。图12是根据实施例的用于第二说话人的语音提取系统的可靠性子模块的示意图。图13是根据实施例的语音提取系统的组合器子模块的示意图。图14是根据另一个实施例的语音提取系统的块图。图15A是根据实施例的语音提取处理之前的语音混合的图形表示。图15B是用于第一说话人的语音提取处理之后的图15A中所示的语音的图形表/Jn ο图15C是用于第二说话人的语音提取处理之后的图15A中所示的语音的图形表/Jn ο具体实施例方式在本文中描述了用于语音提取处理的系统和方法。在一些实施例中,本文中所述的语音提取方法是自动分离彼此重叠的两个信号(例如两个语音信号)的基于软件的方法的一部分。在一些实施例中,语音提取方法在其中体现的总系统可以被称为“分离系统”或“分离技术”。该分离系统例如可以具有三个不同的级分析级、合成级和聚类级。在本文中详细地描述了分析级和合成级。可以在2010年10月25日提交的、名称为“SequentialGrouping in Co-Channel Speech”的美国临时专利申请第61/406,318号中找到聚类级的详细论述,上述申请的公开内容通过引用完整地被合并于此。分析级、合成级和聚类级在本文中分别被称为或体现为“分析模块”、“合成模块”和“聚类模块”。为了该描述起见术语“语音提取”和“语音分离”是同义词并且可以可互换地使用,除非另外指出。当在本文中使用时单词“分量”指的是信号或信号的一部分,除非另外说明。分量可以与语音、音乐、噪声(稳态或非稳态)或任何其它声音相关。一般而言,语音包括有声分量,以及在一些实施例中,语音也包括无声分量(或其它非语音分量)。分量可以是周期性的、大致周期性的、准周期性的、大致非周期性的或非周期性的。例如,有声分量(例如“语音分量”)是周期性的、大致周期性的或准周期性的。不包括语音的其它分量(即,“非语音分量”)也可以是周期性的、大致周期性的或准周期性的。非语音分量例如可以是具有周期性、大致周期性或准周期性特性的来自环境的声音(例如汽笛)。然而无声分量是非周期性的或大致非周期性的(例如“嘘”声或任何其它非周期性噪声)。无声分量可以包含语音(例如“嘘”声),但是该语音是非周期性的或大致非周期性的。不包括语音并且是非周期性的或大致非周期性的其它分量例如可以包括背景噪声。大致周期性分量例如可以指的是当在时域中图形表示时具有重复图案的信号。大致非周期性分量例如可以指的是当在时域中图形表示时不具有重复图案的信号。当在本文中使用时术语“周期性分量”指的是周期性的、大致周期性的或准周期性的任何分量。所以周期性分量可以是有声分量(或语音分量)和/或非语音分量。当在本文中使用时术语“非周期性分量”指的是非周期性的或大致非周期性的任何分量。所以非周期性分量可以与上面定义的术语“无声分量”是同义的并且可互换。图1是包括语音提取方法的执行的音频装置100的示意图。为了该实施例,音频装置100被描述为以类似于手机的方式操作。然而应当理解音频装置100可以是用于存储和/或使用本文中所述的语音提取方法或任何其它方法的任何合适的音频装置。例如,在一些实施例中,音频装置100可以是个人数字助理(PDA)、医疗装置(例如助听器或耳蜗植入物)、记录或采集装置(例如语音记录器)、存储装置(例如存储具有音频内容的文件的存储器)、计算机(例如超级计算机或大型计算机)和/或类似物。音频装置100包括声输入部件102、声输出部件104、天线106、存储器108和处理器110。这些部件中的任何一个可以在任何合适的配置中布置在(或至少部分地布置在)音频装置100内。另外,这些部件中的任何一个可以以任何合适的方式(例如经由线的电互连或焊接到电路板、通信总线等)连接到另一个部件。声输入部件102、声输出部件104和天线106例如可以以类似于在手机内发现的任何声输入部件、声输出部件和天线的方式操作。例如,声输入部件102可以是麦克风,其可以接收声波并且然后将那些声波转换成电信号供处理器110使用。声输出部件104可以是扬声器,其被配置成接收来自处理器110的电信号并且将那些信号作为声波输出。此外,天线106被配置成例如与移动转发器或移动通信基站。在音频装置100不是手机的实施例中,音频装置100可以包括或不包括声输入部件102、声输出部件104和/或天线106中的任何一个。存储器108可以是被配置成适配在音频装置100 (例如手机)内并且与音频装置操作的任何合适的存储器,例如只读存储器本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/21/201180013528.html" title="用于语音提取的系统和方法原文来自X技术">用于语音提取的系统和方法</a>

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.01.29 US 61/299,7761.一种存储代码的处理器可读介质,所述代码表示使得处理器执行方法的指令,所述代码包括用于以下操作的代码接收具有第一分量和第二分量的输入信号;基于所述输入信号的所述第一分量的音高的估计量计算所述输入信号的所述第一分量的估计量;基于所述输入信号的所述第一分量的估计量和所述输入信号的所述第二分量的估计量计算所述输入信号的估计量;以及基于尺度函数修改所述输入信号的所述第一分量的估计量以产生所述输入信号的经重建的第一分量,所述尺度函数是所述输入信号、所述输入信号的所述第一分量的估计量、所述输入信号的所述第二分量的估计量或从所述输入信号和所述输入信号的估计量导出的残余信号中的至少一个的函数。2.根据权利要求1所述的处理器可读介质,还包括用于以下操作的代码基于所述输入信号的所述第二分量的音高的估计量计算所述输入信号的所述第二分量的估计量。3.根据权利要求1所述的处理器可读介质,其中所述尺度函数是第一尺度函数,所述处理器可读介质还包括用于以下操作的代码基于第二尺度函数修改所述输入信号的所述第二分量的估计量以产生所述输入信号的经重建的第二分量,所述第二尺度函数不同于所述第一尺度函数并且是所述输入信号、所述输入信号的所述第一分量的估计量、所述输入信号的所述第二分量的估计量或所述残余信号中的至少一个的函数。4.根据权利要求1所述的处理器可读介质,还包括用于以下操作的代码基于所述输入信号的所述经重建的第一分量的至少一个特性将源分配给所述输入信号的所述第一分量。5.根据权利要求1所述的处理器可读介质,还包括用于以下操作的代码以指定帧率采样所述输入信号持续多个帧,来自所述多个帧的每个帧与多个频道关联,计算所述输入信号的所述第一分量的估计量的代码包括在来自所述多个帧的每个帧的所述多个频道的每个频道计算所述输入信号的所述第一分量的估计量,用于修改的代码包括用于基于尺度函数在来自所述多个帧的每个帧的所述多个频道的每个频道修改所述输入信号的所述第一分量的每个估计量的代码,所述尺度函数基于来自所述多个频道的频道自适应,在所述输入信号的所述第一分量的每个经修改的估计量跨越来自所述多个帧的每个帧的所述多个频道的每个频道组合之后产生所述输入信号的所述经重建的第一分量。6.根据权利要求1所述的处理器可读介质,其中所述尺度函数被配置成用作非线性函数、线性函数或基于阈值的开关中的一个。7.根据权利要求1所述的处理器可读介质,其中所述残余信号对应于从所述输入信号减去所述输入信号的估计量。8.根据权利要求1所述的处理器可读介质,其中所述第一分量与第一源关联,所述第二分量与不同于所述第一源的第二源关联。9.根据权利要求1所述的处理器可读介质,其中所述处理器是用户的装置的数字信号处理器,所述代码被下载到所述处理器可读介质。10.根据权利要求1所述的处理器可读介质,其中所述尺度函数是所述输入信号的所述第一分量的乘方、所述输入信号的所述第二分量的乘方、所述输入信号的乘方和所述残余信号的乘方的函数。11.根据权利要求1所述的处理器可读介质,其中所述尺度函数基于所述输入信号的所述第一分量的音高的估计量自适应所述输入信号的所述第一分量的...

【专利技术属性】
技术研发人员:C·埃斯佩威尔松S·威什诺博霍特拉
申请(专利权)人:马里兰大学派克分院
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1