远场语音识别方法和装置制造方法及图纸

技术编号:13039570 阅读:79 留言:0更新日期:2016-03-23 10:58
本发明专利技术提出一种远场语音识别方法和装置,该远场语音识别方法包括:将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理,获得一路待识别的信号;通过远场识别的声学模型对所述待识别的信号进行识别。本发明专利技术对远场语音进行识别时所采用的远场识别的声学模型能够与远场识别的输入语音信号实现真正匹配,从而可以提升远场语音识别的识别性能。

【技术实现步骤摘要】

本专利技术涉及语音识别
,尤其涉及一种远场语音识别方法和装置
技术介绍
远场语音识别,即远距离语音识别,在以智能家居为代表的多种领域的诉求越来 越明显。目前,近场语音识别已经能够达到很高的识别率,但是远场语音识别,尤其是说话 人距离麦克风3至5米的距离,由于噪声和/或混响等干扰因素的影响,识别率远远低于近场 语音识别。 远场识别性能之所以下降如此明显,是由于在远场场景下,语音信号幅度过低,噪 声和/或混响等其他干扰因素凸显,而识别系统中的声学模型通常是由近场语音数据训练 生成,识别数据和训练数据的不匹配导致远场语音识别率迅速下降。
技术实现思路
本专利技术的目的旨在至少在一定程度上解决相关技术中的技术问题之一。 为此,本专利技术的第一个目的在于提出一种远场语音识别方法。该方法中,对远场语 音进行识别时所采用的远场识别的声学模型能够与远场识别的输入语音信号实现真正匹 配,从而可以提升远场语音识别的识别性能。 本专利技术的第二个目的在于提出一种远场语音识别装置。 为了实现上述目的,本专利技术第一方面实施例的远场语音识别方法,包括:将麦克风 阵列接收的待识别的远场语音进行自适应波束形成处理,获得一路待识别的信号;通过远 场识别的声学模型对所述待识别的信号进行识别。 本专利技术实施例的远场语音识别方法中,将麦克风阵列接收的待识别的远场语音进 行自适应波束形成处理,获得一路待识别的信号,然后通过远场识别的声学模型对所述待 识别的信号进行识别,其中,上述远场识别的声学模型能够与远场识别的输入语音信号实 现真正匹配,从而可以提升远场语音识别的识别性能。 为了实现上述目的,本专利技术第二方面实施例的远场语音识别装置,包括:获得模 块,用于将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理,获得一路待识 别的信号;识别模块,用于通过远场识别的声学模型对所述获得模块获得的待识别的信号 进行识别。 本专利技术实施例的远场语音识别装置中,获得模块将麦克风阵列接收的待识别的远 场语音进行自适应波束形成处理,获得一路待识别的信号,然后识别模块通过远场识别的 声学模型对所述待识别的信号进行识别,其中,上述远场识别的声学模型能够与远场识别 的输入语音信号实现真正匹配,从而可以提升远场语音识别的识别性能。 本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本专利技术的实践了解到。【附图说明】 本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得 明显和容易理解,其中: 图1为本专利技术远场语音识别方法一个实施例的流程图; 图2为本专利技术远场语音识别方法另一个实施例的流程图; 图3为本专利技术远场语音识别方法中冲激响应函数一个实施例的示意图; 图4为本专利技术远场语音识别装置一个实施例的结构示意图; 图5为本专利技术远场语音识别装置另一个实施例的结构示意图。【具体实施方式】 下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。相反,本 专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同 物。 图1为本专利技术远场语音识别方法一个实施例的流程图,如图1所示,上述远场语音 识别方法可以包括: 步骤101,将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理,获得 一路待识别的信号。 步骤102,通过远场识别的声学模型对上述待识别的信号进行识别。 上述远场语音识别方法中,将麦克风阵列接收的待识别的远场语音进行自适应波 束形成处理,获得一路待识别的信号,然后通过远场识别的声学模型对所述待识别的信号 进行识别,其中,上述远场识别的声学模型能够与远场识别的输入语音信号实现真正匹配, 从而可以提升远场语音识别的识别性能。 图2为本专利技术远场语音识别方法另一个实施例的流程图,如图2所示,步骤102之 前,还可以包括:步骤201,确定远场声源到每一路麦克风之间的冲激响应函数。 具体地,确定远场声源到每一路麦克风之间的冲激响应函数可以为:根据远场语 音识别的应用场景,确定麦克风阵列拓扑结构;根据上述麦克风阵列拓扑结构估计远场声 源到每一路麦克风之间的冲激响应函数。 具体实现时,可以根据具体的识别任务,确定远场语音识别的应用场景。举例来 说,比如要将远场语音识别应用在智能电视系统中,那么可以设计一种含有N= 4路麦克风 的均匀线性阵列,均匀的布置在电视机顶端。人与电视机(也就是与麦克风阵列)的距离大 约为2至4米,这是一种典型的远场语音识别的场景。 确定了具体的应用场景和麦克风阵列拓扑结构之后,接下来需要估计远场声源到 每一路麦克风之间的冲激响应函数。这一组冲激响应函数能够模拟原始声源经过空间传输 和/或房间反射等影响,到达麦克风时的最终结果。说的再具体些,这一组冲激响应函数能 够模拟远场空间的混响效应。 冲激响应函数的估计,可以利用数字信号处理理论获得。假设声源到第1路麦克风 的冲激响应函数为1η(η),原始声源信号为x(n),则第1路麦克风的接收信号可以表示为: y(n) =x(n)*hi(n) (1) 式(1)中,*表示卷积。对式(1)等号两边进行傅立叶变换,可得: Υ(ω)=Χ(ω)Ηι(ω) (2) 对式(2)等号两边取共辄,可得: F"(^} ^ .5Γ(??)1^(^) (3) 将式(2)与式(3)相乘,可得: (4) 、.' (5)可以在声源处,播放一段白噪声声源,然后在第一个麦克风的位置接收白噪声信 号,便可得到Χ(ω)和Υ(ω),进而可以求出出(ω)以及1η(η)。 利用同样的方法,可以估计出声源到另外三路麦克风之间的冲激响应函数1!2(11)、 h3(n)和h4(n)〇 对于家居客厅环境,一个典型的冲激响应函数可以如图3所示,图3为本专利技术远场 语音识别方法中冲激响应函数一个实施例的示意图。步骤202,将上述冲激响应函数与近场训练数据相卷积,获得每一路麦克风接收到 的模拟远场信号。 具体地,将近场训练数据s(n),与每一路冲激响应函数卷积,可以获得每一路麦克 风接收到的模拟远场信号,如下所示: Xd(n)= s(n)*hi(n) (6) Xc2(n) = s(n)*h2(n) (7) xC3(n)=s(n)*h3(n) (8) xC4(n) =s(n)*h4(n) (9) 这一步完成了训练数据从近场到远场的转换,从近场训练数据s(n)出发,得到了 模拟远场信号xca(n)~Xc;4(n)。每一路麦克风接收到的模拟远场信号都包含了声源到该路 麦克风的冲激响应信息。换句话说,麦克风阵列的每一路模拟远场信号都是近场信号加入 混响后的结果。步骤203,将上述每一路麦克风接收到的模拟远场信号进行自适应波束形成处理, 获得一路输出信号。具体地,可以将上述每一路麦克风接收到的模拟远场信号Xcl(n)~Xc4(n),通过阵 列处理模块,进行自适应波束形成处理。基于麦克风阵列的自适应波束形成有很多成熟的 算法,本实施例对进行自适应波束形成处理时所采用当前第1页1 2 3 本文档来自技高网...

【技术保护点】
一种远场语音识别方法,其特征在于,包括:将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理,获得一路待识别的信号;通过远场识别的声学模型对所述待识别的信号进行识别。

【技术特征摘要】

【专利技术属性】
技术研发人员:宋辉魏建强
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1