以麦克风阵列为基础的语音辨识系统与方法技术方案

技术编号:8272085 阅读:161 留言:1更新日期:2013-01-31 04:32
一种以麦克风阵列为基础的语音辨识系统与方法。该语音辨识系统结合抗噪技术,以对来自麦克风阵列的输入语音,根据输入的至少一阈值的每一阈值执行噪音消除处理,此系统经由至少一语音模型与至少一填充模型以分别接收噪音遮蔽模块输出的噪音消除后的语音信号,并且对于每一阈值与该噪音消除后的每一语音信号,通过此至少一语音模型与此至少一填充模型,计算出信心值后,调整此阈值来继续执行此噪音消除处理,以让计算出的信心值可达到最大化,然后输出可让此信心值达到最大化的语音辨识结果的信息。

【技术实现步骤摘要】
本公开涉及一种以麦克风阵列为基础(Microphone-Array-Based)的语音辨识系统与方法。
技术介绍
近年来,移动装置如平板计算机、手机等用户数量大增,车用电子与机器人也发展快速。这些领域都可看出未来的语音应用需求将快速的成长。Google的Nexus One和Motorola的Droid将主动噪音消除(Active Noise Cancellation, ANC)技术带到手机市场,改善了语音应用的输入端,而使得后端的语音辨识或其应用表现得更好,让用户可以得到更好的体验。手机制造商近年来也在手机噪音消除的技术上积极地进行研究。 常见的稳健式(Robust)语音辨识技术有两类。一类为二阶段式稳健式语音辨识技术,此类技术先将语音信号增强后,再将增强后的信号传送至语音辨识器进行辨识。例如,利用两个适应性滤波器(Adaptive Filter)或是以预先训练的语音与噪音模型结合算法来调整适应性滤波器,先将语音信号增强后,再将增强后的信号传送至语音辨识器。另一类为利用语音模型(speech model)做为适应性滤波器调整参数的依据,但没有考虑干扰噪音的信息,其语音信号增强所根据的准则为最大相似度(maximum likelihood),也就是说,增强后的语音信号与语音模型越像越好。图I所不的是一种双麦克风语音增强(Dual-Microphone Speech Enhancement)技术中,其滤波器调整参数的范例流程。此语音增强技术是先利用重新录制与滤波后的语料来训练出单一语音模型110后,再利用相似度最大化的条件来调整噪音遮蔽的参数Y,也就是说,此语音增强技术判断的准则是通过相位误差时频滤波器(phase-difference-based time-frequency filtering) 105 出来的增强的语音信号(enhanced speech) 105a与语音模型110越相似越好。语音模型110训练所需语料需重新录制并加以滤波,且没有考虑噪音的信息,因此测试环境与训练环境的设定会有不匹配的可能。双麦克风或多麦克风的麦克风阵列噪音消除技术具有不错的抗噪效果。然而在不同的使用环境下,麦克风抗噪的能力并不相同。如何能够调整麦克风阵列参数以使得语音辨识正确率能够增加,提供更好的用户体验,是非常值得研究与发展的。
技术实现思路
本公开实施例可提供一种以麦克风阵列为基础的语音辨识系统与方法。所公开的一实施例是关于一种以麦克风阵列为基础的语音辨识系统。此系统结合噪音遮蔽模块(noise masking module),以对来自麦克风阵列的输入语音,根据输入的阈值执行噪音消除处理,此系统可包含至少一语音模型(speech model)与至少一填充模型(filler model)以分别接收该噪音遮蔽模块输出的噪音消除后的语音信号,以及信心值计算模块(confidence computation module)与阈值调整模块(threshold adjustmentmodule)。对于此阈值与此噪音消除后的语音信号,此信心值计算模块利用此至少一语音模型与此至少一填充模型,计算出信心值。此阈值调整模块调整此阈值并提供给此噪音遮蔽模块来继续执行此噪音消除处理,以使得此信心值计算模块计算出的信心值达到最大化,然后输出可让此信心值达到最大化的语音辨识结果的信息。所公开的一实施例是关于一种以麦克风阵列为基础的语音辨识系统。此系统结合噪音遮蔽模块,以对来自麦克风阵列的输入语音,根据输入的阈值的预定范围内的多个阈值的每一阈值,来执行噪音消除处理,此系统可包含至少一语音模型与至少一填充模型以分别接收此噪音遮蔽模块输出的噪音消除后的语音信号、信心值计算模块、以及最大信心值决定模块。对于落在此阈值的预定范围中的每一给定的阈值与此噪音消除后的语音信号,此信心值计算模块利用此至少一语音模型与此至少一填充模型,算出信心值。此最大信心值决定模块从所有算出的此信心值中,找出最大信心值所对应的阈值,然后输出语音辨识结果的信息。所公开的又一实施例是关于一种以麦克风阵列为基础的语音辨识方法。此方 法以计算机系统来实施,并且可包含下列此计算机系统可执行的动作对来自麦克风阵列的输入语音,根据至少一输入的阈值,执行噪音消除处理并将噪音消除后的语音信号分别输出到至少一语音模型与至少一填充模型;利用处理器,根据此至少一语音模型的各模型所得的分数的信息以及经由此至少一填充模型所得的分数,计算出相对应的信心值;以及从输入的此至少一阈值的每一阈值中,找出计算出的每一相对应的信心值中的最大信心值所对应的阈值,然后产生语音辨识结果的信息。现在配合附图、实施例的详细说明及权利要求书,将上述及本专利技术的其他优点详述于后。附图说明图I是一范例示意图,说明一种双麦克风语音增强技术的滤波器调整参数的范例流程。图2A是噪音遮罩阈值与信心值的一范例关系图,与所公开的某些实施范例一致。图2B是噪音遮罩阈值与语音辨识率的一范例关系图,与所公开的某些实施范例—致。图3是一范例示意图,说明一种以麦克风阵列为基础的语音辨识系统,与所公开的某些实施范例一致。图4是一范例示意图,说明一种实现图3中至少一语音模型中各模型所得分数的函数值的方式,与所公开的某些实施范例一致。图5是一范例示意图,说明另一种实现图3中至少一语音模型中各模型所得分数的函数值的方式,与所公开的某些实施范例一致。图6是另一范例示意图,说明一种以麦克风阵列为基础的语音辨识系统,与所公开的某些实施范例一致。图7是一范例流程图,说明一种以麦克风阵列为基础的语音辨识方法的运作,与所公开的某些实施范例一致。图8是一范例示意图,说明阈值更新以及如何找出该最大信心值所对应的一阈值的运作,与所公开的某些实施范例一致。图9是另一范例示意图,说明阈值更新以及如何找出该最大信心值所对应的一阈值的运作,与所公开的某些实施范例一致。图10是一范例示意图,说明以麦克风阵列为基础的语音辨识系统适用于具有噪音干扰的真实环境中,与所公开的某些实施范例一致。图IlA与图IlB是实验结果的范例示意图,分别说明干扰源位于30度与60度时,对于不同的信噪比,利用以麦克风阵列为基础的语音辨识系统的实施范例所得到的语音辨识率,与所公开的某些实施范例一致。图12是一范例示意图,说明以麦克风阵列为基础的语音辨识技术所估计出的阈值可作为噪音角度与信噪比的一个综合指标,与所公开的某些实施范例一致。 主要元件符号说明105相位误差时频滤波器105a增强的语音信号110语音模型210噪音位在60度时,其最大信心值得到相对应的最高语音辨识率220噪音位在30度时,其最大信心值得到相对应的最高语音辨识率300语音辨识系统305噪音遮蔽模块305a噪音消除后的语音信号 305b初始阈值310至少一语音模型320至少一填充模型310a至少一语音模型的各模型所得的分数的信息320a经由至少一填充模型所得的分数330信心值计算模块330a信心值340阈值调整模块340a阈值355辨识结果、阈值辨识结果与阈值iCM510合并后的语音模型600语音辨识系统605a阈值的预定范围640最大信心值决定模块710对来自一麦克风阵列的输入语音,根据至少一输入的阈值,执行噪音消除处理并将噪音消除后的语本文档来自技高网
...

【技术保护点】
一种以麦克风阵列为基础的语音辨识系统,该系统结合噪音遮蔽模块,以对来自麦克风阵列的输入语音,根据输入的阈值执行噪音消除处理,该系统包含:至少一语音模型与至少一填充模型,分别接收该噪音遮蔽模块输出的噪音消除后的语音信号;信心值计算模块,对于该阈值与该噪音消除后的语音信号,利用该至少一语音模型与该至少一填充模型,算出信心值,以及阈值调整模块,调整该阈值并提供给该噪音遮蔽模块来继续执行该噪音消除处理,以使得该信心值计算模块计算出的信心值达到最大化,然后输出可让该信心值达到最大化的语音辨识结果的信息。

【技术特征摘要】
2011.07.26 TW 1001263761.一种以麦克风阵列为基础的语音辨识系统,该系统结合噪音遮蔽模块,以对来自麦克风阵列的输入语音,根据输入的阈值执行噪音消除处理,该系统包含 至少一语音模型与至少一填充模型,分别接收该噪音遮蔽模块输出的噪音消除后的语音信号; 信心值计算模块,对于该阈值与该噪音消除后的语音信号,利用该至少一语音模型与该至少一填充模型,算出信心值,以及 阈值调整模块,调整该阈值并提供给该噪音遮蔽模块来继续执行该噪音消除处理,以使得该信心值计算模块计算出的信心值达到最大化,然后输出可让该信心值达到最大化的语音辨识结果的信息。2.如权利要求I所述的语音辨识系统,其中该阈值调整模块使用期望最大化算法来找出该达到最大化的信心值所对应到的阈值。·3.如权利要求I所述的语音辨识系统,其中该处理器经由该至少一语音模型的各模型,比对出该噪音消除后的语音信号与各模型的相似度并各得到一个由该模型所得的分数,且经由该至少一填充模型比对出该噪音消除后的语音信号与至少一非特定的语音模型的相似度,并得到一个经由该填充模型所得的分数,该信心值计算模块将该至少一语音模型中各模型所得分数的函数值减去该至少一填充模型所得分数,得到的差做为计算出的该信心值。4.如权利要求2所述的语音辨识系统,其中该至少一语音模型包括N个语音模型,该阈值调整模块取该N个语音模型中的前M个分数最高的模型所得分数再给予不同的权重,来找出该达到最大化的信心值所对应到的阈值,N与M皆为正整数,且M < N。5.如权利要求2所述的语音辨识系统,其中该至少一语音模型包括多个语音模型,该阈值调整模块取该多个语音模型中各模型被合并成合并后的语音模型所得的分数,来找出达到最大化的信心值所对应到的阈值。6.如权利要求第2所述的语音辨识系统,其中该至少一语音模型包括多个语音模型,该阈值调整模块取该多个语音模型中各模型所得分数的最大值,来找出该达到最大化的信心值所对应到的阈值。7.如权利要求I所述的语音辨识系统,该语音辨识系统包含至少一处理器,以完成该至少一语音模型、该至少一填充模型、该信心值计算模块、以及该阈值调整模块所实现的功倉泛。8.如权利要求I所述的语音辨识系统,其中该至少一语音模型、该至少一填充模型、该信心值计算模块、以及该阈值调整模块以至少一集成电路来实现。9.一种以麦克风阵列为基础的语音辨识系统,该系统结合噪音遮蔽模块,以对来自麦克风阵列的输入语音,根据输入的阈值的预定范围中的每一给定的阈值执行噪音消除处理,该系统包含 至少一语音模型与至...

【专利技术属性】
技术研发人员:廖宪正
申请(专利权)人:财团法人工业技术研究院
类型:发明
国别省市:

网友询问留言 已有1条评论
  • 来自[美国加利福尼亚州圣克拉拉县山景市谷歌公司] 2014年12月07日 04:35
    孑遗物种亦称古特有种或残遗种是指过去分布比较广泛而现在仅存在于某些局限地区的古老动植物种如新西兰的楔齿蜥和中国的银杏及水杉等
    0
1