移动环境下基于异构双MIC 的语音识别自适应系统的方法技术方案

技术编号：14854318 阅读：126 留言：0更新日期：2017-03-18 21:28

本发明专利技术公开了一种移动环境下基于异构双MIC的语音识别自适应系统的方法，所述方法包括以下步骤：根据信噪特性设定主副MIC（Microphone，缩写MIC）的优选识别规则；终端进入录音模式时，同时启动主、副MIC的录音通道,并实时检测语音端点；若探测到语音信号，则根据优选规则，选出最优音频通道的数据进行语音识别；最后，根据当前音频文件中的信息软控制主MIC1硬件PA（Power Amplifier，功率放大器，简称“功放”），实现其PA的动态调整。实施本发明专利技术后，在嘈杂的环境下，优选拾音范围较小的副MIC2，减小环境对识别引擎的影响，而主MIC1可探知用户的远近距离并实时调整PA，实现了录音前端及识别效果相结合的自适应体系，提高了识别性能并完善了用户体验。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术公开了一种移动环境下基于异构双MIC的语音识别自适应系统的方法，属于语音信号处理

技术介绍
随着科技的进步，人机交互已经经历了命令行、图形界面到触摸板的三代变革。现在，为了解放双手操作，我们已经来到语音控制时代的入口，人机交互模式正在发生着巨大的变化。最近的消息显示，各大科技巨头都已经开始布局语音交互领域，业内普遍认为语音作为人类信息最自然、最便捷的交互方式，必将成为新人机交互模式的重要组成部分。由于移动和便携设备的使用场所十分多变，用户有可能时常处于声音极其嘈杂的环境下，而语音交互的完美实现则有赖于清晰的语音信息接收以及准确的语音识别能力。因此，在大数据和深度学习之外，如何在有噪声的情况下保持良好的语音接收是工程师们面临的一大挑战。而语音降噪技术的发展和强化，也正在推进语音交互时代的到来。未来的语音识别市场，预计将会有越来越多的公司参与，以后语音识别的性能可能更多的体现在前端技术和语义理解上。机器要与人自然交流，必然就要考虑到用户说话的环境、周围环境的噪音、用户发音不准或者方言等等诸多因素，这就要求前端技术更加精准的模拟人体结构，仿真出机器人听觉系统，以实现解放双手自由对话的目的。
技术实现思路
本专利技术提出了一种移动环境下基于异构双MIC的语音识别自适应系统的方法，从语音模拟信号最前端对信号进行优化，实现语音识别自适应。与现有方法相比，即使在信噪比变化剧烈的情况下仍能得到较清晰的语音信号，对语音识别的后续工作起了很好的铺垫作用，减轻了其应用于复杂场景的压力，并且实现简单，具有系统性自适应能力。本专利技术为解决其技术问题采用如下技术方...
<a href="http://www.xjishu.com/zhuanli/21/201610849007.html" title="移动环境下基于异构双MIC 的语音识别自适应系统的方法原文来自X技术">移动环境下基于异构双MIC 的语音识别自适应系统的方法</a>

【技术保护点】
一种移动环境下基于异构双MIC的语音识别自适应的方法，其特征在于该方法包括：当终端进入录音模式时，同时启动主、副MIC的录音通道,并实时检测语音端点；若探测到语音信号，则根据优选规则，选出最优音频通道的数据进行语音识别；并结合当前音频文件的信息软控制主MIC1硬件PA，以动态调整其PA值。实现用户远近移动而自适应调整前端录音的状态以提高语音识别率。

【技术特征摘要】
1.一种移动环境下基于异构双MIC的语音识别自适应的方法，其特征在于该方法包括：当终端进入录音模式时，同时启动主、副MIC的录音通道,并实时检测语音端点；若探测到语音信号，则根据优选规则，选出最优音频通道的数据进行语音识别；并结合当前音频文件的信息软控制主MIC1硬件PA，以动态调整其PA值。实现用户远近移动而自适应调整前端录音的状态以提高语音识别率。2.根据权利要求1所述的移动环境下基于异构双MIC的语音识别自适应的方法，其特征在于，所述录音通道的优选机制：终端进入录音模式后，同时启动主、副MIC的录音通道，检测到有语音信号，分析缓存buffer，根据优选规则，选择最优的录音通道；(1)计算出主MIC1的噪声能量值Main_neng、语音能量值Main_veng、信噪比Main_snr，和副MIC2的语音能量值Sub_veng、信噪比Sub_snr；其中，信号能量值(包括噪声能量值Main_neng、语音能量值Main_veng和Sub_veng)为：E(n)=Σk=1NS(k)*S(k);]]>其中，n表示信号的第n帧；S(k)是加汉明窗或矩形窗的第n帧信号，N为帧长；信噪比SNR(包括Main_snr和Sub_snr)为：SNR=20*log10(Σi=1ME_voice(i)/MΣi=1NE_noise(i)/N);]]>(2)如果主MIC1的噪声能量Main_neng>Main_noise，优选副MIC2录音通道的数据,当噪声较大时选择拾音距离短且拾音方向窄的副MIC2，实现系统的抗噪性和抗干扰性；(3)如果主MIC1的语音能量Main_veng>Main_vmax,优选副MIC2录音通道的数据，当主MIC1削波时，应选数据信息完好的副MIC2；(4)如果副MIC2的语音能量Sub_ve...

【专利技术属性】
技术研发人员：胡一梅，于拾全，卫亚东，
申请(专利权)人：深圳凡豆信息科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人