一种远距离拾音方法技术

技术编号:18117201 阅读:44 留言:0更新日期:2018-06-03 09:19
本发明专利技术属于语音识别技术领域,公开了一种远距离拾音方法,包括以下步骤:由多个麦克风组成的麦克风阵列拾取环境声音,得到与麦克风个数对应的多路声音信号;各路的声音信号分别经过LMS自适应滤波处理,得到各路信号的到达时间差对声源进行定位,以及识别出各路信号的语音特征;将声源定位结果以及各路的语音特征进行ABF‑自适应波束形成处理,再把所有的信号叠加,提高输出语音信号的信噪比,将叠加后的信号作为目标源的声音输出。本发明专利技术能够实现准确拾取目标源的声音。

【技术实现步骤摘要】
一种远距离拾音方法
本专利技术属于语音识别
,尤其涉及一种远距离拾音方法。
技术介绍
语言是人类特有的功能,声音是人类常用的工具,是相互传递信息的最主要的手段。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息的形式。因此,语音信号是人们构成思想沟通和感情交流的最主要的途径。并且由于语音与人的智力活动密切相关,与社会文化进步紧密相连,所以它具有最大的信息容量和最高的智能水平。现在,人类已开始进入了信息化时代,用现代手段研究语音处理技术,使人们能更加有效地生产、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。语音是人机交互的一个重要方式,而如何得到高质量的语音信号一直是一个值得深入研究的课题。麦克风是最常见的语音采集工具,但单个孤立的麦克风的使用要求说话人必须在物理上接近麦克风,以减少环境噪声的影响,这种使用方式限制了人的活动,十分不便。一般超过一米之外就可以认为是属于远距离拾音的范围,现有的远距离拾音常常出现拾音噪音多的问题,无法准确拾取目标源的声音。
技术实现思路
本专利技术实施例的目的在于提供一种远距离拾音方法,准确拾取目标源的声音。本专利技术实施例是这样实现的:一种远距离拾音方法,包括以下步骤:101、由多个麦克风组成的麦克风阵列拾取环境声音,得到与麦克风个数对应的多路声音信号,每路声音信号包括回声信号、混响信号、目标源信号、噪声信号和干扰信号;102、各路的声音信号分别经过LMS自适应滤波处理,将两个相邻麦克风信号作为目标信号和输入信号,用输入信号去逼近目标信号,通过LMS调整滤波器系数得到各路信号的到达时间差对声源进行定位,以及识别出各路信号的语音特征;利用到达时间差确定目标声源的位置,具体包括:在一路信号中,对信号进行预加重、分帧、加窗处理,分帧长度为10--30ms,经过FFT处理,将各路信号进行合并,然后进行语音活动检测VAD,计算权函数、加权、多帧平滑处理、互相关函数、插值处理、峰值检测,然后对声源进行定位;识别出各路信号的语音特征,具体包括:在一路信号中,对信号进行预加重、分帧、加窗处理,分帧长度为10--30ms,经过FFT处理;经过FFT处理后的信号经过声谱图分析,基音、音色分析,共振峰提取语音特征,经倒谱法、谱包络法进行运算,识别出该路信号中的第一动态特征;经过FFT处理后的信号经过取绝对值或平方值处理,Mel滤波,然后取对数,进行DCT转换,识别出该路信号中的第二动态特征;如果第一动态特征与第二动态特征一致,则将动态特征作为语音特征输出,如果不一致,则不输出语音特征,返回重新处理;103、将声源定位结果以及各路的语音特征进行ABF-自适应波束形成处理,自动地迭代调节自身的滤波器参数,把不同相位的信号调整为相同的相位的信号后,再把所有的信号叠加,提高输出语音信号的信噪比,将叠加后的信号作为目标源的声音输出。本专利技术的有益效果:1、语音增强作用,解决噪声环境下的语音识别。因为麦克风阵列利用拾音波束成形,采用独特算法,有效抑制波束之外的噪声,同时融合语音信号的空时信息,从含噪声的语音信号中提取出纯净语音,有效地增强说话人语音。在实际应用的场合有家庭管家、机器人、网络音乐等语音识别场合。2、声源定位功能,辅助多功能联运。阵列麦克风实现了多麦克风定向,能够准确计算目标说话人的角度和距离,实现对目标说话人的跟踪以及后续的语音定向拾取,精准度控制在一定的范围内,成为智能语音交互中捕捉说话人语音的重要方式。实际的应用场合有视频会议摄像头定位、安防摄像头定位、机器人定位等场合。3、能够实现远场交互,打破远距离沟通障碍。麦克风阵列在前端充分利用其空域滤波特性,抑制拾音波束外的回声、混响等噪声,进行语音增强处理,辅之以语音识别引擎的二次处理,实现优质的远场识别交互功能。4、打断纠错,主要是针对错误识别的解决方法。麦克风阵列融入了自适应、理解纠错、智能反馈等认知技术,重新提取大数据因素,并进行二次计算,实现智能纠正打断,能够适应更多的应用环境,具有进化调整功能,从而在人机交互的过程中,使机器更“听话”。附图说明图1是本专利技术远距离拾音的系统整体硬件框图;图2是本专利技术远距离拾音信号处理示意图;图3是本专利技术远距离拾音的语音特征识别以及提取方法流程图;图4是本专利技术远距离拾音的声源定位方法流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。以下结合具体实施例对本专利技术的具体实现进行详细描述:一种远距离拾音方法,包括以下步骤:101、由多个麦克风组成的麦克风阵列拾取环境声音,得到与麦克风个数对应的多路声音信号,每路声音信号包括回声信号、混响信号、目标源信号、噪声信号和干扰信号;102、各路的声音信号分别经过LMS自适应滤波处理,将两个相邻麦克风信号作为目标信号和输入信号,用输入信号去逼近目标信号,通过LMS调整滤波器系数得到各路信号的到达时间差对声源进行定位,以及识别出各路信号的语音特征;利用到达时间差确定目标声源的位置,具体包括:在一路信号中,对信号进行预加重、分帧、加窗处理,分帧长度为10--30ms,经过FFT处理,将各路信号进行合并,然后进行语音活动检测VAD,计算权函数、加权、多帧平滑处理、互相关函数、插值处理、峰值检测,然后对声源进行定位;识别出各路信号的语音特征,具体包括:在一路信号中,对信号进行预加重、分帧、加窗处理,分帧长度为10--30ms,经过FFT处理;经过FFT处理后的信号经过声谱图分析,基音、音色分析,共振峰提取语音特征,经倒谱法、谱包络法进行运算,识别出该路信号中的第一动态特征;经过FFT处理后的信号经过取绝对值或平方值处理,Mel滤波,然后取对数,进行DCT转换,识别出该路信号中的第二动态特征;如果第一动态特征与第二动态特征一致,则将动态特征作为语音特征输出,如果不一致,则不输出语音特征,返回重新处理;103、将声源定位结果以及各路的语音特征进行ABF-自适应波束形成处理,自动地迭代调节自身的滤波器参数,把不同相位的信号调整为相同的相位的信号后,再把所有的信号叠加,提高输出语音信号的信噪比,将叠加后的信号作为目标源的声音输出。图1中,远距离拾音有多个不同的声源,回声信号、混响信号、目标源信号、噪声信号和干扰信号,分别向麦克风阵列输入回声、混响、目标信号、噪声和干扰信号,麦克风阵列包括MIC1、MIC2、MIC3至MICn,相邻麦克风之间的距离为d,麦克风阵列拾取信号后向麦克风阵列信号处理模块发送S1、S2、S3至Sn信号,经过算法及叠加后输出处理后的目标信号。图2中,平面波X1(k)、X2(k)、X3(k)至Xn(k)信号输入麦克风阵列形成y1(k)、y2(k)、y3(k)至yn(k)信号,经AD转换,经FGPA数据信号处理,经过LMS自适应滤波后,识别出各路信号的语音特征1、语音特征2、语音特征3至语音特征n,同时进行TDOA算法处理,经ABF-自适应波束形成处理,然后进行叠加,经DA转换,输出目标信号。为了能更好解决语音信号实时处理的问题,本麦克风阵列的语音信号处理采用了FPGA技术设计方案,FPGA比本文档来自技高网...
一种远距离拾音方法

【技术保护点】
一种远距离拾音方法,其特征在于,包括以下步骤:101、由多个麦克风组成的麦克风阵列拾取环境声音,得到与麦克风个数对应的多路声音信号,每路声音信号包括回声信号、混响信号、目标源信号、噪声信号和干扰信号;102、各路的声音信号分别经过LMS自适应滤波处理,将两个相邻麦克风信号作为目标信号和输入信号,用输入信号去逼近目标信号,通过LMS调整滤波器系数得到各路信号的到达时间差对声源进行定位,以及识别出各路信号的语音特征;利用到达时间差确定目标声源的位置,具体包括:在一路信号中,对信号进行预加重、分帧、加窗处理,分帧长度为10‑‑30ms,经过FFT处理,将各路信号进行合并,然后进行语音活动检测VAD,计算权函数、加权、多帧平滑处理、互相关函数、插值处理、峰值检测,然后对声源进行定位;识别出各路信号的语音特征,具体包括:在一路信号中,对信号进行预加重、分帧、加窗处理,分帧长度为10‑‑30ms,经过FFT处理;经过FFT处理后的信号经过声谱图分析,基音、音色分析,共振峰提取语音特征,经倒谱法、谱包络法进行运算,识别出该路信号中的第一动态特征;经过FFT处理后的信号经过取绝对值或平方值处理,Mel滤波,然后取对数,进行DCT转换,识别出该路信号中的第二动态特征;如果第一动态特征与第二动态特征一致,则将动态特征作为语音特征输出,如果不一致,则不输出语音特征,返回重新处理;103、将声源定位结果以及各路的语音特征进行ABF‑自适应波束形成处理,自动地迭代调节自身的滤波器参数,把不同相位的信号调整为相同的相位的信号后,再把所有的信号叠加,提高输出语音信号的信噪比,将叠加后的信号作为目标源的声音输出。...

【技术特征摘要】
1.一种远距离拾音方法,其特征在于,包括以下步骤:101、由多个麦克风组成的麦克风阵列拾取环境声音,得到与麦克风个数对应的多路声音信号,每路声音信号包括回声信号、混响信号、目标源信号、噪声信号和干扰信号;102、各路的声音信号分别经过LMS自适应滤波处理,将两个相邻麦克风信号作为目标信号和输入信号,用输入信号去逼近目标信号,通过LMS调整滤波器系数得到各路信号的到达时间差对声源进行定位,以及识别出各路信号的语音特征;利用到达时间差确定目标声源的位置,具体包括:在一路信号中,对信号进行预加重、分帧、加窗处理,分帧长度为10--30ms,经过FFT处理,将各路信号进行合并,然后进行语音活动检测VAD,计算权函数、加权、多帧平滑处理、互相关函数、插值处理、峰值检测,然后对声源进行定位;识别出各路信号的...

【专利技术属性】
技术研发人员:黃智梁炎伟
申请(专利权)人:深圳市声菲特科技技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1