利用线性麦克风阵列的语音识别方法及系统技术方案

技术编号:15439052 阅读:201 留言:0更新日期:2017-05-26 04:50
本发明专利技术公开了一种利用线性麦克风阵列的语音识别方法,包括如下步骤:利用线性麦克风阵列录制环境的声音以形成音频数据;针对线性麦克风阵列前方的声音获取区域设置波束形成器,利用波束形成器于声音获取区域形成位于中部的主波束区域和位于两侧部的第一噪声波束区域和第二噪声波束区域;将音频数据输入到波束形成器中以获得对应主波束区域的主波束、对应第一噪声波束区域的第一噪声波束、以及对应第二噪声波束区域的第二噪声波束;从主波束中滤除第一噪声波束和第二噪声波束以得到待识别的语音数据;对待识别的语音数据进行语音识别以得到对应的文本数据并输出。本发明专利技术计算量小,获取的语音数据质量高,能够提高语音识别的准确率。

Speech recognition method and system using linear microphone array

The invention discloses a method using linear microphone array speech recognition method comprises the following steps: recording environment using linear microphone array to form sound audio data; for linear microphone array in front of the voice to retrieve locale beamformer using wave beamformer in the sound acquisition area formed the main beam region is located in the middle and in the two sides of the first and second beam beam area noise noise region; the audio data input to the beamformer to obtain the corresponding main beam, main beam region corresponding to the first region of the first beam noise noise, noise and the corresponding beam second beam area second noise from the main beam in the beam; the first beam and the second noise noise filter the beam to get voice data for recognition; speech recognition to treat voice data recognition To the corresponding text data and output. The invention has small amount of calculation and high quality of acquired speech data, and can improve the accuracy of speech recognition.

【技术实现步骤摘要】
利用线性麦克风阵列的语音识别方法及系统
本专利技术涉及人机语音识别领域,尤指一种利用线性麦克风阵列的语音识别方法及系统。
技术介绍
在语音识别系统中,通常要对麦克风获取到的音频信号进行降噪处理,从而抑制音频信号中的环境噪声成分,从而提高语音识别系统的识别准确率。根据系统中使用的麦克风个数的不同,采用的降噪算法大致可以分为单麦克风降噪、双麦克风降噪以及麦克风阵列降噪算法等。随着硬件系统的快速发展,麦克风阵列正得到越来越广泛的应用。根据阵元的拓扑结构不同,麦克风阵列通常可以分为线性阵列和环形阵列。无论是线性阵列还是环形阵列,在进行降噪处理时,一般都需要通过声源定位算法获取期望信号的空间方位,再通过固定波束成形算法形成一个具有特定形状的接收波束,并将波束主瓣中心指向期望信号所在的方向。然而,同时进行声源定位和自适应波束成形的计算量很大,而且当声源定位出现偏差时,很容易对期望信号造成抑制或引入失真,进而影响到语音识别系统性能。
技术实现思路
本专利技术的目的在于克服现有技术的缺陷,提出一种利用线性麦克风阵列的语音识别方法及系统,解决现有的麦克风阵列的设置方式存在计算量大,计算复杂和实现成本较高的问题,目的在于利用麦克风阵列达到很好的降噪效果,以获得高质量的音频数据并提高语音识别的准确率。为了实现上述目的,本专利技术提供了一种利用线性麦克风阵列的语音识别方法,所述方法包括:利用线性麦克风阵列录制环境的声音以形成音频数据;针对所述线性麦克风阵列前方的声音获取区域设置波束形成器,利用所述波束形成器于所述声音获取区域形成位于中部的主波束区域和位于两侧部的第一噪声波束区域和第二噪声波束区域;将所述音频数据输入到所述波束形成器中以获得对应所述主波束区域的主波束、对应所述第一噪声波束区域的第一噪声波束、以及对应所述第二噪声波束区域的第二噪声波束;从所述主波束中滤除所述第一噪声波束和所述第二噪声波束以得到待识别的语音数据;对所述待识别的语音数据进行语音识别以得到对应的文本数据并输出。本专利技术的有益效果为:本专利技术通过将声音获取区域内设计形成三个波束区域,其中的两个波束用于获取噪声,另一个波束用于获取期望信号,并通过波束形成器输出对应的噪声波束和主波束,而后通过自适应滤波器模块从主波束中进一步滤除噪声波束。该方法不需要实时跟踪声源方位,避免了传统算法可能因为声源位置估计偏差带来的对期望信号的抑制或失真;同时算法计算量小,实现过程简单方便,成本较低,获取的语音数据质量高,能够提高语音识别的准确率。另外结合了语音数据对语音识别器的自适应,能够进一步提高语音识别的准确率。本专利技术的进一步改进为:针对所述线性麦克风阵列前方的声音获取区域设置波束形成器,包括:所述声音获取区域包括角度0°至180°的平面区域;设置用于形成所述第一噪声波区域的第一波束形成器,将所述第一波束形成器所形成的波束的中心指向所述声音获取区域的20°方向;设置用于形成所述主波束区域的第二波束形成器,将所述第二波束形成器所形成的波束的中心指向所述声音获取区域的90°方向;设置用于形成所述第二噪声波束区域的第三波束形成器,将所述第三波束形成器所形成的波束的中心指向所述声音获取区域的160°方向。本专利技术的进一步改进为:设置波束形成器时,每一波束形成器中设置有与所述线性麦克风阵列中的每一麦克风对应连接的滤波器,采用固定波束成形算法为每一波束形成器中的滤波器计算滤波器系数;所述固定波束成形算法包括:yn(k)=xn(k)+vn(k),n=1,2,...,N(式一)在式一中,yn(k)是第n个麦克风采集到的音频数据,xn(k)和vn(k)分别是采集到的期望信号和加性噪声;式二中,是波束形成器的输出,将波束形成器的输出逼近线性麦克风阵列中某个麦克风接收到的期望信号,是第n个麦克风对应的滤波器系数;在式三中,em(k)表示波束形成器的输出信号与采集到的期望信号的误差,它等于期望信号的误差ex,m(k)与加性噪声的误差ev,m(k)的和;而期望信号的误差ex,m(k)与加性噪声的误差ev,m(k)可以用式四和式五来表示;基于最小化均方误差得到式六和式七,通过最小化以令加性噪声最小,结合约束ex,m(k)=0以得出最佳滤波器系数hm,o,其中的hm为波束形成器中所有滤波器对应的滤波器系数矩阵,hm,o为波束形成器中所有滤波器对应的最佳的滤波器系数值。本专利技术的进一步改进为:对所述待识别的语音数据进行语音识别,包括:先利用所述待识别的语音数据对声学模型进行自适应操作;而后利用经自适应操作的声学模型对所述待识别的语音数据进行语音识别。本专利技术的进一步改进为:利用所述待识别的语音数据对声学模型进行自适应操作,包括:提取设定数量的待识别的语音数据,并对所提取的待识别的语音数据进行文本标注;提取所述设定数量的待识别的语音数据对应的声学特征,并将对应的文本标注与所述声学特征组合形成自适应训练数据;利用所述自适应训练数据对所述声学模型进行自适应训练。本专利技术还提供了一种线性麦克风阵列语音识别系统,所述系统包括:与所述线性麦克风阵列通信连接的波束形成器,所述波束形成器于所述线性麦克风阵列前方的声音获取区域形成位于中部的主波束区域和位于两侧部的第一噪声波束区域和第二噪声波束区域,用于对所接收到的所述音频数据进行处理并获得对应所述主波束区域的主波束、对应所述第一噪声波束区域的第一噪声波束、以及对应所述第二噪声波束区域的第二噪声波束;自适应滤波器模块,与所述波束形成器通信连接,接收所述主波束、所述第一噪声波束以及第二噪声波束,并用于从所述主波束中滤除所述第一噪声波束和所述第二噪声波束以得到待识别的语音数据;语音识别器,与所述自适应滤波器模块通信连接,接收所述待识别的语音数据,并用于对所述待识别的语音数据进行语音识别以得到对应的文本数据并输出。本专利技术的进一步改进为:所述声音获取区域包括角度从0°至180°的平面区域;所述波束形成器包括:用于形成所述第一噪声波区域的第一波束形成器,所述第一波束形成器所形成的波束的中心指向所述声音获取区域的20°方向;用于形成所述主波束区域的第二波束形成器,所述第二波束形成器所形成的波束的中心指向所述声音获取区域的90°方向;用于形成所述第二噪声波束区域的第三波束形成器,所述第三波束形成器所形成的波束的中心指向所述声音获取区域的160°方向。本专利技术的进一步改进为:每一波束形成器中设有与所述线性麦克风阵列中的每一麦克风对应连接的滤波器,每一波束形成器中的滤波器设置有对应的滤波器系数;所述滤波器系数通过固定波束成形算法计算得到;所述固定波束成形算法包括:yn(k)=xn(k)+vn(k),n=1,2,...,N(式一)在式一中,yn(k)是第n个麦克风采集到的音频数据,xn(k)和vn(k)分别是采集到的期望信号和加性噪声;式二中,是波束形成器的输出,将波束形成器的输出逼近线性麦克风阵列中某个麦克风接收到的期望信号,是第n个麦克风对应的滤波器系数;在式三中,em(k)表示波束形成器的输出信号与采集到的期望信号的误差,它等于期望信号的误差ex,m(k)与加性噪声的误差ev,m(k)的和;而期望信号的误差ex,m(k)与加性噪声的误差ev,m(k)可以用式四和式五来表示;基于最小化均方误差得到式六和式本文档来自技高网...
利用线性麦克风阵列的语音识别方法及系统

【技术保护点】
一种利用线性麦克风阵列的语音识别方法,其特征在于,所述方法包括如下步骤:利用线性麦克风阵列录制环境的声音以形成音频数据;针对所述线性麦克风阵列前方的声音获取区域设置波束形成器,利用所述波束形成器于所述声音获取区域形成位于中部的主波束区域和位于两侧部的第一噪声波束区域和第二噪声波束区域;将所述音频数据输入到所述波束形成器中以获得对应所述主波束区域的主波束、对应所述第一噪声波束区域的第一噪声波束、以及对应所述第二噪声波束区域的第二噪声波束;从所述主波束中滤除所述第一噪声波束和所述第二噪声波束以得到待识别的语音数据;对所述待识别的语音数据进行语音识别以得到对应的文本数据并输出。

【技术特征摘要】
1.一种利用线性麦克风阵列的语音识别方法,其特征在于,所述方法包括如下步骤:利用线性麦克风阵列录制环境的声音以形成音频数据;针对所述线性麦克风阵列前方的声音获取区域设置波束形成器,利用所述波束形成器于所述声音获取区域形成位于中部的主波束区域和位于两侧部的第一噪声波束区域和第二噪声波束区域;将所述音频数据输入到所述波束形成器中以获得对应所述主波束区域的主波束、对应所述第一噪声波束区域的第一噪声波束、以及对应所述第二噪声波束区域的第二噪声波束;从所述主波束中滤除所述第一噪声波束和所述第二噪声波束以得到待识别的语音数据;对所述待识别的语音数据进行语音识别以得到对应的文本数据并输出。2.如权利要求1所述的方法,其特征在于,所述声音获取区域包括角度从0°至180°的平面区域,针对所述线性麦克风阵列前方的声音获取区域设置波束形成器,包括:设置用于形成所述第一噪声波束区域的第一波束形成器,将所述第一波束形成器所形成的波束的中心指向所述声音获取区域的20°方向;设置用于形成所述主波束区域的第二波束形成器,将所述第二波束形成器所形成的波束的中心指向所述声音获取区域的90°方向;设置用于形成所述第二噪声波束区域的第三波束形成器,将所述第三波束形成器所形成的波束的中心指向所述声音获取区域的160°方向。3.如权利要求2所述的方法,其特征在于,设置波束形成器时,每一波束形成器中设置有与所述线性麦克风阵列中的每一麦克风对应连接的滤波器,采用固定波束成形算法为每一波束形成器中的滤波器计算滤波器系数;所述固定波束成形算法包括:yn(k)=xn(k)+vn(k),n=1,2,...,N(式一)在式一中,yn(k)是第n个麦克风采集到的音频数据,xn(k)和vn(k)分别是采集到的期望信号和加性噪声;式二中,是波束形成器的输出,将波束形成器的输出逼近线性麦克风阵列中某个麦克风接收到的期望信号,是第n个麦克风对应的滤波器系数;在式三中,em(k)表示波束形成器的输出信号与采集到的期望信号的误差,它等于期望信号的误差ex,m(k)与加性噪声的误差ev,m(k)的和;而期望信号的误差ex,m(k)与加性噪声的误差ev,m(k)可以用式四和式五来表示:基于最小化均方误差得到式六和式七,通过最小化以今力口性噪声最小,结合约束ex,m(k)=0以得出最佳滤波器系数hm,o,其中的hm为波束形成器中所有滤波器对应的滤波器系数矩阵,nm,o为波束形成器中所有滤波器对应的最佳的滤波器系数值。4.如权利要求1所述的方法,其特征在于,对所述待识别的语音数据进行语音识别,包括:先利用所述待识别的语音数据对声学模型进行自适应操作;而后利用经自适应操作的声学模型对所述待识别的语音数据进行语音识别。5.如权利要求4所述的方法,其特征在于,利用所述待识别的语音数据对声学模型进行自适应操作,包括:提取设定数量的待识别的语音数据,并对所提取的待识别的语音数据进行文本标注:提取所述设定数量的待识别的语音数据对应的声学特征,并将对应的文本标注与所述声学特征组合形成自适应训练数据;利用所述自适应训练数据对所述声学模型进行自适应训练。6.一种线性麦克风阵列语音识别系统,其特征在于,所述系统包括:线性麦克风阵列,用于录制环境的声音以形成音频数据;与所述线性麦克风阵列通信连接的波束形成器,所述波束形成器于所述...

【专利技术属性】
技术研发人员:贺来朋
申请(专利权)人:上海语知义信息技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1