当前位置: 首页 > 专利查询>重庆大学专利>正文

基于自组织麦克风阵列的远场拾音语音识别方法及系统技术方案

技术编号:38834688 阅读:11 留言:0更新日期:2023-09-17 09:52
本发明专利技术涉及基于自组织麦克风阵列的远场拾音语音识别方法,属于语音识别技术领域。包括以下步骤:S1、建立一个点声源和一个包含M个麦克风的自组织麦克风阵列,通过自组织麦克风阵列收集语音信息;S2、对于不同通道的麦克风采集到的不同强度的语音信号,采用统一阈值大小的滤波器进行预处理;S3、采用自适应滤波与维纳滤波联合的改进型滤波方式进行滤波降噪和语音增强;S4、通过训练好的WeNet网络框架进行语音识别。本方案能提升远距离及复杂噪声背景下语音识别算法的识别准确率。景下语音识别算法的识别准确率。景下语音识别算法的识别准确率。

【技术实现步骤摘要】
基于自组织麦克风阵列的远场拾音语音识别方法及系统


[0001]本专利技术属于语音识别
,涉及基于自组织麦克风阵列的远场拾音语音识别方法及系统。

技术介绍

[0002]语音识别技术在人机交互上扮演着重要的角色,任何因语音识别导致的语义错误都可能在人机交互系统中的各个模块上传播,并最终导致交互失败。
[0003]基于麦克风阵列的多通道语音识别是提高识别性能的重要途径。采用传统的麦克风阵列,当扬声器和麦克风阵列之间的距离增大时,语音质量显著下降,语音信号信噪比始终有所偏低,且无法仅通过增加麦克风数量来克服这一缺陷。因此如何基于远距离背景下提升语音识别算法准确率是亟待解决的问题。
[0004]为解决上述问题,现有技术提出采用自组织麦克风阵列来拾取远场语音信号,麦克风更加接近声源,采集到信噪比更高的语音信号。然后进行通道选择,去除掉含噪过高的通道信号,用干净的语音数据训练单通道ASR,然后用多通道带噪语音数据训练流注意力机制网络,解决了数据量庞大和严重噪声导致无法训练成功的问题。然而,上述方法在具有复杂噪声环境的实际应用中,识别的精度还有待提高。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供基于自组织麦克风阵列的远场拾音语音识别方法及系统,在远距离及复杂噪声背景下提升语音识别算法的识别准确率。
[0006]为达到上述目的,本专利技术提供如下技术方案:
[0007]基于自组织麦克风阵列的远场拾音语音识别方法,包括以下步骤:
[0008]S1、建立一个点声源和一个包含M个麦克风的自组织麦克风阵列,通过自组织麦克风阵列收集语音信息,被自组织麦克风阵列接收到的信号在经过同步模块以后的物理模型表示为:
[0009]y(t,f)=c(f)s(t,f)+n(t,f)=x(t,f)+n(t,f)
ꢀꢀꢀꢀ
(1.1)
[0010]其中,s(t,f)表示纯净语音在第t时刻和第f个频带的短时傅里叶变换值;c(f)是从声源到麦克风阵列的一个M维时不变空间传递函数;c(f)s(t,f)表示目标信号的直声;n(t,f)包含噪声、早期混响和晚期混响;
[0011]S2、对于不同通道的麦克风采集到的不同强度的语音信号,进行处理预处理:
[0012][0013]其中,p=[p1,p2,...,p
M
]T
是通道选择滤波器,表示按元素相乘的数学操作;
[0014]具体包括:
[0015]S21、对各个通道语音信号的信噪比进行排序,将信噪比差值最大的两路信号中间值设为固定阈值;
[0016]S22、判断各个通道语音信号的信噪比是否大于所述固定阈值;若所述信噪比大于
所述固定阈值,则保留对应通道的语音信号;若所述信噪比小于所述固定阈值,则去除对应通道的语音信号;
[0017]S23、对保留的信号赋予权重P
i
,将P
i
带入式(1.2),得到合成信号;
[0018]S3、采用自适应滤波与维纳滤波联合的改进型滤波方式进行滤波降噪和语音增强;
[0019]S4、通过训练好的WeNet网络框架进行语音识别。
[0020]进一步,在所述S1中,所述预处理采用统一阈值大小的滤波器。
[0021]进一步,在所述S3中,滤波降噪和语音增强具体包括:
[0022]S31、对所述合成信号进行自适应滤波;
[0023]S32、,对自适应滤波后的信号进行分帧加窗,获得近似的平稳过程;
[0024]S33、对各帧进行维纳滤波后重组,得到维纳滤波后的语音信号;
[0025]S34、对维纳滤波后的语音信号解分帧,得到降噪信号。
[0026]进一步,在所述S32中,所述分帧加窗具体为,以10

30ms为单位进行分帧,以50%作为重叠帧加以汉明窗。
[0027]进一步,在所述S4中,训练WeNet网络框架时结合CTC和AED的损失:
[0028]L
(联合)
(x,y)=λL
CTC
(x,y)+(1

λ)L
AED
(x,y)
ꢀꢀꢀꢀ
(1.3)
[0029]其中x为声学特征,y为相应的标签L
CTC
(x,y)和L
AED
(x,y)分别是CTC和AED损失,λ是平衡CTC和AED损失重要性的超参数。
[0030]进一步,在所述S4中,WeNet网络架构采用联合双通道CTC/AED结构作为基本模型结构,包括共享编码器、CTC解码器以及Attention解码器,具体识别过程如下:
[0031]S41、通过共享编码器考虑有限的上下文,对输入的降噪信号进行编码;
[0032]S42、对模型的CTC部分进行CTC前缀波束搜索,生成n个最佳候选项;
[0033]S43、在AED解码器部分用相应的编码器输出对n个最佳候选项进行重打分;
[0034]S44、将最终评分最高的最佳候选项作为最终语音识别结果。
[0035]基于自组织麦克风阵列的远场拾音语音识别系统,包括自组织麦克风阵列和处理器;
[0036]所述自组织麦克风阵列,包括分散设置在一个点音源周围的M个麦克风,用来采集语音信息;
[0037]所述处理器,用于当执行所述计算机程序时,实现如上所述的基于自组织麦克风阵列的远场拾音语音识别方法。
[0038]本专利技术的有益效果在于:
[0039]本方案在通道选择中对不同通道的麦克风采用同一阈值大小的滤波器,让靠近声源的麦克风阵列收集到清晰、干净的语音信号,弱化远离声源的麦克风阵列采集的语音信号,并减少室内封闭空间噪声和回响的影响,在远距离背景下提升语音识别算法准确率。本方案先采用自适应滤波LMS算法,利用前一时刻的滤波器参数自动调整当前时刻的滤波器参数,具有自适应性,且无需提取语音信号的先验统计特征。然后对自适应滤波后的信号进行分帧加窗,分别对各帧采用维纳滤波后解分帧重组;这一过程巧妙地利用维纳滤波,克服了自适应滤波参数向最优值过渡时的精度缺陷,解决了先进行的自适应滤波在语音开头一部分滤波效果较差的问题,进一步提高信噪比,提高语音识别精度。
[0040]同时,本方案采用WeNet网络框架进行语音识别,通过一个统一的双通道(U2)框架来解决流问题,在训练过程中采用动态块技术将流和非流两种模式统一在一个神经网络模型中,极大地减少了实际应用中部署端到端模型的工作量,兼顾提高语音识别算法在复杂背景下的泛化能力,增强语音识别对不同复杂背景下使用场景的适应性,降低了应用成本。
[0041]本专利技术的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本专利技术的实践中得到教导。本专利技术的目标和其他优点可以通过下面的说明书来实现和获得。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于自组织麦克风阵列的远场拾音语音识别方法,其特征在于:包括以下步骤:S1、建立一个点声源和一个包含M个麦克风的自组织麦克风阵列,通过自组织麦克风阵列收集语音信息,被自组织麦克风阵列接收到的信号在经过同步模块以后的物理模型表示为:y(t,f)=c(f)s(t,f)+n(t,f)=x(t,f)+n(t,f)
ꢀꢀꢀꢀ
(1.1)其中,s(t,f)表示纯净语音在第t时刻和第f个频带的短时傅里叶变换值;c(f)是从声源到麦克风阵列的一个M维时不变空间传递函数;c(f)s(t,f)表示目标信号的直声;n(t,f)包含噪声、早期混响和晚期混响;S2、对于不同通道的麦克风采集到的不同强度的语音信号,进行预处理:其中,p=[p1,p2,...,p
M
]
T
是通道选择滤波器,表示按元素相乘的数学操作;具体包括:S21、对各个通道语音信号的信噪比进行排序,将信噪比差值最大的两路信号中间值设为固定阈值;S22、判断各个通道语音信号的信噪比是否大于所述固定阈值;若所述信噪比大于所述固定阈值,则保留对应通道的语音信号;若所述信噪比小于所述固定阈值,则去除对应通道的语音信号;S23、对保留的信号赋予权重P
i
,计算得到合成信号;S3、采用自适应滤波与维纳滤波联合的改进型滤波方式进行滤波降噪和语音增强;S4、通过训练好的WeNet网络框架进行语音识别。2.根据权利要求1所述的基于自组织麦克风阵列的远场拾音语音识别方法,其特征在于:在所述S1中,所述预处理采用统一阈值大小的滤波器。3.根据权利要求1所述的基于自组织麦克风阵列的远场拾音语音识别方法,其特征在于:在所述S3中,滤波降噪和语音增强具体包括:S31、对所述合成信号进行自适应滤波;S32、,对自适应滤波后的信号进行分帧加窗,获得近似的平稳过程;S33、对各帧进行维纳滤波后重组,得到维纳滤波后的语音信号;S3...

【专利技术属性】
技术研发人员:叶婷黄扬帆黄啟洪甘平粟嘉伟冯璐峰
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1