【技术实现步骤摘要】
一种语音识别方法及系统
本申请涉及但不限于信号处理技术,尤指一种语音识别方法及系统。
技术介绍
相关技术中,远场语音识别系统主要包括两个组成部分:一是前端信号增强部分,用于对接收到的多通道带噪语音信号进行处理,从而得到增强后的单通道语音信号。前端信号增强部分通过利用多个通道的语音信号之间的关联性,去除一定的噪声干扰,提升信号的信噪比;另一个是后端常用的语音识别(ASR)部分,用于对前端信号增强部分处理后的单通道语音信号输入一个通用的语音识别系统,以得到最终的语音识别结果。在复杂环境下,很难估计出信号的信噪比和信号源方向,也就是说,相关技术中的远场语音识别技术很难保障语音识别结果的准确性。
技术实现思路
本申请提供一种语音识别方法及系统,能够保障语音识别结果的准确性。本专利技术实施例提供了一种语音识别方法,包括:按照不同的波达方向DoA对信号源进行划分;对对应于不同DoA的信号源分别进行增强处理;对增强处理后的对应不同DoA的信号分别进行语音识别,得到对应不同 ...
【技术保护点】
1.一种语音识别方法,包括:/n按照不同的波达方向DoA对信号源进行划分;/n对对应于不同DoA的信号源分别进行增强处理;/n对增强处理后的对应不同DoA的信号分别进行语音识别,得到对应不同DoA的识别结果;/n将不同DoA的识别结果输入各自的声学模型,并对各声学模型的输出结果进行融合处理,得到识别结果。/n
【技术特征摘要】
1.一种语音识别方法,包括:
按照不同的波达方向DoA对信号源进行划分;
对对应于不同DoA的信号源分别进行增强处理;
对增强处理后的对应不同DoA的信号分别进行语音识别,得到对应不同DoA的识别结果;
将不同DoA的识别结果输入各自的声学模型,并对各声学模型的输出结果进行融合处理,得到识别结果。
2.根据权利要求1所述的语音识别方法,其中,所述按照不同的波达方向DoA对信号源进行划分,包括:
将空间划分为多个区域,从而将信号源划分至不同DoA角度形成的区域。
3.根据权利要求2所述的语音识别方法,其中,所述DoA角度包括以下至少之一:30度、60度、90度、120度、150度。
4.根据权利要求1所述的语音识别方法,其中,所述对对应于不同DoA的信号源分别进行增强处理,包括:
对所述对应于不同DoA的信号源都分别进行基于延时叠加DAS的波束形成方法,得到所述增强处理后的信号。
5.根据权利要求1所述的语音识别方法,其中,所述对对应于不同DoA的信号源分别进行增强处理,包括:
对所述对应于不同DoA的信号源都分别进行MVDR的波束形成方法,得到所述增强处理后的信号。
6.根据权利要求1所述的语音识别方法,所述方法之前还包括:根据不同的所述DoA对空间进行区域划分;对不同区域内的语音信号进行语音增强处理,得到不同的增强信号样本;利用得到的各样本训练得到对应不同DoA的所述声学模型。
7.根据权利要求6或7所述的语音识别方法,其中,所述将不同DoA的识别结果输入各自的声学模型,并对各声学模型的...
【专利技术属性】
技术研发人员:张仕良,雷鸣,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。