语音识别、网络模型的训练方法、装置、设备和存储介质制造方法及图纸

技术编号:32930383 阅读:25 留言:0更新日期:2022-04-07 12:21
本申请提供了一种语音识别、网络模型的训练方法、装置、设备和存储介质,解决了现有技术中语音识别系统识别效果较差的问题。基于初始说话人波束和多路语音信号确定第一目标说话人波束,初始说话人波束基于多路语音信号的波束成形过程得到,第一目标说话人波束指示多路语音信号各自在初始说话人波束所在方向上的声音信息;基于第一目标说话人波束和多路语音信号确定噪声波束,噪声波束指示多路语音信号中除了第一目标说话人波束之外的声音信息;基于噪声波束和唤醒波束对第一目标说话人波束进行滤波,得到第二目标说话人波束,唤醒波束指示包含唤醒词的波束;对第二目标说话人波束进行语音识别,得到识别文本。得到识别文本。得到识别文本。

【技术实现步骤摘要】
语音识别、网络模型的训练方法、装置、设备和存储介质


[0001]本申请涉及语音识别
,具体涉及一种语音识别方法和装置、语音识别网络模型的训练方法和装置、计算机设备,以及存储介质。

技术介绍

[0002]语音识别是通过机器学习方法让机器能够自动的将语音转换成对应的文字,从而赋予了机器类似人的听觉的功能,是人工智能的重要组成部分。随着语音输入使用场景的日益复杂,例如卖场等高噪声场景,对现有语音识别系统的要求越来越高。现有的语音识别系统在远场多点噪声场景下,识别效果较差。

技术实现思路

[0003]有鉴于此,本申请实施例提供了一种语音识别方法和装置、语音识别网络模型的训练方法和装置、计算机设备,以及存储介质,以解决现有技术中语音识别系统识别效果较差的问题。
[0004]本申请第一方面提供了一种语音识别方法,包括:基于初始说话人波束和多路语音信号确定第一目标说话人波束,初始说话人波束基于多路语音信号的波束成形过程得到,第一目标说话人波束指示多路语音信号各自在初始说话人波束所在方向上的声音信息;基于第一目标说话人波束和多路语本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:基于初始说话人波束和多路语音信号确定第一目标说话人波束,所述初始说话人波束基于所述多路语音信号的波束成形过程得到,所述第一目标说话人波束指示所述多路语音信号各自在所述初始说话人波束所在方向上的声音信息;基于所述第一目标说话人波束和所述多路语音信号确定噪声波束,所述噪声波束指示所述多路语音信号中除了所述第一目标说话人波束之外的声音信息;基于所述噪声波束和唤醒波束对所述第一目标说话人波束进行滤波,得到第二目标说话人波束,所述唤醒波束指示包含唤醒词的波束;对所述第二目标说话人波束进行语音识别,得到识别文本。2.根据权利要求1所述的语音识别方法,其特征在于,所述基于初始说话人波束和多路语音信号确定第一目标说话人波束包括:基于所述多路语音信号确定多个固定波束,所述多个固定波束和多个预设方向一一对应;基于所述多个固定波束确定多个自适应波束,所述多个自适应波束和所述多个固定波束一一对应,所述自适应波束包括所述多个固定波束在所述自适应波束所在预设方向上的语音信息;过滤掉所述多个固定波束和所述多个自适应波束中所述初始说话人波束所在方向之外的语音信息,得到所述第一目标说话人波束。3.根据权利要求2所述的语音识别方法,其特征在于,所述基于所述多个固定波束确定多个自适应波束包括:针对每个所述固定波束,确定所述固定波束和其余所述固定波束的第一方向相关系数向量;确定所述第一方向相关系数向量和所述固定波束的乘积为所述自适应波束。4.根据权利要求2所述的语音识别方法,其特征在于,所述过滤掉所述多个固定波束和所述多个自适应波束中所述初始说话人波束所在方向之外的语音信息,得到所述第一目标说话人波束包括:分别确定所述多个固定波束和所述多个自适应波束各自与所述初始说话人波束的第二方向相关系数向量;确定所述第二方向相关系数向量和所述初始说话人波束的乘积为所述第一目标说话人波束。5.根据权利要求1所述的语音识别方法,其特征在于,所述基于所述第一目标说话人波束和所述多路语音信号确定噪声波束包括:对所述第一目标说话人波束和所述多路语音信号进行声学特征提取,分别得到第一特征信息和第二特征信息;确定所述第二特征信息中和所述第一特征信息不匹配的第三特征信息;确定所述第三特征信息对应的声音信号为所述噪声波束。6.根据权利要求1所述的语音识别方法,其特征在于,所述基于所述噪声波束和唤醒波束对所述第一目标说话人波束进行过滤,得到第二目标说话人波束包括:对所述第一目标说话人波束、所述噪声波束和所述唤醒波束进行声学特征提取,分别
得到第四特征信息、第五特征信息和第六特征信息;确定所述第四特征信息中与所述第五特征信息匹配的第七特征信息;确定所述第四特征信息中除了所述第七特征信息之外的特征信息中与所述第六特征信息匹配的第八特征信息;确定所述第八特征信息对应的声音信号为所述第二目标说话人波束。7.根据权利要求6所述的语音识别方法,其特征在于,所述对所述第一目标说话人波束、所述噪声波束和所述唤醒波束进行声学特征提取包括:对所述第一目标说话人波束、所述噪声波束和所述唤醒波束进行能量谱声学特征提取。8.根据权利要求6所述的语音识别方法,其特征在于,在所述对所述第一目标说话人波束、所述噪声波束和所述唤醒波束进行声学特征提取,分别得到第四特征信息、第五特征信息和第六特征信息之后,还包括:分别识别所述第四特征信息、所述第五特征信息和所述第六特征信息中的有效音频信息;所述确定所述第四特征信息中与所述第五特征信息匹配的第七特征信息包括:确定所述第四特征信息的有效音频信息中与所述第五特征信息的有效音频信息匹配的第七特征...

【专利技术属性】
技术研发人员:黄鑫许丽
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1