语音信号处理方法、装置、可读存储介质及电子设备制造方法及图纸

技术编号：37358629 阅读：35 留言：0更新日期：2023-04-27 07:07

本公开实施例公开了一种语音信号处理方法、装置、可读存储介质及电子设备，其中，该方法包括：获取目标空间内的语音信号和图像序列；基于语音信号，通过第一语音处理方式，从语音信号中提取第一语音片段信号；基于语音信号和图像序列，通过第二语音处理方式，从语音信号中提取第二语音片段信号；确定当前的语音信号处理状态是否符合语音信号输出条件；若符合语音信号输出条件，确定图像序列的图像质量信息；基于图像序列的图像质量信息，从第一语音片段信号和第二语音片段信号中确定目标语音片段信号，并输出目标语音片段信号。本公开实施例根据图像质量有针对性地选择输出的语音片段信号的来源，进而有助于提高语音识别的准确性。确性。确性。

全部详细技术资料下载

【技术实现步骤摘要】
语音信号处理方法、装置、可读存储介质及电子设备

[0001]本公开涉及计算机
，尤其是一种语音信号处理方法、装置、计算机可读存储介质及电子设备。

技术介绍

[0002]传统的语音识别技术仅对语音信号进行处理以得到识别结果，这种语音识别方法在语音清晰的环境下识别效果较好。然而，在一些高噪声等复杂环境下，传统的语音识别技术的识别率会迅速下降。为了提高语音识别率，目前存在借助唇部动作视频协助进行语音识别的多模态语音识别方法，在一定程度上提高了高噪声场景下语音的识别率。
[0003]但是，在实时语音交互系统中，在用户的脸部被遮挡、脸部图像不清晰等情况下，基于图像识别得到的视觉特征成为无效的干扰输入，多模态语音识别方法的性能会出现显著下降，因此在视觉特征无效的情况下，如何将无效特征去除，只对有效的语音信号进行识别是需要解决的问题。

技术实现思路

[0004]为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种语音信号处理方法、装置、计算机可读存储介质及电子设备。
[0005]本公开的实施例...

【技术保护点】

【技术特征摘要】
1.一种语音信号处理方法，包括：获取目标空间内的语音信号和图像序列；基于所述语音信号，通过第一语音处理方式，从所述语音信号中提取第一语音片段信号；基于所述语音信号和所述图像序列，通过第二语音处理方式，从所述语音信号中提取第二语音片段信号；确定当前的语音信号处理状态是否符合语音信号输出条件；响应于所述语音信号处理状态符合所述语音信号输出条件，确定所述图像序列的图像质量信息；基于所述图像序列的图像质量信息，从所述第一语音片段信号和所述第二语音片段信号中确定目标语音片段信号，并输出所述目标语音片段信号。2.根据权利要求1所述的方法，其中，所述基于所述语音信号和所述图像序列，通过第二语音处理方式，从所述语音信号中提取第二语音片段信号，包括：基于预设的音频特征提取网络，确定所述语音信号的音频特征数据；基于预设的图像序列特征提取网络，确定所述图像序列的图像序列特征数据；将所述音频特征数据和所述图像序列特征数据合并，并将合并后的数据输入预先训练的特征融合网络，得到掩码数据；基于所述掩码数据，从所述语音信号中提取所述第二语音片段信号。3.根据权利要求1所述的方法，其中，所述确定当前的语音信号处理状态是否符合语音信号输出条件，包括：确定当前是否存在按照当前的输出通道对应的语音处理方式正在处理的语音片段信号；响应于当前不存在按照当前的输出通道对应的语音处理方式正在处理的语音片段信号，确定当前的语音信号处理状态符合语音信号输出条件。4.根据权利要求1所述的方法，其中，所述确定所述图像序列的图像质量信息，包括：对于所述图像序列中的每帧图像，确定该图像中是否包含用户的目标部位；响应于该图像不包含所述目标部位，生成表示该图像的图像质量不合格的第一图像质量信息；响应于该图像包含所述目标部位，确定所述目标部位的可识别度；响应于确定所述可识别度符合可识别条件，生成表示该图像的图像质量合格的第二图像质量信息；响应于确定所述可识别度不符合所述可识别条件，生成表示该图像的图像质量不合格的第一图像质量信息；基于得到的第一图像质量信息的数量和第二图像质量信息的数量，确定所述图像序列的图像质量信息。5.根据权利要求4所述的方法，其中，所述确定所述目标部位的可识别度，包括：从该图像中确定包含所述目标部位的目标区域；...

【专利技术属性】
技术研发人员：李文鹏，潘复平，朱长宝，
申请(专利权)人：北京地平线机器人技术研发有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人