语音处理方法、语音处理模型的训练方法、装置及设备制造方法及图纸

技术编号：43944915 阅读：10 留言：0更新日期：2025-01-07 21:34

本公开提供了一种语音处理方法、语音处理模型的训练方法、装置及设备，涉及计算机技术领域，尤其涉及语音增强、深度学习等人工智能技术领域。具体实现方案为：获取车辆内目标音区对应的唇动视频及所述车辆内的混合语音；对所述混合语音进行语音增强，以获取所述目标音区对应的初始语音；对所述唇动视频进行特征提取，以获取唇动特征；对所述初始语音进行特征提取，以获取音频特征；根据所述音频特征及所述唇动特征，确定所述目标音区对应的目标语音。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及计算机，尤其涉及语音增强、深度学习等人工智能，具体涉及一种语音处理方法、语音处理模型的训练方法、装置及设备。

技术介绍

1、车载语音交互可以将用户的语音指令转化为车机可理解的指令，然后通过语音合成技术将系统的反馈信息以语音形式传达给用户。车载语音交互技术，广泛应用于车载导航、车载娱乐、车载通讯、车辆控制、智能助理等车载场景。

2、但是，在手机导航或者手机刷短视频等场景，由于无法屏蔽手机的声音，会影响对用户的语音识别准确率，从而无法准确地判断的用户意图，影响交互体验，甚至存在手机干扰与车机进行交互的可能，使车机做出错误的反馈。

技术实现思路

1、本公开提供了一种语音处理方法、语音处理模型的训练方法、装置及设备。

2、根据本公开的第一方面，提供了一种语音处理方法，包括：

3、获取车辆内目标音区对应的唇动视频及所述车辆内的混合语音；

4、对所述混合语音进行语音增强，以获取所述目标音区对应的初始语音；

5、对所述唇动视频进行特征...

【技术保护点】

1.一种语音处理方法，包括：

2.根据权利要求1所述的方法，其中，所述对所述唇动视频进行特征提取，以获取唇动特征，包括：

3.根据权利要求2所述的方法，其中，所述对所述初始语音进行特征提取，以获取音频特征，包括：

4.根据权利要求1或3所述的方法，其中，所述根据所述音频特征及所述唇动特征，确定所述目标音区对应的目标语音，包括：

5.根据权利要求1所述的方法，其中，在所述获取车辆内目标音区对应的唇动视频及所述车辆内的混合语音之前，还包括：

6.根据权利要求5所述的方法，其中，所述获取车辆内目标音区对应的唇动视频，包括：

...

【技术特征摘要】

1.一种语音处理方法，包括：

2.根据权利要求1所述的方法，其中，所述对所述唇动视频进行特征提取，以获取唇动特征，包括：

3.根据权利要求2所述的方法，其中，所述对所述初始语音进行特征提取，以获取音频特征，包括：

4.根据权利要求1或3所述的方法，其中，所述根据所述音频特征及所述唇动特征，确定所述目标音区对应的目标语音，包括：

5.根据权利要求1所述的方法，其中，在所述获取车辆内目标音区对应的唇动视频及所述车辆内的混合语音之前，还包括：

6.根据权利要求5所述的方法，其中，所述获取车辆内目标音区对应的唇动视频，包括：

7.根据权利要求6所述的方法，其中，所述根据每帧图像对应的第二检测结果，对所述视频数据进行唇部区域提取，以获取所述唇动视频，包括：

8.根据权利要求7所述的方法，其中，还包括：

9.根据权利要求1所述的方法，其中，所述对所述混合语音进行语音增强，以获取所述目标音区对应的初始语音，包括：

10.一种语音处理模型的训练方法，包括：

11.根据权利要求10所述的方法，其特征在于，还包括：

12.根据权利要求10所述的方法，其中，所述将所述样本唇动特征及所述样本音频特征，输入所述初始语音处理模型中的初始增强网络中，以获取所述样本音区对应的第一预测语音，包括：

13.根据权利要求10所述的方法，其中，还包括：

14.一种语音处理装置，包括：...

【专利技术属性】
技术研发人员：徐静怡，詹可成，刘颖，刘玉强，黄斌，张策，贾磊，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人