语音处理方法、装置、电子设备、车辆和存储介质制造方法及图纸

技术编号：41291429 阅读：4 留言：0更新日期：2024-05-13 14:42

本申请提出一种语音处理方法、装置、电子设备、车辆和存储介质，该方法将混合语音信号输入到音频处理模型中。通过音频处理模型中的第一子模型对混合语音信号进行处理，得到多个单音源音频，通过音频处理模型中的第二子模型对混合语音信号进行处理，得到多个单音源音频的语音活动检测结果，第一子模型和第二子模型中的部分参数共享。针对任意一个单音源音频，以及该单音源音频的语音活动检测结果，从该单音源音频中进行目标对象的语音信号提取处理。如此设置，通过音频处理模型中的第一子模型和第二子模型共享部分参数，减少了计算时间以及数据传输时间，能够同步且快速获取单音源音频和语音活动检测结果，减少了对混合语音信号的处理时间。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音处理，尤其涉及一种语音处理方法、装置、电子设备、车辆和存储介质。

技术介绍

1、在对语音指令进行识别前，需要先对初始语音进行处理，从初始语音中截取语音指令，以便于对语音指令进行识别。但是，上述处理时间过长将会延长用户的等待时间，影响用户体验。因此，如何优化对初始语音的处理方式，缩短处理时间，是本领域技术人员亟待解决的技术问题。

技术实现思路

1、有鉴于此，本申请提出一种语音处理方法、装置、电子设备、车辆和存储介质，该方法能够优化对初始语音的处理方式，缩短处理时间。

2、本申请提出的技术方案具体如下：

3、第一方面，本申请的实施例提供了一种语音处理方法，包括：

4、将待分离的混合语音信号输入到音频处理模型中；所述混合语音信号包括多个音区的语音信号；

5、通过所述音频处理模型中的第一子模型对所述混合语音信号进行处理，得到所述第一子模型输出的多个单音源音频，所述多个单音源音频分别对应不同的音区；通过所述音频处理模型中的第二子模型对所述混合语音信号进行处理，得到所述第二子模型输出的所述多个单音源音频的语音活动检测结果；其中，所述第一子模型和所述第二子模型中的部分参数共享；

6、针对任意一个单音源音频，以及该单音源音频的语音活动检测结果，从该单音源音频中进行目标对象的语音信号提取处理。

7、第二方面，本申请的实施例提供了一种语音处理装置，包括：

8、输入模块，用于将待分离的混合语音信号输入到音频

9、处理模块，用于通过所述音频处理模型中的第一子模型对所述混合语音信号进行处理，得到所述第一子模型输出的多个单音源音频，所述多个单音源音频分别对应不同的音区；通过所述音频处理模型中的第二子模型对所述混合语音信号进行处理，得到所述第二子模型输出的所述多个单音源音频的语音活动检测结果；其中，所述第一子模型和所述第二子模型中的部分参数共享；

10、提取模块，用于针对任意一个单音源音频，以及该单音源音频的语音活动检测结果，从该单音源音频中进行目标对象的语音信号提取处理。

11、进一步地，以上所述的装置中，所述处理模块，具体用于：

12、通过所述第一子模型和所述第二子模型中参数共享的部分，对所述混合语音信号进行编码处理和时序建模处理，得到混合语音特征；通过所述第一子模型中独立的部分对所述混合语音特征进行解码处理，得到所述第一子模型输出的多个单音源音频；通过所述第二子模型中独立的部分对所述混合语音特征进行音频活动检测处理，得到所述第二子模型输出的所述多个单音源音频的语音活动检测结果。

13、进一步地，以上所述的装置中，所述第一子模型和所述第二子模型中参数共享的部分包括编码层和时序建模层，所述第一子模型中独立的部分包括解码层，所述第二子模型中独立的部分包括音频活动检测层；

14、所述编码层，用于对所述混合语音信号进行编码处理，得到混合语音编码；所述时序建模层，用于对所述混合语音编码进行时序建模处理，得到所述混合语音特征；所述解码层，用于对所述混合语音特征进行解码处理，得到所述第一子模型输出的多个单音源音频；所述音频活动检测层，用于对所述混合语音特征进行音频活动检测处理，得到所述第二子模型输出的所述多个单音源音频的语音活动检测结果。

15、进一步地，以上所述的装置中，还包括：

16、训练模块，用于获取样本混合语音信号、多路纯净语音信号，以及，所述多路纯净语音对应的语音活动检测结果；所述样本混合语音信号是对所述多路纯净语音进行语音混合以及噪声添加处理后得到的；将所述样本混合语音信号输入到音频处理模型，以使所述音频处理模型中的第一子模型对所述样本混合语音信号进行处理，得到所述第一子模型输出的多个样本单音源音频，所述音频处理模型中的第二子模型对所述样本混合语音信号进行处理，得到所述第二子模型输出的所述多个样本单音源音频的样本语音活动检测结果；其中，所述第一子模型和所述第二子模型中的部分参数共享；根据所述多个样本单音源音频与所述多路纯净语音信号之间的差异，以及，所述多个样本单音源音频的样本语音活动检测结果与所述多路纯净语音对应的语音活动检测结果之间的差异，对所述音频处理模型进行训练。

17、进一步地，以上所述的装置中，还包括：

18、回声消除模块，用于在将待分离的混合语音信号输入到音频处理模型中之前，获取至少一个音频采集设备采集得到的音频信号；对所述音频信号进行回声消除处理，得到所述混合语音信号。

19、进一步地，以上所述的装置中，所述回声消除模块，具体用于：

20、利用音频数字信号处理器，对所述音频信号进行回声消除处理，得到所述混合语音信号。

21、进一步地，以上所述的装置中，所述提取模块，具体用于：

22、针对任意一个单音源音频进行唤醒词识别，得到唤醒词识别结果；若所述唤醒词识别结果为识别到唤醒词，则基于该单音源音频的语音活动检测结果和唤醒词识别结果，从该单音源音频中进行目标对象的语音信号提取处理。

23、进一步地，以上所述的装置中，所述提取模块，具体用于：

24、根据该单音源音频的语音活动检测结果和唤醒词识别结果，确定该单音源音频中唤醒词字段所在的位置；根据该单音源音频的语音活动检测结果，分离该单音源音频中唤醒词字段后的语音字段，作为所述目标对象的语音信号。

25、进一步地，以上所述的装置中，所述输入模块、所述处理模块和所述提取模块，在将待分离的混合语音信号输入到音频处理模型中；通过所述音频处理模型中的第一子模型对所述混合语音信号进行处理，得到所述第一子模型输出的多个单音源音频；通过所述音频处理模型中的第二子模型对所述混合语音信号进行处理，得到所述第二子模型输出的所述多个单音源音频的语音活动检测结果；针对任意一个单音源音频进行唤醒词识别，得到唤醒词识别结果时，具体用于：

26、利用计算数字信号处理器，将待分离的混合语音信号输入到音频处理模型中；通过所述音频处理模型中的第一子模型对所述混合语音信号进行处理，得到所述第一子模型输出的多个单音源音频；通过所述音频处理模型中的第二子模型对所述混合语音信号进行处理，得到所述第二子模型输出的所述多个单音源音频的语音活动检测结果；针对任意一个单音源音频进行唤醒词识别，得到唤醒词识别结果。

27、第三方面，本申请的实施例提供一种电子设备，包括：

28、存储器和处理器；其中，所述存储器用于存储程序；所述处理器，用于通过运行所述存储器中的程序，实现以上任意一项所述的方法。

29、第四方面，本申请的实施例提供一种车辆，包括语音控制设备；所述语音控制设备被配置为执行以上任意一项所述的方法。

30、第五方面，本申请的实施例提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现以上任意一本文档来自技高网...

【技术保护点】

1.一种语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过所述音频处理模型中的第一子模型对所述混合语音信号进行处理，得到所述第一子模型输出的多个单音源音频；通过所述音频处理模型中的第二子模型对所述混合语音信号进行处理，得到所述第二子模型输出的所述多个单音源音频的语音活动检测结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一子模型和所述第二子模型中参数共享的部分包括编码层和时序建模层，所述第一子模型中独立的部分包括解码层，所述第二子模型中独立的部分包括音频活动检测层；

4.根据权利要求1所述的方法，其特征在于，所述音频处理模型通过以下方法训练得到：

5.根据权利要求1所述的方法，其特征在于，所述将待分离的混合语音信号输入到音频处理模型中之前，还包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述音频信号进行回声消除处理，得到所述混合语音信号，包括：

7.根据权利要求1所述的方法，其特征在于，所述针对任意一个单音源音频，以及该单音源音频的语音活动检测结果，从

8.根据权利要求7所述的方法，其特征在于，所述基于该单音源音频的语音活动检测结果和唤醒词识别结果，从该单音源音频中进行目标对象的语音信号提取处理，包括：

9.根据权利要求7所述的方法，其特征在于，将待分离的混合语音信号输入到音频处理模型中；通过所述音频处理模型中的第一子模型对所述混合语音信号进行处理，得到所述第一子模型输出的多个单音源音频；通过所述音频处理模型中的第二子模型对所述混合语音信号进行处理，得到所述第二子模型输出的所述多个单音源音频的语音活动检测结果；针对任意一个单音源音频进行唤醒词识别，得到唤醒词识别结果，包括：

10.一种语音处理装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：

12.一种车辆，其特征在于，包括语音控制设备；所述语音控制设备被配置为执行权利要求1至9中任意一项所述的方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时，实现如权利要求1至9中任意一项所述的方法。

...

【技术特征摘要】

1.一种语音处理方法，其特征在于，包括：

4.根据权利要求1所述的方法，其特征在于，所述音频处理模型通过以下方法训练得到：

5.根据权利要求1所述的方法，其特征在于，所述将待分离的混合语音信号输入到音频处理模型中之前，还包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述音频信号进行回声消除处理，得到所述混合语音信号，包括：

7.根据权利要求1所述的方法，其特征在于，所述针对任意一个单音源音频，以及该单音源音频的语音活动检测结果，从该单音源音频中...

【专利技术属性】
技术研发人员：杨梓业，张鹏，
申请(专利权)人：上海集度汽车有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人