用于多音区的语音处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：41399230 阅读：25 留言：0更新日期：2024-05-20 19:23

本公开涉及一种用于多音区的语音处理方法、装置、电子设备及存储介质，方法包括：获取第一语音信息；将第一语音信息输入到神经网络模型中，得到一个或多个第一源语音信息以及各第一源语音信息对应的发音位置；分别对各第一源语音信息进行声纹识别，得到各第一源语音信息对应的声纹识别结果；分别确定与各声纹识别结果对应的位置信息，并分别将与各声纹识别结果对应的位置信息作为与其对应的第一源语音信息的参考位置信息；分别对各第一源语音信息对应的发音位置和参考位置信息进行处理，确定各第一源语音信息对应的音区。由于其依赖两个渠道，确定第一源语音信息对应的音区，可以实现风险均担，提高用户位置确定的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及语音控制，尤其涉及一种用于多音区的语音处理方法、装置、电子设备及存储介质。

技术介绍

1、在多音区的智能语音控制场景中，为了使得场景中的设备能够准确执行用户指令，需要基于下达语音指令的用户的位置，以及语音指令的内容，确定用户控制意图，进而执行与该语音指令对应的控制操作。

2、现有技术中，通过波束形成方法，对待处理语音信息进行处理，进行声源定位。将声源定位结果作为用户的实际位置。但是在实际中，对于分布式麦克风阵列，中高频段波束形成难以实现，同时，由于受到背向拾音的影响，声音的衰减规律不同于自由场，会导致声源定位算法出现偏差，最终得到的声源定位结果不准确。此外，由于用户在车辆中会不断移动身体，致使出现用户头部与身体处于不同音区的情况。此种情况下，即使声源定位准确，通过声源定位方法得到的位置仅能够代表用户当前头部位置，无法代表用户当前所处音区。即现有的方式无法准确确定用户所处音区。

技术实现思路

1、为了解决上述技术问题，本公开提供了一种用于多音区的语音处理方法、装置、电子

【技术保护点】

1.一种用于多音区的语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对各所述第一源语音信息对应的发音位置和所述参考位置信息进行处理，确定各所述第一源语音信息对应的音区，包括：

3.根据权利要求2所述的方法，其特征在于，所述分别确定各所述第一源语音信息的所述发音位置的置信度和所述参考位置信息的置信度，包括：

4.根据权利要求1所述的方法，其特征在于，所述分别确定与各所述声纹识别结果对应的位置信息，包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

6.根据权利要求5所述的方法，其特征在于，所...

【技术特征摘要】

1.一种用于多音区的语音处理方法，其特征在于，包括：

3.根据权利要求2所述的方法，其特征在于，所述分别确定各所述第一源语音信息的所述发音位置的置信度和所述参考位置信息的置信度，包括：

4.根据权利要求1所述的方法，其特征在于，所述分别确定与各所述声纹识别结果对应的位置信息，包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述第二源语音信息的声纹信息和位置信息进行聚类，得到聚类结果，包括：

7.根据权利要求1所述的方法，其特征在于，还包括：

8.根据权利要求7所述的方法，其特征在于，所述...

【专利技术属性】
技术研发人员：罗大为，
申请(专利权)人：北京罗克维尔斯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人