音频信号处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：40218412 阅读：22 留言：0更新日期：2024-02-02 22:25

本申请提供一种音频信号处理方法、装置、计算机设备及存储介质，涉及人工智能技术领域。本申请提供的音频信号处理方法，通过基于第一音频信号，使用语音注册模块，获取该语音注册模块对应的第一隐状态，从而快速得到所关注声源的隐式特征；并基于该第一隐状态，从第二音频信号中提取目标音频信号，从而无需基于较长时间的注册声源的音频来提取显式特征，也可完成对目标音频信号的提取，节省了注册时间，提高了音频信号处理的效率，提高了音频信号处理方法的实用性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，本申请涉及一种音频信号处理方法、装置、计算机设备及存储介质。

技术介绍

1、语音提取技术，是一种从混合的语音信号中提取特定人的目标语音的技术。语音提取技术可应用于语音通话、在线会议等多种场景。

2、相关技术中，为提高特定说话人语音的提取质量，通常需要提前获取特定人5至10秒的语音以进行注册。然而，受限于注册所需的特定人语音较长，采用相关技术来提取语音的实用性较差。因此，如何处理音频信号以更好的实现语音提取，仍是本领域研究的重点。

技术实现思路

1、本申请提供了一种音频信号处理方法、装置、计算机设备及存储介质，可以提高音频信号处理的效率，提高实用性。所述技术方案如下：

2、一方面，提供了一种音频信号处理方法，所述方法包括：

3、基于第一音频信号，使用语音注册模块，获取所述语音注册模块对应的第一隐状态；

4、基于所述第一隐状态，从第二音频信号中提取目标音频信号。

5、一方面，提供了一种音频信号处理方法，所述方法包括：

6、本文档来自技高网...

【技术保护点】

1.一种音频信号处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述语音注册模块包含第一编码模块和隐状态分析模块；

3.根据权利要求2所述的方法，其特征在于，所述使用所述隐状态分析模块，基于所述第一音频特征进行特征提取，获取特征提取时所述隐状态分析模块的第一隐状态，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述基于当前帧的第一音频特征进行特征提取，获取特征提取时所述隐状态分析模块的第一隐状态，基于获取的第一隐状态，更新所述隐状态分析模块的第一隐状态，包括：

5.根据权利要求2-4中任一项所述的方法...

【技术特征摘要】

1.一种音频信号处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述语音注册模块包含第一编码模块和隐状态分析模块；

5.根据权利要求2-4中任一项所述的方法，其特征在于，所述使用所述第一编码模块，提取所述第一音频信号的第一音频特征，包括：

6.根据权利要求2-5中任一项所述的方法，其特征在于，所述隐状态分析模块包括下述至少一种：循环神经网络，注意力网络，transformer网络，卷积网络。

7.根据权利要求1所述的方法，其特征在于，所述基于所述第一隐状态，从第二音频信号中提取目标音频信号，包括：

8.根据权利要求7所述的方法，其特征在于，还包括：

9.根据权利要求7所述的方法，其特征在于，所述第二音频信号包括至少一个块，每个块包括至少一帧；

10.根据权利要求9所述的方法，其特征在于，所述基于所述语音注册模块对应的第一隐状态和所述语音提取模块的历史第二隐状态，预测所述语音提取模块处理当前块时的第二隐状态，包括：

11.根据权利要求9或10所述的方法，其特征在于，所述语音提取模块的历史第二隐状态包括：<...

【专利技术属性】
技术研发人员：杨磊，刘炜，谭璐芬，
申请(专利权)人：北京三星通信技术研究有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人