语音分离方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：37663913 阅读：16 留言：0更新日期：2023-05-26 04:20

本公开涉及一种语音分离方法、装置、电子设备及可读存储介质，该方法包括：获取待处理语音对应的语音特征和参考语音对应的瓶颈特征；将所述待处理语音对应的语音特征和所述参考语音对应的瓶颈特征输入至语音分离模型，获取语音分离模型输出的语音检测结果；基于语音检测结果，确定待处理语音中与参考语音相匹配的目标语音段，其中，所述目标语音段的语音特征与所述参考语音的瓶颈特征相匹配。本公开实施例，用于实现语音分离的系统采用端到端的方式实现，且通过将待处理语音对应的语音特征和参考语音对应的瓶颈特征作为语音分离系统的联合输入，用于从待处理语音中分离出目标语音，还能够提高分离出的目标语音的准确度。还能够提高分离出的目标语音的准确度。还能够提高分离出的目标语音的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
语音分离方法、装置、电子设备及可读存储介质

[0001]本公开涉及语音处理
，尤其涉及一种语音分离方法、装置、电子设备及可读存储介质。

技术介绍

[0002]语音活动检测(Voice Activity Detection，VAD)技术被广泛应用于语音识别的前端，用于检测语音与非语音。在一些场景下，不仅需要检测语音与非语音，还需要分离出目标语音。
[0003]现有技术中，进行语音分离是通过“VAD系统+语音识别分离系统”实现，具体地，首先，通过VAD系统对语音进行端点检测，再利用语音识别分离系统基于端点检测结果，分离出目标语音。VAD系统的性能以及语音识别分离系统的性能均对语音分离结果的准确度影响极大，因此，采用上述语音分离系统时，VAD系统和语音识别分离系统需要分离训练，较为复杂。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种语音分离方法、装置、电子设备及可读存储介质。
[0005]第一方面，本公开提供了一种语音分离方法，包括：
...

【技术保护点】

【技术特征摘要】
1.一种语音分离方法，其特征在于，包括：获取待处理语音对应的语音特征和参考语音对应的瓶颈特征；将所述待处理语音对应的语音特征和所述参考语音对应的瓶颈特征输入至语音分离模型，获取所述语音分离模型输出的语音检测结果；根据所述语音检测结果，确定所述待处理语音中与所述参考语音相匹配的目标语音段，其中，所述目标语音段对应的语音特征与所述参考语音对应的瓶颈特征相匹配。2.根据权利要求1所述的方法，其特征在于，所述将所述待处理语音对应的语音特征和所述参考语音对应的瓶颈特征输入至语音分离模型，获取所述语音分离模型输出的语音检测结果，包括：将所述待处理语音对应的语音特征输入至所述语音分离模型包括的第一神经网络，获取所述第一神经网络输出的所述语音特征对应的向量表达；将所述语音特征对应的向量表达和所述参考语音对应的瓶颈特征进行拼接，获得融合特征；将所述融合特征输入至所述语音分离模型包括的第二神经网络，获取所述第二神经网络输出的矩阵，且基于所述矩阵获取所述语音检测结果。3.根据权利要求2所述的方法，其特征在于，所述基于所述矩阵获取所述语音检测结果，包括：根据所述矩阵包括的各音频帧对应的元素，获取各所述音频帧分别属于第一类别和第二类别的概率值；所述第一类别包括的音频帧对应的语音特征与所述参考语音对应的瓶颈特征匹配，所述第二类别包括的音频帧对应的语音特征与所述参考语音对应的瓶颈特征不匹配；根据各所述音频帧分别属于第一类别和第二类别的概率值中的最大值，确定各所述音频帧对应的语音检测结果。4.根据权利要求1所述的方法，其特征在于，所述语音分离模型是基于样本语音对应的语音特征、所述样本语音对应的瓶颈特征以及标注的所述样本语音的语音检测结果进行训练获得的，所述样本语音包...

【专利技术属性】
技术研发人员：汪鑫，
申请(专利权)人：北京字跳网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人