提取目标说话者语音的系统和方法技术方案

技术编号：37038444 阅读：12 留言：0更新日期：2023-03-29 19:17

包括在计算机存储介质上编码的计算机程序的方法、系统和装置涉及一种用于目标说话者提取的方法。目标说话者提取系统接收音频信号的音频帧。多扬声器检测模型分析音频帧以确定音频帧是仅包含单个扬声器还是包含多个扬声器。当所述音频帧只包括单个扬声器，系统输入音频帧到一个目标说话者VAD模型来抑制语音在音频帧中从基于音频帧进行比较，以目标讲话者的声波纹的非目标讲话者。当所述音频帧包括多个扬声器，系统输入音频帧到一个语音分离模型到目标说话人的语音从语音混合物在音频帧分开。开。开。

全部详细技术资料下载

【技术实现步骤摘要】
提取目标说话者语音的系统和方法

[0001]本专利技术一般涉及音频处理，更具体地，涉及用于提取目标说话者的语音的系统和方法。

技术介绍

[0002]视频会议增加了沟通，并能够与同事、朋友和家人保持联系。然而，用户在各种环境中使用视频会议，其中可能包括其他扬声器等背景噪音。嘈杂的环境可能包括嘈杂的办公室、咖啡馆或家庭工作区，同时发生一个或多个背景对话。背景噪音和其他扬声器可能会使视频会议的参与者难以听到用户的声音，并可能导致分心。语音分离是一种可用于将包括多个说话者的音频记录分离为每个单独说话者的语音的技术。然而，语音分离可能是一个缓慢且计算密集的过程，对于实时应用程序来说可能会令人望而却步。
[0003]期望通过用于以计算效率高的方式从可能包括非目标说话者的语音的音频记录中提取目标说话者的语音的系统和方法来克服传统方法的问题。

技术实现思路

[0004]一般而言，本说明书中描述的主题的一个创新方面可以体现在包括目标说话者提取操作的系统、计算机可读介质和方法中。一种系统执行由目标说话者提取系统接收音频信号的音频帧的操作，目标说话者提取系统包括多说话者检测模型、目标说话者语音活动检测(VAD)模型和语音分离模型。该系统分析，通过多扬声器检测模型，音频帧，以确定该音频帧是否仅包括单个扬声器或多个扬声器。母鸡音频帧只包括单个扬声器，该系统输入小号音频帧到目标讲话者VAD模型来抑制语音在音频帧中从基于所述音频帧相对于一个目标的声纹的非目标讲话者扬声器。母鸡音频帧包括多个扬声器，该系统输入小号音频帧到语音...

【技术保护点】

【技术特征摘要】
1.一种目标说话者提取系统，包括一个或多个处理器，配置为执行以下操作：目标说话者提取系统接收音频信号的音频帧，目标说话者提取系统包括多说话者检测模型、目标说话者语音活动检测(VAD)模型和语音分离模型；通过多说话人检测模型对音频帧进行分析，判断该音频帧是仅包括单个说话人还是包括多个说话人；当音频帧仅包括单个说话者时，将音频帧输入到目标说话者VAD模型中，通过将音频帧与目标说话者的声纹进行比较来抑制音频帧中来自非目标说话者的语音；和当音频帧包括多个说话者时，将音频帧输入到语音分离模型中，以将目标说话者的声音与音频帧中的混音分离。2.根据权利要求1所述的系统，其中，所述处理器还被配置为执行以下操作：将音频信号分成多个音频帧。3.根据权利要求1所述的系统，其中，所述处理器还被配置为执行以下操作：目标说话者VAD基于抑制比抑制来自非目标说话者的音频帧中的语音。4.如权利要求3所述的系统，其中，所述处理器还被配置为执行以下操作：生成非目标说话者的声纹；将非目标说话者的声纹与目标说话者的声纹进行比较，以确定相似度得分；...

【专利技术属性】
技术研发人员：Y，
申请(专利权)人：祖玛视频通讯公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人