提取目标说话者语音的系统和方法技术方案

技术编号:37038444 阅读:12 留言:0更新日期:2023-03-29 19:17
包括在计算机存储介质上编码的计算机程序的方法、系统和装置涉及一种用于目标说话者提取的方法。目标说话者提取系统接收音频信号的音频帧。多扬声器检测模型分析音频帧以确定音频帧是仅包含单个扬声器还是包含多个扬声器。当所述音频帧只包括单个扬声器,系统输入音频帧到一个目标说话者VAD模型来抑制语音在音频帧中从基于音频帧进行比较,以目标讲话者的声波纹的非目标讲话者。当所述音频帧包括多个扬声器,系统输入音频帧到一个语音分离模型到目标说话人的语音从语音混合物在音频帧分开。开。开。

【技术实现步骤摘要】
提取目标说话者语音的系统和方法


[0001]本专利技术一般涉及音频处理,更具体地,涉及用于提取目标说话者的语音的系统和方法。

技术介绍

[0002]视频会议增加了沟通,并能够与同事、朋友和家人保持联系。然而,用户在各种环境中使用视频会议,其中可能包括其他扬声器等背景噪音。嘈杂的环境可能包括嘈杂的办公室、咖啡馆或家庭工作区,同时发生一个或多个背景对话。背景噪音和其他扬声器可能会使视频会议的参与者难以听到用户的声音,并可能导致分心。语音分离是一种可用于将包括多个说话者的音频记录分离为每个单独说话者的语音的技术。然而,语音分离可能是一个缓慢且计算密集的过程,对于实时应用程序来说可能会令人望而却步。
[0003]期望通过用于以计算效率高的方式从可能包括非目标说话者的语音的音频记录中提取目标说话者的语音的系统和方法来克服传统方法的问题。

技术实现思路

[0004]一般而言,本说明书中描述的主题的一个创新方面可以体现在包括目标说话者提取操作的系统、计算机可读介质和方法中。一种系统执行由目标说话者提取系统接收音频信号的音频帧的操作,目标说话者提取系统包括多说话者检测模型、目标说话者语音活动检测(VAD)模型和语音分离模型。该系统分析,通过多扬声器检测模型,音频帧,以确定该音频帧是否仅包括单个扬声器或多个扬声器。母鸡音频帧只包括单个扬声器,该系统输入小号音频帧到目标讲话者VAD模型来抑制语音在音频帧中从基于所述音频帧相对于一个目标的声纹的非目标讲话者扬声器。母鸡音频帧包括多个扬声器,该系统输入小号音频帧到语音分离模型到目标说话人的语音从语音混合物在音频帧分开。
[0005]在该系统的另一方面,该系统将音频信号分成多个音频帧。
[0006]在该系统的另一方面,该系统基于抑制比由目标说话者VAD抑制来自非目标说话者的音频帧中的语音。
[0007]在该系统的另一个方面,该系统发电机密封非目标说话者的声波纹。该系统比较上课非目标说话者的声纹为目标说话者的声纹,以确定相似性得分。系统根据相似度分数确定抑制率。
[0008]在该系统的另一个方面,该系统接收从之前的视频会议中的目标说话人语音记录。该系统发电机密封上课目标讲话者从录音视频会议之前,声纹。该系统我们上课的目标扬声器提取系统和目标扬声器的声纹的视频会议过程中提取目标讲话者的声音。
[0009]在该系统的另一个方面,该系统分析上课所述音频信号以确定所述音频信号,其中,在视频会议期间被接收的音频信号的能量。该系统决定的基础上,能源,目标发言者说话和发电机密封上课从音频信号的目标扬声器的声纹。
[0010]在系统的另一方面,基于能量确定目标说话者正在说话包括确定能量超过阈值。
[0011]在系统的另一方面,目标说话者提取系统被配置为基于用户界面控制来启用和禁用。
[0012]在该系统的另一方面,该系统通过声纹提取模型生成目标说话者的声纹,其中声纹提取模型与语音分离模型共享一个或多个权重。
[0013]在系统的另一方面,多说话者检测模型包括卷积神经网络(CNN)分类器。
[0014]从详细描述、权利要求和附图中,本公开的更多应用领域将变得显而易见。详细描述和具体示例仅用于说明而不用于限制本公开的范围。
附图说明
[0015]从详细描述和附图中可以更好地理解本公开,其中:
[0016]图1A是示出一些实施例可以在其中操作的示例性环境的图;
[0017]图1B是图示了具有可以执行这里描述的一些功能的软件模块的示例性计算机系统的图;
[0018]图2是示出一些实施例可以在其中运行的示例性环境的图;
[0019]图3是图示根据本公开的一个实施例的示例性声纹提取器的图;
[0020]图4是图示根据本公开的一个实施例的示例性目标说话者提取系统的图;
[0021]图5A是图示根据本公开的一个实施例的示例性目标说话者VAD模型的图;
[0022]图5B为本专利技术一实施例的基于能量提取目标说话者声纹的示意图;
[0023]图5C是图示根据本公开的一个实施例确定录音和目标说话者的声纹之间的相似度得分的图;
[0024]图6是图示根据本公开的一个实施例的示例性目标说话者分离模型的图;
[0025]图7是图示根据本公开的一个实施例的目标说话者分离模型的示例性神经网络实施例的图;
[0026]图8A是图示可以在一些实施例中执行的示例性方法的流程图;
[0027]图8B是图示可以在一些实施例中执行的示例性方法的流程图;
[0028]图8C是图示可以在一些实施例中执行的示例性方法的流程图;
[0029]图8D是图示可以在一些实施例中执行的示例性方法的流程图;
[0030]图9是图示根据本公开的一个实施例的示例性基于LM的目标说话者VAD模型的图;
[0031]图10是图示根据本公开的一个实施例的示例性基于LM的目标说话者提取系统的图;
[0032]图11是图示根据本公开的一个实施例的使用基于声纹的目标说话者提取和基于LM的目标说话者提取的n示例性目标说话者提取系统的图;
[0033]图12A是图示可以在一些实施例中执行的示例性方法的流程图;
[0034]图12B是图示可以在一些实施例中执行的示例性方法的流程图;
[0035]图12C是图示可以在一些实施例中执行的示例性方法的流程图;和
[0036]图13是图示在一些实施例中可以执行处理的示例性计算机的图。
具体实施方式
[0037]在本说明书中,详细参考了本专利技术的具体实施例。在附图中示出了一些实施例或
其方面。
[0038]为了解释清楚,已经参考特定实施例描述了本专利技术,但是应当理解,本专利技术不限于所描述的实施例。相反,本专利技术涵盖可包括在由任何专利权利要求限定的其范围内的替代、修改和等同物。本专利技术的以下实施例在不丧失对所要求保护的专利技术的一般性且不对其施加限制的情况下被阐述。在以下描述中,阐述了具体细节以提供对本专利技术的透彻理解。可以在没有这些特定细节中的一些或全部的情况下实践本专利技术。此外,可能没有详细描述众所周知的特征以避免不必要地模糊本专利技术。
[0039]此外,应当理解,该示例性专利中阐述的示例性方法的步骤可以以与本说明书中呈现的顺序不同的顺序执行。此外,示例性方法的一些步骤可以并行执行而不是顺序执行。此外,示例性方法的步骤可以在网络环境中执行,其中一些步骤由联网环境中的不同计算机执行。
[0040]一些实施例由计算机系统实现。计算机系统可以包括处理器、存储器和非暂时性计算机可读介质。存储器和非暂时性介质可以存储用于执行这里描述的方法和步骤的指令。
[0041]一、示例环境
[0042]图1A是示出一些实施例可以在其中操作的示例性环境的图。在示例性环境100中,第一用户的客户端设备150和一个或多个附加用户的客户端设备160连接到处理引擎102并且可选地连接到视频通信平本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种目标说话者提取系统,包括一个或多个处理器,配置为执行以下操作:目标说话者提取系统接收音频信号的音频帧,目标说话者提取系统包括多说话者检测模型、目标说话者语音活动检测(VAD)模型和语音分离模型;通过多说话人检测模型对音频帧进行分析,判断该音频帧是仅包括单个说话人还是包括多个说话人;当音频帧仅包括单个说话者时,将音频帧输入到目标说话者VAD模型中,通过将音频帧与目标说话者的声纹进行比较来抑制音频帧中来自非目标说话者的语音;和当音频帧包括多个说话者时,将音频帧输入到语音分离模型中,以将目标说话者的声音与音频帧中的混音分离。2.根据权利要求1所述的系统,其中,所述处理器还被配置为执行以下操作:将音频信号分成多个音频帧。3.根据权利要求1所述的系统,其中,所述处理器还被配置为执行以下操作:目标说话者VAD基于抑制比抑制来自非目标说话者的音频帧中的语音。4.如权利要求3所述的系统,其中,所述处理器还被配置为执行以下操作:生成非目标说话者的声纹;将非目标说话者的声纹与目标说话者的声纹进行比较,以确定相似度得分;...

【专利技术属性】
技术研发人员:Y
申请(专利权)人:祖玛视频通讯公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1