提供了用于实现源分离技术的方法和系统,并且更具体地,对通过从捕获的图像数据输入唇动信息而增强的混合源单声道和多声道音频信号执行源分离,包括从关注时段内捕获的多个面部图像的中选择目标说话者面部图像;基于目标说话者面部图像的面部特征计算运动矢量;至少基于运动矢量,将与成分源相对应的音频与在关注时段内捕获的混合源音频信号相分离。可以从单声道或多声道音频捕获设备捕获混合的源音频信号。可以通过包括多个学习子模型的融合学习模型来执行音频与音频信号的分离。可以通过盲源分离(“BSS”)学习模型来执行音频与音频信号的分离。号的分离。号的分离。
【技术实现步骤摘要】
唇动增强的单声道和多声道声源分离
本专利技术涉及语音及图形处理
特别的,涉及一种唇动增强的单声道和多声道生源分离技术。
技术介绍
[0001]在数据处理中,源分离是一个广泛且开放的问题,其中信号从多个源被接收、观察或以其他方式输入;特别地,盲源分离(“BSS”)描述了事先不知道不同信号源的数量和性质的源分离场景。期望在没有关于信号源的信息的情况下将信号彼此分离。
[0002]取决于信号从哪里导出的设置,可以获取用于帮助确定信号源的信号源上下文。例如,在自动的公共自助服务亭机器上,特别是在公共交通摄入量高的位置,例如中转站、剧院、旅游景点、过境点等等,可以至少在忙时建立多个队列,以增加吞吐量并减少事务处理的等待时间,例如票证、文档验证等。为了进一步提高吞吐量并减少等待时间,可以在自助服务亭机器上部署语音识别技术,以使自助交易无需人工收银员参与,也无需用户手动操作物理接口即可执行,从而可提高自助交易的效率。
[0003]然而,在这些高公共交通设置中,由于需要管理公共空间,交易通常彼此紧邻地进行。因此,根据特定情况,在公共交通频繁的地点的自动自助服务亭会产声源分离问题;这些特定上下文所带来的挑战应以上下文相关的方式解决。
技术实现思路
本申请提供的一种方法,包括:基于在关注时段内捕获的目标说话者面部图像的面部特征来计算运动矢量;和,至少所述基于运动矢量,将与成分源相对应的音频与在关注时段内捕获的混合源单声道音频信号相分离;其中通过从包括多个学习子模型的融合学习模型执行音频与音频信号的分离。本申请还提供一种系统,包括:一个或多个处理器;和,通信地连接到所述一个或多个处理器的存储器,所述存储器存储可由所述一个或多个处理器执行的计算机可执行模块,所述计算机可执行模块在由所述一个或多个处理器执行时执行相关的操作,所述计算机可执行模块包括:面部特征提取模块,所述面部特征提取模块被配置为基于在关注时段内捕获的目标说话者面部图像的面部特征来计算运动矢量;和,源分离模块,所述源分离模块被配置为至少基于所述运动矢量,将与成分源相对应的音频与在所述关注时段内捕获的混合源单声道音频信号相分离;其中,所述源分离模块被配置为通过包括多个学习子模型的融合学习模型将音频与音频信号分离。此外,本申请还提供一种计算机可读存储介质,其存储可由一个或多个处理器执行的计算机可读指令,所述计算机可读指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下操作:基于在关注时段捕获的目标说话者面部图像的面部特征来计算运动矢量;和,至少基于所述运动矢量,将与成分源相对应的音频与在关注时段内捕获的混合源单声道音频信号相分离;其中通过从包括多个学习子模型的融合学习模型执行音频
与音频信号的分离。
附图说明
[0004]以下参照附图阐述详细描述。在所述附图中,附图标记的最左边的数字标识该附图标记首次出现的附图。在不同附图中使用相同的附图标记表示相似或相同的项目或特征。
[0005]图1示出了根据本公开的示例实施例的由图像捕获设备捕获的示例静态图像、视频帧和/或面部图像的示意图。
[0006]图2A示出了根据本公开的示例实施例的被配置为计算源分离系统的系统架构。图2B示出了根据图2A的示例的专用处理器。
[0007]图3A、图3B和图3C示出了根据本公开的示例实施例的用于将音频信号和目标说话者面部图像输入到学习模型中以进行单声道源分离或多声道源分离计算的预处理过程的流程图。
[0008]图4A和图4B示出了从与例如眼睛特征、鼻子特征和嘴部特征相对应的面部图像的图像数据中提取的样本像素的示例。
[0009]图5示出了根据本公开的示例实施例的融合学习模型的细节。
[0010]图6示出了根据本公开的示例实施例的托管学习模型的云计算系统的架构图。
[0011]图7示出了用于实现上述用于实现学习模型的源分离技术的过程和方法的示例终端设备系统。
[0012]图8A和8B示出了用于实现上述用于实现学习模型的源分离技术的过程和方法的示例计算系统。
具体实施方式
[0013]本文讨论的系统和方法旨在实现源分离技术,并且更具体地,涉及对通过输入唇动信息而增强的混合源单声道和多声道音频信号执行源分离,所述唇动信息来自被捕获的图像数据。
[0014]根据本公开的示例实施例的学习模型可以是可由计算系统的一个或多个处理器执行以执行任务的定义的计算算法,该任务包括处理具有各种参数的输入并输出结果。学习模型可以是例如分层模型,例如深层神经网络,其可以具有完全连接的结构,可以具有前馈结构,例如卷积神经网络(“CNN”);可以具有反向传播结构,例如递归神经网络(“RNN”);可以进一步构造成具有沿相反方向输出的层,例如双向递归神经网络(“BRNN”);可以进一步被构造为在层内具有反馈回路,例如长短期记忆(“LSTM”)神经网络;可以进一步结合这些结构,例如双向长期短期记忆(“BLSTM”)神经网络;并且可能具有或可能具有适合特定任务计算的其他架构。任务可以包括例如分类、聚类、匹配、回归等。
[0015]任务可以提供用于执行功能的输出,例如识别图像和/或视频中的实体;实时跟踪视频帧中实体的运动;将图像和/或视频中的已识别实体与其他图像和/或视频进行匹配;实时提供图像、视频和/或音频的注释或转录;等等。学习模型可以配置计算系统以对例如如上所述的任何一种或几种类型的输入执行针对任务的计算,其中通常在计算系统对提取的特征执行计算之前压缩所述输入并从中提取特征。
[0016]可以训练学习模型以配置计算系统,以将图像作为输入来计算任务,这样的任务为包括图像分类或计算机视觉的功能提供输出。关于图像输入,从图像输入中提取的特征(在此称为“图像特征”)可以包括例如本领域技术人员已知的边缘特征、角点特征和blob特征。
[0017]可以训练学习模型以配置计算系统,以将面部图像作为输入来计算任务,这样的任务为包括面部识别或面部匹配的功能提供输出。关于面部图像输入,从面部图像输入中提取的特征(在此称为“面部特征”)可以包括例如眼睛特征、鼻子特征和嘴部特征。
[0018]关于面部特征,为了理解本公开的示例实施例,应当注意诸如“眼睛特征”、“鼻子特征”和“嘴部特征”之类的概念通常是对一种直觉的高级描述,该直觉是在输入的面部图像中的某处提取的与眼睛、鼻子、嘴巴和人脸的其他此类熟悉部分相对应的图像特征(例如上述图像特征的类型)。但是,本领域技术人员通常不理解诸如“眼部特征”、“鼻子特征”或“嘴部特征”之类的标签,因为它们暗示或限于任何特定的规则、原理、原则、准则、标准、或者其他用于识别面部图像中与眼睛、鼻子、嘴等相对应的特征的技术或解决方案。取而代之,根据输入面部图像的性质和被捕获的输入的面部图像的上下文,本领域技术人员可以认为用于将图像特征对应于眼睛、鼻子、嘴等的任何技术都是有效的。
[0019]可以训练学习模型以配置计算系统,以计算以视频为输入的任务,例如为诸如视频跟踪或视频注释本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种方法,包括:基于在关注时段内捕获的目标说话者面部图像的面部特征来计算运动矢量;和至少所述基于运动矢量,将与成分源相对应的音频与在关注时段内捕获的混合源单声道音频信号相分离;其中通过从包括多个学习子模型的融合学习模型执行音频与音频信号的分离。2.根据权利要求1所述的方法,其中计算所述运动矢量包括基于所述面部特征至少计算LLD矢量和光流矢量。3.根据权利要求1所述的方法,其中,在关注时段的每个时刻,基于在相应时刻目标说话者面部图像的宽度和高度,进一步归一化所述运动矢量。4.根据权利要求1所述的方法,其中所述融合学习模型包括至少一个具有接收音频特征作为输入的输入层的学习子模型,以及至少一个具有接收图像特征作为输入的输入层的学习子模型。5.根据权利要求4所述的方法,其进一步包括将由所述融合学习模型的至少一个学习子模型输出的音频特征与由所述融合学习模型的至少一个学习子模型输出的图像特征融合。6.根据权利要求5所述的方法,其中,所述融合学习模型还包括具有输入层的至少一个学习子模型,所述输入层接收包括融合音频特征和图像特征的矢量作为输入。7.根据权利要求6所述的方法,其中所述融合学习模型通过基于所述融合的音频特征和视频特征执行源分离来输出目标掩模和噪声掩模。8.一种系统,包括:一个或多个处理器;和通信地连接到所述一个或多个处理器的存储器,所述存储器存储可由所述一个或多个处理器执行的计算机可执行模块,所述计算机可执行模块在由所述一个或多个处理器执行时执行相关的操作,所述计算机可执行模块包括:面部特征提取模块,所述面部特征提取模块被配置为基于在关注时段内捕获的目标说话者面部图像的面部特征来计算运动矢量;和源分离模块,所述源分离模块被配置为至少基于所述运动矢量,将与成分源相对应的音频与在所述关注时段内捕获的混合源单声道音频信号相分离;其中,所述源分离模块被配置为通过包括多个学习子模型的融合学习模型将音频与音频信号分离。9.根据权利要求8所述的系统,其中所述面部特征提取模块被配置为基于所述面部特征通过至少计算LLD矢量和光流矢量来计算所述运动矢量。10.根据权利要求8所述的系统,其中,所述面部特征提取模块还被配置为:在关注时段的每个时刻,基于相应时刻所述目标说话者面部图像的宽度和高度,对所述运动矢量进行归一化...
【专利技术属性】
技术研发人员:李韵,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。