语音处理方法、装置、系统及存储介质制造方法及图纸

技术编号:23364261 阅读:14 留言:0更新日期:2020-02-18 17:50
本申请提供了一种语音处理方法、装置、系统及存储介质,在嘈杂的场景下,多媒体处理设备获取包含多个语音的语音信息及视频界面展示的人脸图像后,通过对该人脸图像的嘴部区域进行追踪检测,得到相应的嘴部运行信息,由于不同嘴部运动信息对应的语音往往不同,所以,本申请可以据此直接从这多个语音信息中,提取与该嘴部运动信息匹配的目标语音信息,即提取处视频界面展示的发言人的目标语音,之后,通过增强目标语音的信号强度,增大该目标语音信息与其他语音信息(即噪声)之间的信号强度的差距,突出输出的目标语音信息,提高了嘈杂场景下识别目标语音信息的效率及准确性,保证收听者能够准确地得知发言人的发言内容。

Speech processing method, device, system and storage medium

【技术实现步骤摘要】
语音处理方法、装置、系统及存储介质
本申请主要涉及数据处理
,更具体地说是涉及一种语音处理方法、装置、系统及存储介质。
技术介绍
目前,在会议、电视采访、演讲等场景下,为了方便参加的每一个成员清楚看到发言人在发言过程中的动作、表情,收听到发言人的语音信息,通常会配置至少一个视频界面,来展示发言人的人脸图像,同时播放发言人的语音信息。然而,在发言人实际发言过程中,可能会受到场景的环境声、其他成员说话声等噪声的影响,导致实际输出的语音信息包含很多噪声,导致收听者无法准确收听到发言人的发言内容。
技术实现思路
有鉴于此,本申请提供了以下技术方案:一方面,本申请提出了一种语音处理方法,所述方法包括:获取多个语音信息及视频界面展示的人脸图像;对所述人脸图像中的嘴部区域进行追踪检测,得到相应的嘴部运动信息;从所述多个语音信息中,提取与所述嘴部运动信息匹配的目标语音信息,增强所述目标语音信息的信号强度并输出。在一些实施例中,所述方法还包括:获取图像采集设备检测到的多个人脸图像;将所述多个语音信息与多个人脸图像各自嘴部运动信息进行匹配处理,得到多个嘴部运动信息与所述多个语音信息之间的对应关系;所述从所述多个语音信息中,提取与所述嘴部运动信息相匹配的目标语音信息,包括:利用所述对应关系,从所述多个语音信息中,提取与所述视频界面所展示的人脸图像的嘴部运动信息对应的目标语音信息。在一些实施例中,所述方法还包括:构建人脸图像对应的人脸模型;利用所述人脸图像的嘴部运动信息匹配的目标语音信息,构建相应的声纹模型。在一些实施例中,所述方法还包括:监测视频界面展示的人脸图像;如果所述视频界面当前未展示人脸图像,将当前获取的至少一个语音信息与第一声纹模型进行比对,得到第一声纹比对结果,所述第一声纹模型是所述目标语音信息对应的声纹模型;如果所述第一声纹比对结果满足声纹匹配条件,利用所述第一声纹模型对应的第一人脸模型,对获取的多个人脸图像进行人脸识别,将得到的发言人的人脸图像展示至所述视频界面。在一些实施例中,所述方法还包括:如果所述第一声纹比对结果不满足所述声纹匹配条件,将当前获取的至少一个语音信息与已有的第二声纹模型进行比对,得到第二声纹比对结果;如果所述第二声纹比对结果满足所述声纹匹配条件,利用与满足所述声纹匹配条件的第二声纹模型对应的第二人脸模型,对获取的多个人脸图像进行人脸识别,将得到的发言人的人脸图像展示至所述视频界面;如果所述第二声纹比对结果不满足所述声纹匹配条件,对获取的至少一个人脸图像的嘴部区域进行跟踪检测,得到相应的待定嘴部运动信息;利用所述待定嘴部运动信息及所述至少一个语音信息,获取发言人的人脸图像,将所述发言人的人脸图像展示至所述视频界面。在一些实施例中,所述利用所述第一声纹模型对应的第一人脸模型,对获取的多个人脸图像进行人脸识别,包括:调整目标图像采集设备的拍摄角度,所述目标图像采集设备是检测到所述视频界面上一时刻展示的人脸图像的图像采集设备;在调整所述拍摄角度过程中,依据所述第一声纹模型对应的第一人脸模型,对调整后的目标图像采集设备检测到的人脸图像进行人脸识别,得到发言人的人脸图像;如果所述目标图像采集设备未检测到与所述第一人脸模型对应的人脸图像,利用所述第一人脸模型,对至少一个第二图像采集设备检测到的人脸图像进行人脸识别,得到发言人的人脸图像;将检测到所述发言人的人脸图像的第二图像采集设备更新为目标图像采集设备。在一些实施例中,所述方法还包括:从当前获取的至少一个语音信息中,提取与所述视频界面展示的发言人的人脸图像的嘴部运动信息对应的语音信息;将提取到的语音信息更新为目标语音信息,执行步骤所述增强所述目标语音信息的信号强度并输出。又一方面,本申请还提供了一种语音处理装置,所述装置包括:信息获取模块,用于获取多个语音信息及视频界面展示的人脸图像;第一嘴部运动检测模块,用于对所述人脸图像中的嘴部区域进行追踪检测,得到相应的嘴部运动信息;目标语音信息增强模块,用于从所述多个语音信息中,提取与所述嘴部运动信息匹配的目标语音信息,增强所述目标语音信息的信号强度并输出。又一方面,本申请还提供了一种存储介质,其上存储有程序,所述程序被处理器调用并执行,实现如上述语音处理方法的各步骤。又一方面,本申请还提供了一种语音处理系统,所述系统包括:至少一个图像采集设备,用于采集人脸图像;至少一个声音采集设备,用于采集语音信息;多媒体处理设备,所述多媒体处理设备包括至少一个存储器和至少一个处理器,其中:所述存储器,用于存储实现如上述语音处理方法的程序;所述处理器,用于加载并执行所述存储器存储的程序,以实现如上述语音处理方法的各步骤。由此可见,与现有技术相比,本申请提供了一种语音处理方法、装置、系统及存储介质,在嘈杂的场景下,多媒体处理设备获取包含多个语音的语音信息及视频界面展示的人脸图像后,通过对该人脸图像的嘴部区域进行追踪检测,得到相应的嘴部运行信息,由于不同嘴部运动信息对应的语音往往不同,所以,本申请可以据此直接从这多个语音信息中,提取与该嘴部运动信息匹配的目标语音信息,即提取处视频界面展示的发言人的目标语音,之后,通过增强目标语音的信号强度,增大该目标语音信息与其他语音信息(即噪声)之间的信号强度的差距,突出输出的目标语音信息,提高了嘈杂场景下识别目标语音信息的效率及准确性,保证收听者能够准确地得知发言人的发言内容。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1示出了实现本申请提出的语音处理方法的语音处理系统的一可选示例的系统结构图;图2示出了本申请提出的语音处理方法的一可选示例的流程图;图3示出了本申请提出的语音处理方法的又一可选示例的流程图;图4示出了本申请提出的语音处理方法的又一可选示例的流程图;图5示出了本申请提出的语音处理装置的一可选示例的结构图;图6示出了本申请提出的语音处理装置的又一可选示例的结构图;图7示出了本申请提出的多媒体处理设备的一可选示例的硬件结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。需要说明的是,为了便于描述,附图中仅示出了与有关发本文档来自技高网...

【技术保护点】
1.一种语音处理方法,所述方法包括:/n获取多个语音信息及视频界面展示的人脸图像;/n对所述人脸图像中的嘴部区域进行追踪检测,得到相应的嘴部运动信息;/n从所述多个语音信息中,提取与所述嘴部运动信息匹配的目标语音信息,增强所述目标语音信息的信号强度并输出。/n

【技术特征摘要】
1.一种语音处理方法,所述方法包括:
获取多个语音信息及视频界面展示的人脸图像;
对所述人脸图像中的嘴部区域进行追踪检测,得到相应的嘴部运动信息;
从所述多个语音信息中,提取与所述嘴部运动信息匹配的目标语音信息,增强所述目标语音信息的信号强度并输出。


2.根据权利要求1所述的方法,所述方法还包括:
获取图像采集设备检测到的多个人脸图像;
将所述多个语音信息与多个人脸图像各自嘴部运动信息进行匹配处理,得到多个嘴部运动信息与所述多个语音信息之间的对应关系;
所述从所述多个语音信息中,提取与所述嘴部运动信息相匹配的目标语音信息,包括:
利用所述对应关系,从所述多个语音信息中,提取与所述视频界面所展示的人脸图像的嘴部运动信息对应的目标语音信息。


3.根据权利要求1或2所述的方法,所述方法还包括:
构建人脸图像对应的人脸模型;
利用所述人脸图像的嘴部运动信息匹配的目标语音信息,构建相应的声纹模型。


4.根据权利要求3所述的方法,所述方法还包括:
监测视频界面展示的人脸图像;
如果所述视频界面当前未展示人脸图像,将当前获取的至少一个语音信息与第一声纹模型进行比对,得到第一声纹比对结果,所述第一声纹模型是所述目标语音信息对应的声纹模型;
如果所述第一声纹比对结果满足声纹匹配条件,利用所述第一声纹模型对应的第一人脸模型,对获取的多个人脸图像进行人脸识别,将得到的发言人的人脸图像展示至所述视频界面。


5.根据权利要求4所述的方法,所述方法还包括:
如果所述第一声纹比对结果不满足所述声纹匹配条件,将当前获取的至少一个语音信息与已有的第二声纹模型进行比对,得到第二声纹比对结果;
如果所述第二声纹比对结果满足所述声纹匹配条件,利用与满足所述声纹匹配条件的第二声纹模型对应的第二人脸模型,对获取的多个人脸图像进行人脸识别,将得到的发言人的人脸图像展示至所述视频界面;
如果所述第二声纹比对结果不满足所述声纹匹配条件,对获取的至少一个人脸图像的嘴部区域进行跟踪检测,得到相应的待定嘴部运动信息;
利用所述待定嘴部运动信息及所述至少一个语音信息,获...

【专利技术属性】
技术研发人员:张银平杨琳汪俊杰贾宸梁玉龙
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1