语音处理方法、装置、系统及存储介质制造方法及图纸

技术编号：23364261 阅读：14 留言：0更新日期：2020-02-18 17:50

本申请提供了一种语音处理方法、装置、系统及存储介质，在嘈杂的场景下，多媒体处理设备获取包含多个语音的语音信息及视频界面展示的人脸图像后，通过对该人脸图像的嘴部区域进行追踪检测，得到相应的嘴部运行信息，由于不同嘴部运动信息对应的语音往往不同，所以，本申请可以据此直接从这多个语音信息中，提取与该嘴部运动信息匹配的目标语音信息，即提取处视频界面展示的发言人的目标语音，之后，通过增强目标语音的信号强度，增大该目标语音信息与其他语音信息(即噪声)之间的信号强度的差距，突出输出的目标语音信息，提高了嘈杂场景下识别目标语音信息的效率及准确性，保证收听者能够准确地得知发言人的发言内容。

Speech processing method, device, system and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
语音处理方法、装置、系统及存储介质
本申请主要涉及数据处理
，更具体地说是涉及一种语音处理方法、装置、系统及存储介质。
技术介绍
目前，在会议、电视采访、演讲等场景下，为了方便参加的每一个成员清楚看到发言人在发言过程中的动作、表情，收听到发言人的语音信息，通常会配置至少一个视频界面，来展示发言人的人脸图像，同时播放发言人的语音信息。然而，在发言人实际发言过程中，可能会受到场景的环境声、其他成员说话声等噪声的影响，导致实际输出的语音信息包含很多噪声，导致收听者无法准确收听到发言人的发言内容。
技术实现思路
有鉴于此，本申请提供了以下技术方案：一方面，本申请提出了一种语音处理方法，所述方法包括：获取多个语音信息及视频界面展示的人脸图像；对所述人脸图像中的嘴部区域进行追踪检测，得到相应的嘴部运动信息；从所述多个语音信息中，提取与所述嘴部运动信息匹配的目标语音信息，增强所述目标语音信息的信号强度并输出。在一些实施例中，所述方法还包括：获取图像采集设备检测到的多个人脸图像；将所述多个语音信息与多个人脸图像各自嘴部运动信息进行匹配处理，得到多个嘴部运动信息与所述多个语音信息之间的对应关系；所述从所述多个语音信息中，提取与所述嘴部运动信息相匹配的目标语音信息，包括：利用所述对应关系，从所述多个语音信息中，提取与所述视频界面所展示的人脸图像的嘴部运动信息对应的目标语音信息。在一些实施例中，所述方法还包括：构建人脸...

【技术保护点】
1.一种语音处理方法，所述方法包括：/n获取多个语音信息及视频界面展示的人脸图像；/n对所述人脸图像中的嘴部区域进行追踪检测，得到相应的嘴部运动信息；/n从所述多个语音信息中，提取与所述嘴部运动信息匹配的目标语音信息，增强所述目标语音信息的信号强度并输出。/n

【技术特征摘要】
1.一种语音处理方法，所述方法包括：
获取多个语音信息及视频界面展示的人脸图像；
对所述人脸图像中的嘴部区域进行追踪检测，得到相应的嘴部运动信息；
从所述多个语音信息中，提取与所述嘴部运动信息匹配的目标语音信息，增强所述目标语音信息的信号强度并输出。

2.根据权利要求1所述的方法，所述方法还包括：
获取图像采集设备检测到的多个人脸图像；
将所述多个语音信息与多个人脸图像各自嘴部运动信息进行匹配处理，得到多个嘴部运动信息与所述多个语音信息之间的对应关系；
所述从所述多个语音信息中，提取与所述嘴部运动信息相匹配的目标语音信息，包括：
利用所述对应关系，从所述多个语音信息中，提取与所述视频界面所展示的人脸图像的嘴部运动信息对应的目标语音信息。

3.根据权利要求1或2所述的方法，所述方法还包括：
构建人脸图像对应的人脸模型；
利用所述人脸图像的嘴部运动信息匹配的目标语音信息，构建相应的声纹模型。

4.根据权利要求3所述的方法，所述方法还包括：
监测视频界面展示的人脸图像；
如果所述视频界面当前未展示人脸图像，将当前获取的至少一个语音信息与第一声纹模型进行比对，得到第一声纹比对结果，所述第一声纹模型是所述目标语音信息对应的声纹模型；
如果所述第一声纹比对结果满足声纹匹配条件，利用所述第一声纹模型对应的第一人脸模型，对获取的多个人脸图像进行人脸识别，将得到的发言人的人脸图像展示至所述视频界面。

5.根据权利要求4所述的方法，所述方法还包括：
如果所述第一声纹比对结果不满足所述声纹匹配条件，将当前获取的至少一个语音信息与已有的第二声纹模型进行比对，得到第二声纹比对结果；
如果所述第二声纹比对结果满足所述声纹匹配条件，利用与满足所述声纹匹配条件的第二声纹模型对应的第二人脸模型，对获取的多个人脸图像进行人脸识别，将得到的发言人的人脸图像展示至所述视频界面；
如果所述第二声纹比对结果不满足所述声纹匹配条件，对获取的至少一个人脸图像的嘴部区域进行跟踪检测，得到相应的待定嘴部运动信息；
利用所述待定嘴部运动信息及所述至少一个语音信息，获...

【专利技术属性】
技术研发人员：张银平，杨琳，汪俊杰，贾宸，梁玉龙，
申请(专利权)人：联想北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人