图像处理方法、装置和系统制造方法及图纸

技术编号:20623338 阅读:29 留言:0更新日期:2019-03-20 14:46
本申请实施例提供一种图像处理方法、装置和系统,该方法包括:图像处理装置获取多帧待检测图像;每帧待检测图像包括参加视频会议的同一会场内的至少一个待检测对象;图像处理装置根据多帧待检测图像,从至少一个待检测对象中确定待特写对象;图像处理装置根据待特写对象在每帧待检测图像中的嘴部开合度,确定待特写对象处于发言状态;图像处理装置输出待特写对象的特写图像。本申请实施例提供的图像处理方法、装置和系统,图像处理装置可以通过对待特写对象进行唇动检测的方式,准确的识别待特写对象是否正在发言,使定位发言人的方式不受视频会议会场的环境的影响,提高了定位发言人的精度。

Image Processing Method, Device and System

The embodiment of this application provides an image processing method, apparatus and system, which includes: an image processing device obtains multiple frames of images to be detected; each frame of images to be detected includes at least one object to be detected in the same venue participating in a video conference; an image processing device determines a close-up object from at least one object to be detected according to multiple frames of images to be detected; and an image processing device determines a close-up object from at least one object to be detected; According to the mouth opening and closing degree of the object to be close-up in each frame of the image to be detected, the device determines that the object to be close-up is in the state of speaking, and the image processing device outputs the close-up image of the object to be close-up. The image processing method, device and system provided by the embodiment of this application can accurately identify whether the close-up object is speaking or not by lip movement detection to the close-up object, so that the way of locating the spokesperson is not affected by the environment of the video conference venue, thus improving the accuracy of locating the spokesperson.

【技术实现步骤摘要】
图像处理方法、装置和系统
本申请实施例涉及图像处理技术,尤其涉及一种图像处理方法、装置和系统。
技术介绍
视频会议是指位于两个或多个地点的人们,通过通信设备和网络进行面对面交谈的会议。现有技术中,通常会采用跟踪摄像机,使用声源定位的方式定位视频会议中正在发言的人,并输出该发言人的特写镜头。这样,参会者可以通过特写镜头观看发言人的面部表情和动作细节,使得参会者能够获得良好的体验,保障了视频会议的效果。具体地,跟踪摄像机通常设置有一个水平阵列麦克风(Microphone,MIC)和一个垂直阵列MIC。其中,水平阵列MIC用于定位发言人嘴部的水平角度,垂直阵列MIC用于定位发言人嘴部的垂直角度。因此,基于水平阵列MIC和垂直阵列MIC的定位结果,可以确定发言人的位置,进而可以调整摄像机输出发言人的特写镜头。然而,上述跟踪摄像机在采用声源定位的方式定位发言人时,易受视频会议会场的环境的影响,导致跟踪摄像机定位发言人的精度较低,无法满足实际使用时的需求。
技术实现思路
本申请实施例提供一种图像处理方法、装置和系统,用于解决现有技术中跟踪摄像机定位发言人的精度较低的技术问题。第一方面,本申请实施例提供一种图像处理方法,该方法包括:图像处理装置获取多帧待检测图像;每帧所述待检测图像包括参加视频会议的同一会场内的至少一个待检测对象;所述图像处理装置根据所述多帧待检测图像,从所述至少一个待检测对象中确定待特写对象;所述图像处理装置根据所述待特写对象在每帧所述待检测图像中的嘴部开合度,确定所述待特写对象处于发言状态;所述图像处理装置输出所述待特写对象的特写图像。通过第一方面提供的图像处理方法,图像处理装置通过对从待检测图像中确定的待特写对象进行唇动检测的方式,可以准确的识别待特写对象是否正在发言,使定位发言人的方式不再受视频会议会场的环境的影响,提高了定位发言人的精度。在一种可能的实施方式中,所述图像处理装置根据所述待特写对象在每帧所述待检测图像中的嘴部开合度,确定所述待特写对象处于发言状态之前,包括:所述图像处理装置根据所述待特写对象的嘴部特征点在每帧所述待检测图像中的位置,确定所述待特写对象在每帧所述待检测图像中的嘴部开合度;其中,所述嘴部特征点包括:位于左嘴角的特征点、位于右嘴角的特征点、位于上嘴唇的特征点和位于下嘴唇的特征点。通过该可能的实施方式提供的图像处理方法,图像处理装置可以基于待特写对象的嘴部特征点在每帧所述待检测图像中的位置,确定待特写对象在每帧所述待检测图像中的嘴部开合度,进而可以基于待特写对象在每帧所述待检测图像中的嘴部开合度,准确的识别待特写对象是否正在发言,使定位发言人的方式不再受视频会议会场的环境的影响,提高了定位发言人的精度。在一种可能的实施方式中,所述图像处理装置根据所述待特写对象的嘴部特征点在每帧所述待检测图像中的位置,确定所述待特写对象在每帧所述待检测图像中的嘴部开合度,包括:所述图像处理装置根据所述待特写对象位于左嘴角的特征点在每帧所述待检测图像中的位置,以及位于右嘴角的特征点在每帧所述待检测图像中的位置,确定所述待特写对象在每帧所述待检测图像中的嘴部长度;根据所述待特写对象位于上嘴唇的特征点在每帧所述待检测图像中的位置,以及位于下嘴唇的特征点在每帧所述待检测图像中的位置,确定所述待特写对象在每帧所述待检测图像中的嘴部宽度;所述图像处理装置将所述待特写对象在每帧所述待检测图像中的嘴部长度和嘴部宽度的比值作为所述待特写对象在每帧所述待检测图像中的嘴部开合度。通过该可能的实施方式提供的图像处理方法,图像处理装置可以基于待特写对象在每帧待检测图像中的嘴部长度和嘴部宽度,确定待特写对象在每帧所述待检测图像中的嘴部开合度,进而可以基于待特写对象在每帧所述待检测图像中的嘴部开合度,准确的识别待特写对象是否正在发言,使定位发言人的方式不再受视频会议会场的环境的影响,提高了定位发言人的精度。在一种可能的实施方式中,所述图像处理装置根据所述待特写对象在每帧所述待检测图像中的嘴部开合度,确定所述待特写对象处于发言状态,包括:所述图像处理装置根据所述待特写对象在每帧所述待检测图像中的嘴部开合度,确定所述待特写对象的嘴部开合度的均值和嘴部开合度的方差;所述图像处理装置在所述待特写对象的嘴部开合度的均值小于或等于预设均值阈值,且所述待特写对象的嘴部开合度的方差大于或等于预设方差阈值时,确定所述待特写对象处于发言状态。通过该可能的实施方式提供的图像处理方法,图像处理装置可以基于待特写对象在每帧待检测图像中的嘴部开合度的均值和方差,准确的识别待特写对象是否正在发言,使定位发言人的方式不再受视频会议会场的环境的影响,提高了定位发言人的精度。在一种可能的实施方式中,所述方法还包括:所述图像处理装置获取所述待特写对象在每帧所述待检测图像中的嘴部图像的亮度直方图;所述图像处理装置在所述待特写对象的嘴部开合度的均值小于或等于预设均值阈值,且所述待特写对象的嘴部开合度的方差大于或等于预设方差阈值时,确定所述待特写对象处于发言状态,包括:所述图像处理装置在所述待特写对象的嘴部开合度的均值小于或等于预设均值阈值,所述待特写对象的嘴部开合度的方差大于或等于预设方差阈值,以及,所述亮度直方图的像素占比大于或等于预设像素占比阈值时,确定所述待特写对象处于发言状态,所述像素占比为所述亮度直方图中亮度小于预设亮度阈值的像素数量占所述亮度直方图的总像素数量的比值。通过该可能的实施方式提供的图像处理方法,上述图像处理装置可以综合待特写对象的嘴部开合度,以及,嘴部图像的亮度直方图,来准确的判断待特写对象是否处于发言状态,进一步提高判断待特写对象是否处于发言状态的准确性。在一种可能的实施方式中,所述图像处理装置根据所述待特写对象在每帧所述待检测图像中的嘴部开合度,确定所述待特写对象处于发言状态之前,还包括:所述图像处理装置获取所述视频会议的声源定位对象;所述图像处理装置在所述待特写对象的嘴部开合度的均值小于或等于预设均值阈值,且所述待特写对象的嘴部开合度的方差大于或等于预设方差阈值时,确定所述待特写对象处于发言状态,包括:所述图像处理装置在所述待特写对象的嘴部开合度的均值小于或等于预设均值阈值,所述待特写对象的嘴部开合度的方差大于或等于预设方差阈值,以及,所述声源定位对象为所述待特写对象时,确定所述待特写对象处于发言状态。通过该可能的实施方式提供的图像处理方法,图像处理装置可以综合唇动检测的结果,以及,声源定位的结果,来准确的判断待特写对象是否处于发言状态,进一步提高判断待特写对象是否处于发言状态的准确性。在一种可能的实施方式中,所述图像处理装置根据所述多帧待检测图像,从所述至少一个待检测对象中确定待特写对象,包括:所述图像处理装置将在每帧所述待检测图像中满足相同预设条件的待检测对象作为所述待特写对象;所述预设条件包括以下至少一项:所述待检测对象的运动速度小于或等于预设运动速度阈值,所述待检测对象的脸部面积大于或等于预设脸部面积阈值,所述待检测对象的脸部的水平转动角度小于或等于预设水平角度阈值,所述待检测对象的脸部的俯仰角度小于或等于预设俯仰角度阈值。通过该可能的实施方式提供的图像处理方法,图像处理装置通过预设条件,从至少一个待检测对象本文档来自技高网...

【技术保护点】
1.一种图像处理方法,其特征在于,包括:图像处理装置获取多帧待检测图像;每帧所述待检测图像包括参加视频会议的同一会场内的至少一个待检测对象;所述图像处理装置根据所述多帧待检测图像,从所述至少一个待检测对象中确定待特写对象;所述图像处理装置根据所述待特写对象在每帧所述待检测图像中的嘴部开合度,确定所述待特写对象处于发言状态;所述图像处理装置输出所述待特写对象的特写图像。

【技术特征摘要】
1.一种图像处理方法,其特征在于,包括:图像处理装置获取多帧待检测图像;每帧所述待检测图像包括参加视频会议的同一会场内的至少一个待检测对象;所述图像处理装置根据所述多帧待检测图像,从所述至少一个待检测对象中确定待特写对象;所述图像处理装置根据所述待特写对象在每帧所述待检测图像中的嘴部开合度,确定所述待特写对象处于发言状态;所述图像处理装置输出所述待特写对象的特写图像。2.根据权利要求1所述的方法,其特征在于,所述图像处理装置根据所述待特写对象在每帧所述待检测图像中的嘴部开合度,确定所述待特写对象处于发言状态之前,包括:所述图像处理装置根据所述待特写对象的嘴部特征点在每帧所述待检测图像中的位置,确定所述待特写对象在每帧所述待检测图像中的嘴部开合度;其中,所述嘴部特征点包括:位于左嘴角的特征点、位于右嘴角的特征点、位于上嘴唇的特征点和位于下嘴唇的特征点。3.根据权利要求2所述的方法,其特征在于,所述图像处理装置根据所述待特写对象的嘴部特征点在每帧所述待检测图像中的位置,确定所述待特写对象在每帧所述待检测图像中的嘴部开合度,包括:所述图像处理装置根据所述待特写对象位于左嘴角的特征点在每帧所述待检测图像中的位置,以及位于右嘴角的特征点在每帧所述待检测图像中的位置,确定所述待特写对象在每帧所述待检测图像中的嘴部长度;根据所述待特写对象位于上嘴唇的特征点在每帧所述待检测图像中的位置,以及位于下嘴唇的特征点在每帧所述待检测图像中的位置,确定所述待特写对象在每帧所述待检测图像中的嘴部宽度;所述图像处理装置将所述待特写对象在每帧所述待检测图像中的嘴部长度和嘴部宽度的比值作为所述待特写对象在每帧所述待检测图像中的嘴部开合度。4.根据权利要求1-3任一项所述的方法,其特征在于,所述图像处理装置根据所述待特写对象在每帧所述待检测图像中的嘴部开合度,确定所述待特写对象处于发言状态,包括:所述图像处理装置根据所述待特写对象在每帧所述待检测图像中的嘴部开合度,确定所述待特写对象的嘴部开合度的均值和嘴部开合度的方差;所述图像处理装置在所述待特写对象的嘴部开合度的均值小于或等于预设均值阈值,且所述待特写对象的嘴部开合度的方差大于或等于预设方差阈值时,确定所述待特写对象处于发言状态。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:所述图像处理装置获取所述待特写对象在每帧所述待检测图像中的嘴部图像的亮度直方图;所述图像处理装置在所述待特写对象的嘴部开合度的均值小于或等于预设均值阈值,且所述待特写对象的嘴部开合度的方差大于或等于预设方差阈值时,确定所述待特写对象处于发言状态,包括:所述图像处理装置在所述待特写对象的嘴部开合度的均值小于或等于预设均值阈值,所述待特写对象的嘴部开合度的方差大于或等于预设方差阈值,以及,所述亮度直方图的像素占比大于或等于预设像素占比阈值时,确定所述待特写对象处于发言状态,所述像素占比为所述亮度直方图中亮度小于预设亮度阈值的像素数量占所述亮度直方图的总像素数量的比值。6.根据权利要求4所述的方法,其特征在于,所述图像处理装置根据所述待特写对象在每帧所述待检测图像中的嘴部开合度,确定所述待特写对象处于发言状态之前,还包括:所述图像处理装置获取所述视频会议的声源定位对象;所述图像处理装置在所述待特写对象的嘴部开合度的均值小于或等于预设均值阈值,且所述待特写对象的嘴部开合度的方差大于或等于预设方差阈值时,确定所述待特写对象处于发言状态,包括:所述图像处理装置在所述待特写对象的嘴部开合度的均值小于或等于预设均值阈值,所述待特写对象的嘴部开合度的方差大于或等于预设方差阈值,以及,所述声源定位对象为所述待特写对象时,确定所述待特写对象处于发言状态。7.根据权利要求1-6任一项所述的方法,其特征在于,所述图像处理装置根据所述多帧待检测图像,从所述至少一个待检测对象中确定待特写对象,包括:所述图像处理装置将在每帧所述待检测图像中满足相同预设条件的待检测对象作为所述待特写对象;所述预设条件包括以下至少一项:所述待检测对象的运动速度小于或等于预设运动速度阈值,所述待检测对象的脸部面积大于或等于预设脸部面积阈值,所述待检测对象的脸部的水平转动角度小于或等于预设水平角度阈值,所述待检测对象的脸部的俯仰角度小于或等于预设俯仰角度阈值。8.根据权利要求1-7任一项所述的方法,其特征在于,所述图像处理装置获取多帧待检测图像,包括:所述图像处理装置获取所述视频会议的同一会场的多帧全景图像;所述图像处理装置对所述多帧全景图像进行图像预处理,得到所述多帧待检测图像。9.根据权利要求1-7任一项所述的方法,其特征在于,所述图像处理装置获取多帧待检测图像,包括:所述图像处理装置获取所述视频会议声源定位对象的多帧初始特写图像;所述图像处理装置对所述多帧初始特写图像进行图像预处理,得到所述多帧待检测图像。10.根据权利要求1-7任一项所述的方法,其特征在于,所述图像处理装置获取多帧待检测图像,包括:所述图像处理装置获取所述视频会议的多帧全景图像;所述图像处理装置根据所述视频会议的声源水平定位角度,确定在所述全景图像中的搜索范围;所述图像处...

【专利技术属性】
技术研发人员:刘源
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1