【技术实现步骤摘要】
一种视频通话方法及装置
[0001]本公开涉及人机交互
,尤其涉及一种视频通话方法及装置。
技术介绍
[0002]视频通话,又称视频电话,通常是指基于互联网端,通过手机或电脑等显示设备之间实时传送人的语音和图像的一种通信方式。在进行视频通话时,由于显示屏与相机的位置存在偏差,人看向显示屏时视线会和相机光轴呈现一定夹角,因此在呈现的视频画面中人的眼神往往不是直视前方的,难以使视频通话的双方产生对视的体验感。
[0003]为了解决上述问题,可以通过存储不同角度的人物画面,并通过神经网络生成某一固定视线角度的人物画面,将该固定视线角度的人物画面与实时录制的人物画面进行合成处理,获得具有固定视线角度的人物画面,以替代视频通话时呈现的人物画面。
[0004]但是,上述用于生成某一固定视线角度的人物画面是提前录制的,录制的场景和当前进行视频通话时的场景存在差异,因此得到的具有固定视线角度的人物画面与实时录制的人物画面无法完美的合成在一起,使的视频通话时呈现的人物画面中出现异常的像素帧,不利于用户体验。
技术实现思路
[0005]为了解决上述视频通话所产生的技术问题,提出了本公开。本公开的实施例提供了一种视频通话方法及装置,用于解决视频通话的双方难以产生对视的体验感的问题。具体地,本公开实施例提供如下技术方案:
[0006]根据本公开的第一方面,提供了一种视频通话方法,包括:
[0007]获取由多个相机拍摄的多个画面,所述多个画面是所述多个相机同一时刻拍摄的目标区域的画面,所述 ...
【技术保护点】
【技术特征摘要】
1.一种视频通话方法,包括:获取由多个相机拍摄的多个画面,所述多个画面是所述多个相机同一时刻拍摄的目标区域的画面,所述多个画面至少包括第一相机拍摄的第一画面以及第二相机拍摄的第二画面;确定第一目标人物,所述第一目标人物是所述目标区域中的人物;根据所述第一画面和所述第二画面,获取第一眼部区域坐标,所述第一眼部区域坐标是所述第一目标人物的眼部区域在所述第一相机的参考坐标系中的三维坐标;确定第二目标人物图像,所述第二目标人物图像是显示屏中显示的第二目标人物的图像,所述第二目标人物是所述第一目标人物进行视频通话的对象;根据所述第二目标人物图像,获取第二眼部区域坐标,所述第二眼部区域坐标是所述第二目标人物图像中的眼部区域图像在所述第一相机的参考坐标系中的三维坐标;根据所述第一眼部区域坐标和所述第二眼部区域坐标,调整所述第二目标人物图像中的眼部区域图像的角度朝向至第一目标人物的眼部区域。2.根据权利要求1所述的方法,其中,所述确定第一目标人物,包括:根据所述第一画面和所述第二画面,获取所述目标区域中每一个人物的第一嘴部区域坐标,所述第一嘴部区域坐标是所述目标区域中的人物的嘴部区域在所述第一相机的参考坐标系中的三维坐标;根据麦克风阵列采集的目标区域中的人物的声音进行声源定位,获取第二嘴部区域坐标,所述第二嘴部区域坐标是所述麦克风阵列采集的声音的声源位置处对应的人物在所述第一相机的参考坐标系中的三维坐标;将与所述第二嘴部区域坐标直线距离最接近的一个第一嘴部区域坐标对应的人物确定为第一目标人物。3.根据权利要求2所述的方法,其中,所述根据麦克风阵列采集的声音,获取第二嘴部区域坐标,还包括:获取第一转换参数,所述第一转换参数用于将所述麦克风阵列的参考坐标系中的坐标转换为所述第一相机的参考坐标系中的坐标;根据所述麦克风阵列采集的声音在所述麦克风阵列的参考坐标系中的坐标和所述第一转换参数,获取第二嘴部区域坐标。4.根据权利要求2所述的方法,其中,还包括:根据麦克风阵列采集的声音,若无法获取第二嘴部区域坐标,则识别所述第一画面中所有人物图像的脸部轮廓,生成与识别到的所述脸部轮廓对应数量的人脸检测框;将具有最大面积的所述人脸检测框对应的所述脸部轮廓确定为目标脸部轮廓;将所述目标脸部轮廓对应的人物确定为第一目标人物。5.根据权利要求1所述的方法,其中,所述根据所述第一画面和所述第二画面,获取第一眼部区域坐标,包括:获取第二转换参数,所述第二转换参数用于将所述第一相机的参考坐标系中的坐标转换为所述第二相机的参考坐标系中的坐标;获取第三眼部区域坐标,所述第三眼部区域坐标是所述第一目标人物在所述第一画面中的眼部区域图像在所述第一画面的参考坐标系中的二维坐标;
获取第四眼部区域坐标,所述第四眼部区域坐标是所述第一目标人物在所述第二画面中的眼部区域图像在所述第二画面的参考坐标系中的二维坐标;根据所述第三...
【专利技术属性】
技术研发人员:黄赫,陶冶,冯玉玺,江筱,杨超,
申请(专利权)人:深圳地平线机器人科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。