对象显示方法、装置、系统、设备、介质和产品制造方法及图纸

技术编号:35815490 阅读:15 留言:0更新日期:2022-12-03 13:39
本申请涉及一种对象显示方法、装置、系统、设备、介质和产品,通过对预设区域进行人脸识别检测和语音跟踪检测;在检测到人脸对象和语音信号的情况下,获取人脸对象和声源在视频图像中所处的位置,根据人脸对象与声源的相交位置,在视频图像中确定目标区域;在检测到人脸对象但未检测到语音信号的情况下,获取人脸对象在视频图像中所处的位置,根据人脸对象的位置,在视频图像中确定目标区域;根据目标区域凸显相应的人脸对象,解决了无法在视频图像中基于不同的会议场景自适应显示对象的问题,实现了在视频图像中基于不同的会议场景自适应显示对象的有益效果。显示对象的有益效果。显示对象的有益效果。

【技术实现步骤摘要】
对象显示方法、装置、系统、设备、介质和产品


[0001]本申请涉及视频图像处理
,特别是涉及一种对象显示方法、装置、系统、设备、介质和产品。

技术介绍

[0002]视频直播和视频会议为远程办公提供了高效便捷的解决方案,大大提高了办公效率。相关技术提供了一种自动框选人的方法,对摄像头图像进行人脸检测,输出人脸检测结果,根据人脸检测结果计算框选区域,根据框选区域处理摄像头图像,使得参会人员集中显示于摄像头图像。但是,有时候会议场景需要关注的是发言者,而不是所有参会人员,而发言者身份不是固定的,发言者还可能在视频会议过程中处于移动状态。
[0003]针对相关技术中存在无法基于不同的会议场景自适应显示对象的问题,目前还没有提出有效的解决方案。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够在视频图像中基于不同的会议场景自适应显示对象的对象显示方法、装置、系统、设备、介质和产品。
[0005]第一个方面,本申请提供了一种对象显示方法,包括:
[0006]对预设区域进行人脸识别检测和语音跟踪检测;
[0007]在检测到人脸对象和语音信号的情况下,获取所述人脸对象和声源在视频图像中所处的位置,根据所述人脸对象与所述声源的相交位置,在所述视频图像中确定目标区域;
[0008]在检测到所述人脸对象但未检测到所述语音信号的情况下,获取所述人脸对象在所述视频图像中所处的位置,根据所述人脸对象的位置,在所述视频图像中确定所述目标区域;
[0009]根据所述目标区域凸显相应的人脸对象。
[0010]在其中一个实施例中,所述人脸对象的识别结果包括人脸检测框,获取所述人脸对象在视频图像中所处的位置包括:
[0011]将所述人脸检测框的顶点坐标和尺寸基于预设图像分辨率进行调整,其中,所述预设图像分辨率的宽高比例为1:1。
[0012]在其中一个实施例中,在检测到人脸对象和语音信号的情况下,获取所述人脸对象和声源在视频图像中所处的位置,根据所述人脸对象与所述声源的相交位置,在所述视频图像中确定目标区域之后,所述方法还包括:
[0013]在摄像机的镜头处于初始回正状态下,确定所述目标区域与所述摄像机的拍摄视野范围的相对位置关系;
[0014]在所述目标区域不完全包含于所述摄像机的拍摄视野范围的情况下,将所述摄像机的镜头沿着水平方向转动,直至所述目标区域完全包含于所述摄像机的拍摄视野范围内。
[0015]在其中一个实施例中,在所述视频图像中确定目标区域之后,所述方法还包括:
[0016]将当前目标区域和在上一阶段确定的历史目标区域进行比较,判断所述当前目标区域与所述历史目标区域之间的偏差是否大于预设阈值;
[0017]在判断到所述当前目标区域与所述历史目标区域之间的偏差大于预设阈值的情况下,对所述当前目标区域的图像进行数字图像处理,其中,所述数字图像处理包括裁剪和缩放。
[0018]在其中一个实施例中,对所述当前目标区域的图像进行数字图像处理包括:
[0019]在所述当前目标区域的缩放倍数小于所述历史目标区域的放大倍数的情况下,将所述当前目标区域的图像进行先缩小后平移;或者,
[0020]在所述当前目标区域的缩放倍数大于所述历史目标区域的放大倍数的情况下,将所述当前目标区域的图像进行先平移后放大。
[0021]在其中一个实施例中,所述方法还包括:
[0022]响应于第一指令,启动第一预设模式,其中,所述第一预设模式被配置为在检测到所述语音信号的情况下,获取所述人脸对象和所述声源在所述视频图像中所处的位置,根据所述人脸对象与所述声源的相交位置,在所述视频图像中确定所述目标区域;和/或,
[0023]响应于第二指令,启动第二预设模式,其中,所述第二预设模式被配置为获取所述人脸对象在所述视频图像中所处的位置,根据所述人脸对象的位置,在所述视频图像中确定所述目标区域。
[0024]在其中一个实施例中,在所述第一预设模式和所述第二预设模式均被启动的情况下,所述方法还包括:
[0025]在预设时长内或者经预设检测次数未检测到所述语音信号的情况下,将所述视频图像的展示模式从所述第一预设模式切换至所述第二预设模式。
[0026]在其中一个实施例中,根据所述目标区域凸显相应的人脸对象包括:
[0027]所述目标区域包括几何选框,采用所述几何选框框选相应的人脸对象;或者,所述目标区域包括几何图形,采用所述几何图形标记相应的人脸对象;或者,将所述目标区域在所述视频图像中进行居中设置,并在所述目标区域中显示相应的人脸对象。
[0028]第二个方面,本申请提供了一种数据处理装置,包括:人脸识别模块、语音跟踪模块和主控模块,所述人脸识别模块、所述语音跟踪模块分别与所述主控模块连接;
[0029]所述人脸识别模块被配置为对预设区域进行人脸识别检测,所述语音跟踪模块被配置为对所述预设区域进行语音跟踪检测;
[0030]所述主控模块被配置为在检测到人脸对象和语音信号的情况下,获取所述人脸对象和声源在视频图像中所处的位置,根据所述人脸对象与所述声源的相交位置,在所述视频图像中确定目标区域;在检测到人脸对象但未检测到语音信号的情况下,获取所述人脸对象在所述视频图像中所处的位置,根据所述人脸对象的位置,在所述视频图像中确定所述目标区域;根据所述目标区域凸显相应的人脸对象包括。
[0031]第三个方面,本申请提供了一种确定人脸对象的系统,包括:摄像机、麦克风、播放设备和上述第二个方面所述的数据处理装置,所述摄像机、所述麦克风、所述播放设备分别与所述数据处理装置连接;所述摄像机用于拍摄预设区域的视频;所述麦克风用于采集所述预设区域的语音信号;所述播放设备用于输出经所述数据处理装置处理得到的视频图像
和语音信号。
[0032]第四个方面,本申请提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的对象显示方法的步骤。
[0033]第五个方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一个方面所述的对象显示方法的步骤。
[0034]第六个方面,本申请提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述第一个方面所述的对象显示方法的步骤。
[0035]上述对象显示方法、装置、系统、设备、介质和产品,通过对预设区域进行人脸识别检测和语音跟踪检测;在检测到人脸对象和语音信号的情况下,获取人脸对象和声源在视频图像中所处的位置,根据人脸对象与声源的相交位置,在视频图像中确定目标区域;在检测到人脸对象但未检测到语音信号的情况下,获取人脸对象在视频图像中所处的位置,根据人脸对象的位置,在视频图像中确定目标区域;根据目标区域凸显相应的人脸对象,解决了无法在视频图像中基于不同的会议场景自适应显示对象的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对象显示方法,其特征在于,包括:对预设区域进行人脸识别检测和语音跟踪检测;在检测到人脸对象和语音信号的情况下,获取所述人脸对象和声源在视频图像中所处的位置,根据所述人脸对象与所述声源的相交位置,在所述视频图像中确定目标区域;在检测到所述人脸对象但未检测到所述语音信号的情况下,获取所述人脸对象在所述视频图像中所处的位置,根据所述人脸对象的位置,在所述视频图像中确定所述目标区域;根据所述目标区域凸显相应的人脸对象。2.根据权利要求1所述的对象显示方法,其特征在于,所述人脸对象的识别结果包括人脸检测框,获取所述人脸对象在视频图像中所处的位置包括:将所述人脸检测框的顶点坐标和尺寸基于预设图像分辨率进行调整,其中,所述预设图像分辨率的宽高比例为1:1。3.根据权利要求1所述的对象显示方法,其特征在于,在检测到人脸对象和语音信号的情况下,获取所述人脸对象和声源在视频图像中所处的位置,根据所述人脸对象与所述声源的相交位置,在所述视频图像中确定目标区域之后,所述方法还包括:在摄像机的镜头处于初始回正状态下,确定所述目标区域与所述摄像机的拍摄视野范围的相对位置关系;在所述目标区域不完全包含于所述摄像机的拍摄视野范围的情况下,将所述摄像机的镜头沿着水平方向转动,直至所述目标区域完全包含于所述摄像机的拍摄视野范围内。4.根据权利要求1所述的对象显示方法,其特征在于,在所述视频图像中确定目标区域之后,所述方法还包括:将当前目标区域和在上一阶段确定的历史目标区域进行比较,判断所述当前目标区域与所述历史目标区域之间的偏差是否大于预设阈值;在判断到所述当前目标区域与所述历史目标区域之间的偏差大于预设阈值的情况下,对所述当前目标区域的图像进行数字图像处理,其中,所述数字图像处理包括裁剪和缩放。5.根据权利要求4所述的对象显示方法,其特征在于,对所述当前目标区域的图像进行数字图像处理包括:在所述当前目标区域的缩放倍数小于所述历史目标区域的放大倍数的情况下,将所述当前目标区域的图像进行先缩小后平移;或者,在所述当前目标区域的缩放倍数大于所述历史目标区域的放大倍数的情况下,将所述当前目标区域的图像进行先平移后放大。6.根据权利要求1所述的对象显示方法,其特征在于,所述方法还包括:响应于第一指令,启动第一预设模式,其中,所述第一预设模式被配置为在检测到所述语音信号的情况下,获取所述人脸对象和所述声源在所述视频图像中所处的位置,根据所述人脸对象与所述声源的相交位置,在所述视频图像中确定所述目标区域;和/...

【专利技术属性】
技术研发人员:高学江谢伟朱飞月
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1