一种多模态摄像控制方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:32646290 阅读:12 留言:0更新日期:2022-03-12 18:29
本发明专利技术公开了一种多模态摄像控制方法、装置、计算机设备及存储介质。该方法包括:捕捉用户的参数调节语音指令,并基于所述参数调节语音指令,判断是否进入参数调节模式;若不进入参数调节模式,则直接捕捉用户的眼睛注视点,并基于当前眼睛注视点,确定摄像焦点区域并拍摄;若进入参数调节模式,则继续接收用户的语音执行指令,并基于所述语音执行指令对参数进行相应的调节;在参数调节完成后,利用表情识别模型识别用户面部表情,在用户面部表情符合预设的面部表情阈值后,确定摄像焦点区域并拍摄。该方法通过捕捉用户的参数调节语音指令,自动对摄像终端进行参数调整,使用户在不方便用手调整的状态下,也能够实现对人脸的拍摄。也能够实现对人脸的拍摄。也能够实现对人脸的拍摄。

【技术实现步骤摘要】
一种多模态摄像控制方法、装置、计算机设备及存储介质


[0001]本专利技术涉及人脸识别领域,尤其涉及一种多模态摄像控制方法、装置、计算机设备及存储介质。

技术介绍

[0002]人在摄像的过程中需要同时用到手和眼睛,即根据眼睛观察到的图像,评估图像和自己所想要的目标画面的差距,然后用手操控摄像机,调整相关参数以获得自己想要的画面效果。当人手被占用,执行其他操作时,就无法用手操作摄像机,如按下开关按钮,拨动调节焦距的挡杆等,也就无法拍摄画面。

技术实现思路

[0003]本专利技术的目的是提供一种多模态摄像控制方法、装置、计算机设备及存储介质,旨在解决在人手被占用的场景下,无法对摄像终端进行操作的问题。
[0004]为解决上述技术问题,本专利技术的目的是通过以下技术方案实现的:提供一种多模态摄像控制方法,其包括:
[0005]捕捉用户的参数调节语音指令,并基于所述参数调节语音指令,判断是否进入参数调节模式;
[0006]若不进入参数调节模式,则直接捕捉用户的眼睛注视点,并基于当前眼睛注视点,确定摄像焦点区域并拍摄;
[0007]若进入参数调节模式,则继续接收用户的语音执行指令,并基于所述语音执行指令对参数进行相应的调节;
[0008]在参数调节完成后,利用表情识别模型识别用户面部表情,在用户面部表情符合预设的面部表情阈值后,确定摄像焦点区域并拍摄。
[0009]另外,本专利技术要解决的技术问题是还在于提供一种多模态摄像控制装置,其包括:
[0010]捕捉单元,用于捕捉用户的参数调节语音指令,并基于所述参数调节语音指令,判断是否进入参数调节模式;
[0011]判断一单元,用于若不进入参数调节模式,则直接捕捉用户的眼睛注视点,并基于当前眼睛注视点,确定摄像焦点区域并拍摄;
[0012]判断二单元,用于若进入参数调节模式,则继续接收用户的语音执行指令,并基于所述语音执行指令对参数进行相应的调节;
[0013]确定单元,用于在参数调节完成后,利用表情识别模型识别用户面部表情,在用户面部表情符合预设的面部表情阈值后,确定摄像焦点区域并拍摄。
[0014]另外,本专利技术实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的多模态摄像控制方法。
[0015]另外,本专利技术实施例还提供了一种计算机可读存储介质,其中所述计算机可读存
储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的多模态摄像控制方法。
[0016]本专利技术实施例公开了一种多模态摄像控制方法、装置、计算机设备及存储介质,其中,方法包括:捕捉用户的参数调节语音指令,并基于所述参数调节语音指令,判断是否进入参数调节模式;若不进入参数调节模式,则直接捕捉用户的眼睛注视点,并基于当前眼睛注视点,确定摄像焦点区域并拍摄;若进入参数调节模式,则继续接收用户的语音执行指令,并基于所述语音执行指令对参数进行相应的调节;在参数调节完成后,利用表情识别模型识别用户面部表情,在用户面部表情符合预设的面部表情阈值后,确定摄像焦点区域并拍摄。该方法通过捕捉用户的参数调节语音指令,自动对摄像终端进行参数调整,使用户在不方便用手调整的状态下,也能够实现对人脸的拍摄。
附图说明
[0017]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为本专利技术实施例提供的多模态摄像控制方法的结构示意图;
[0019]图2为本专利技术实施例提供的多模态摄像控制装置的示意性框图;
[0020]图3为本专利技术实施例提供的计算机设备的示意性框图。
具体实施方式
[0021]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0022]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0023]还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0024]还应当进一步理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0025]请参阅图1,图1为本专利技术实施例提供的多模态摄像控制方法的结构示意图;
[0026]如图1所示,该方法包括步骤S101~S104。
[0027]S101、捕捉用户的参数调节语音指令,并基于所述参数调节语音指令,判断是否进入参数调节模式;若不进入参数调节模式,则执行步骤S102,若进入参数调节模式,则执行步骤S103;
[0028]S102、捕捉用户的眼睛注视点,并基于当前眼睛注视点,确定摄像焦点区域并拍摄;
[0029]S103、继续接收用户的语音执行指令,并基于所述语音执行指令对参数进行相应的调节,并进入下一步骤;
[0030]S104、利用表情识别模型识别用户面部表情,若用户面部表情符合预设的面部表情阈值,则执行步骤S102,若用户面部表情不符合预设的面部表情阈值,则返回步骤S103。
[0031]在本实施例中,在用户双手被占用的情况下,本申请能够自动调整摄像终端的参数,以快速完成人脸的拍摄,具体的,通过摄像终端捕捉用户的参数调节语音指令,例如“请进入参数调节模式”等,根据参数调节语音指令判断是否进入参数调节模式,若不需要进行参数调整,说明此时摄像终端能够顺利拍摄清楚用户的人脸,可直接对人脸进行拍摄,而假如用户根据画面显示发现人脸画面效果较差,即摄像终端不能够拍摄清楚用户的人脸,所以需要进入参数调整模式,进而对摄像终端进行设备参数的调整,需要说明的是,本申请的摄像终端包括但不局限于摄像机、眼镜式眼动仪、声音传感器,眼镜式眼动仪朝向用户面部,用于捕捉用户眼镜的注视焦点;声音传感器安装在眼镜式眼动仪上,用于捕捉用户语音指令,摄像机安装在眼镜式眼动仪上,用于捕捉用户表情信号。
[0032]在参数调整完成后,用户根据摄像终端显示的画面效果,会出现表情变化,例如变的高兴、惊喜、厌恶、恐惧以及中立等等表情,此时摄像终端利用表情识别模型识别用户面部本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态摄像控制方法,其特征在于,包括:捕捉用户的参数调节语音指令,并基于所述参数调节语音指令,判断是否进入参数调节模式;若不进入参数调节模式,则直接捕捉用户的眼睛注视点,并基于当前眼睛注视点,确定摄像焦点区域并拍摄;若进入参数调节模式,则继续接收用户的语音执行指令,并基于所述语音执行指令对参数进行相应的调节;在参数调节完成后,利用表情识别模型识别用户面部表情,在用户面部表情符合预设的面部表情阈值后,确定摄像焦点区域并拍摄。2.根据权利要求1所述的多模态摄像控制方法,其特征在于,所述继续接收用户的语音执行指令,并基于所述语音执行指令对参数进行相应的调节之前,包括:停止捕捉用户的眼睛注视点,并在显示器上显示当前的参数,其中,所述参数包括摄像机的焦距数值、光圈数值以及感光度数值。3.根据权利要求2所述的多模态摄像控制方法,其特征在于,所述继续接收用户的语音执行指令,并基于所述语音执行指令对参数进行相应的调节,包括:接收当前的语音执行指令,并将语音执行指令发送至云端,使所述云端判断当前的语音执行命令是否出现关键词,若当前的语音执行命令出现关键词,则基于关键词返回对应的调整指令;基于所述调整指令对相应的参数进行调整,并显示在所述显示器上。4.根据权利要求1所述的多模态摄像控制方法,其特征在于,所述在参数调节完成后,利用表情识别模型识别用户面部表情,在用户面部表情符合预设的面部表情阈值后,确定摄像焦点区域并拍摄,包括:基于预设的面部扫描识别频率对人脸进行捕捉,得到当前的人脸图像;利用表情识别模型对当前的所述人脸图像进行识别,根据正面表情、负面表情以及中立表情的识别结果进行权重投票,若权重投票结果大于预设的面部表情阈值,则确定摄像焦点区域并拍摄,若权重投票结果小于预设的面部表情阈值,则返回接续接收新的语音执行指令。5.根据权利要求4所述的多模态摄像控制方法,其特征在于,所述根据正面表情和负面表情的识别结果进行权重投票,包括:将所述正面表情的占比设置为50%~60%。6.根据权利要求4所述的多模态摄像控制...

【专利技术属性】
技术研发人员:王军锋
申请(专利权)人:深圳万兴软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1