一种待检测图像帧的确定方法和终端设备技术

技术编号:20494536 阅读:22 留言:0更新日期:2019-03-02 23:57
本发明专利技术的实施例公开一种待检测图像帧的确定方法和终端设备,涉及智能家电设备领域,能够提高图像识别的准确率。该方法包括:接收语音检测开启指令;获取用户输入的语音,并连续获取当前显示设备上显示的多个图像帧;解析所述用户输入的语音,根据所述语音包含的图像识别指令在所述多个图像帧中确定用于图像识别的图像帧。

A Method for Determining Image Frames to Be Detected and Terminal Equipment

The embodiment of the present invention discloses a method for determining image frames to be detected and a terminal device, which relates to the field of intelligent household appliances and can improve the accuracy of image recognition. The method includes: receiving voice detection opening instructions; acquiring user input voice and continuously acquiring multiple image frames displayed on the current display device; parsing the user input voice and determining the image frames for image recognition in the plurality of image frames according to the image recognition instructions contained in the voice.

【技术实现步骤摘要】
一种待检测图像帧的确定方法和终端设备
本专利技术的实施例涉及智能家电设备领域,尤其涉及一种图像识别方法和终端设备。
技术介绍
随着智能电视语音识别和图像识别功能的引入,用户可以在遥控器语音键按下时,通过自然语言形式输入操作命令,如“这人是谁”或者“这些人是谁”等类似的自然语言,进而通过图像识别功能将当前屏幕中所展示的人物进行识别。但是,由于语音按键操作进行人脸识别的完整过程,需要经过用户按下遥控器语音键、语音录入、语音数据网络传输、后台服务器语音识别、识别命令返回后才能开始整机屏幕截图等环节,而此时再截图可能不再是用户“说话”那一时刻的目标帧,同时人脸识别功能对人的正脸要求比较高(若超过45度,则无法识别成功)。即“语音识别过程”复杂导致屏幕截图针对的画面已切换。同时,在用户实际操作过程中,可能会由于用户思考和组织输入语言,或遥控器靠近音源等肢体动作的延迟过程造成当前屏幕画面已经切换至下一帧,不再是用户想要的目标画面。即“延迟”导致屏幕截图针对的画面已切换。从而造成后期的图像识别准确率降低。
技术实现思路
本专利技术的实施例提供一种待检测图像帧的确定方法和终端设备,能够提高图像识别的准确率。第一方面,提供一种待检测图像帧的确定方法,包括如下步骤:接收语音检测开启指令;获取用户输入的语音,并连续获取当前显示设备上显示的多个图像帧;解析所述用户输入的语音,根据所述语音包含的图像识别指令在所述多个图像帧中确定用于图像识别的图像帧。本专利技术的实施例可以在用户开始输入语音时,获取连续的多个图像帧,并从其中确定用于图像识别的图像帧,相比于现有技术中只将识别命令返回后某一时刻的一个图像帧作为图像识别的图像帧,能够降低或避免语音识别过程复杂及延迟而导致的屏幕截图针对的画面已切换,提高图像识别的准确率。第二方面,提供一种终端设备,包括:获取模块,用于接收语音检测开启指令;处理模块,用于获取用户输入的语音,并连续获取当前显示设备上显示的多个图像帧;所述处理模块,还用于解析所述用户输入的语音,根据所述语音包含的图像识别指令在所述多个图像帧中确定用于图像识别的图像帧。第三方面,提供一种终端设备,包括通信接口、处理器、存储器、总线;所述存储器用于存储计算机执行指令,所述处理器与所述存储器通过所述总线连接,当所述终端设备运行时,所述处理器执行所述存储器存储的计算机执行指令,以使所述终端设备执行如上述的待检测图像帧的确定方法。第四方面,提供一种计算机存储介质,包括指令,其特征在于,当所述指令在计算机上运行时,使得所述计算机执行如上述的待检测图像帧的确定方法。可以理解地,上述提供的任一种终端设备或计算机存储介质均用于执行上文所提供的第一方面对应的方法,因此,其所能达到的有益效果可参考上文第一方面的方法以及下文具体实施方式中对应的方案的有益效果,此处不再赘述。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术的实施例提供的一种待检测图像帧的确定方法的流程示意图;图2为本专利技术的另一实施例提供的一种待检测图像帧的确定方法的流程示意图;图3为本专利技术的实施例提供的语音检测开启指令到接收到语音检测关闭指令之间的时间区间示意图;图4为本专利技术的实施例提供的一种终端设备的结构示意图;图5为本专利技术的另一实施例提供的一种终端设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。随着智能电视语音识别和图像识别功能的引入,用户可以在遥控器语音键按下时,通过自然语言形式输入操作命令,如“这人是谁”或者“这些人是谁”等类似的自然语言,进而通过图像识别能力将当前屏幕中所展示的人物进行识别。但是,由于语音按键操作进行人脸识别的完整过程,需要经过语音录入、语音数据网络传输、后台语音识别、识别命令返回并开始整机屏幕截图等环节,此时再截图可能不再是用户“说话”那一时刻的目标帧,同时人脸识别功能对人的正脸要求比较高(若超过45度,则无法识别成功)。即“语音识别过程”复杂导致截图场景切换。同时,在用户实际操作过程中,可能会由于用户思考和组织输入语言,或遥控器靠近音源等肢体动作的延迟过程造成当前屏幕画面已经切换至下一帧,不再是用户想要的目标画面。即“延迟”导致截图场景切换,从而造成后期的图像识别准确率降低。为解决上述问题,本专利技术的实施例提供一种待检测图像帧的确定方法,包括如下步骤:101、接收语音检测开启指令。示例性的,针对终端设备,例如智能电视。该语音检测开启指令可以是用户通过遥控器发送的按键指令触发,例如,语音键收到KeyEventDown(按键按下事件)事件触发;或者,可以是检测到唤醒词输入指令触发,例如通过远场拾音检测到用户语音方式输入的语音检测开启指令。102、获取用户输入的语音,并连续获取当前显示设备上显示的多个图像帧。103、解析用户输入的语音,根据语音包含的图像识别指令在多个图像帧中确定用于图像识别的图像帧。其中,用户可以通过语音控制智能电视识别显示的图像中的目标,例如,该目标可以是人物、车辆、地名以及建筑等等,以人物为例,用户可以通过语音输入“这是谁”、“他叫什么名字”等等,则解析用户输入的语音后可以生成对图像中的人脸目标的图像识别指令,对于其他目标的处理方式是类似的,例如:针对地名,用户可以通过语音输入“这是哪里”,针对建筑,用户可以通过语音输入“这是什么建筑”等等。本专利技术的实施例可以在用户开始输入语音时,获取连续的多个图像帧,并从其中确定用于图像识别的图像帧,相比于现有技术中只将图像识别命令返回后某一时刻的一个图像帧作为图像识别的图像帧,能够降低或避免延迟的影响,提高图像识别的准确率。参照图2所示,以下以用户通过语音指示识别图像帧中的人脸为例对待检测图像帧的确定方法说明如下:201、接收语音检测开启指令。202、获取用户输入的语音,并连续获取当前显示设备上显示的多个图像帧。203、在多个图像帧中,确定接收语音检测开启指令的预定时长后的第一时间区间的图像帧。204、解析用户输入的语音,根据语音包含的图像识别指令对第一时间区间的图像帧中确定用于图像识别的图像帧。如图3所示,将从接收到语音检测开启指令到接收到语音检测关闭指令为止的时间段分为三个区域,第二时间区间、第一时间区间以及第三时间区间,在下述示例中将第一时间区间称作临界区B、将第二时间区间称作静音区A、将第三时间区间称作录音区C。此外,这里从接收到语音检测开启指令到接收到语音检测关闭指令的这一时间段,可以不间断的获取当前显示设备上显示画面对应的多个图像帧,例如可以按照一定周期对显示画面进行截图并暂存。其中,静音区A是指语音键被按下(即KeyEventDown事件触发时)或唤醒词输入(远场拾音)时刻与临界区B的起始时刻之间的一个时间范围区间,表示用户思考、等待或组织本文档来自技高网...

【技术保护点】
1.一种待检测图像帧的确定方法,其特征在于,接收语音检测开启指令;获取用户输入的语音,并连续获取当前显示设备上显示的多个图像帧;解析所述用户输入的语音,根据所述语音包含的图像识别指令在所述多个图像帧中确定用于图像识别的图像帧。

【技术特征摘要】
1.一种待检测图像帧的确定方法,其特征在于,接收语音检测开启指令;获取用户输入的语音,并连续获取当前显示设备上显示的多个图像帧;解析所述用户输入的语音,根据所述语音包含的图像识别指令在所述多个图像帧中确定用于图像识别的图像帧。2.根据权利要求1所述的待检测图像帧的确定方法,其特征在于,所述方法还包括:在所述多个图像帧中,确定接收语音检测开启指令的预定时长后的第一时间区间的图像帧;所述根据所述语音包含的图像识别指令在所述多个图像帧中确定用于图像识别的图像帧,包括:根据所述语音包含的图像识别指令对所述第一时间区间的图像帧中确定用于图像识别的图像帧。3.根据权利要求2所述的待检测图像帧的确定方法,其特征在于,所述根据所述语音包含的图像识别指令对所述第一时间区间的图像帧中确定用于图像识别的图像帧,包括:根据所述语音包含的图像识别指令确定所述第一时间区间的任一图像帧中待识别目标大于等于预定的检测阈值,则确定所述任一图像帧为用于图像识别的图像帧。4.根据权利要求3所述的待检测图像帧的确定方法,其特征在于,确定所述第一时间区间的所有图像帧中的待识别目标均小于预定的检测阈值时;更新所述第一时间区间,其中,更新所述第一时间区间包括将所述第一时间区间的起始时刻向前调整,和/或,将所述第一时间区间的结束时刻向后调整。5.根据权利要求4所述的待检测图像帧的确定方法,其特征在于,当所述更新的第一时间区间大于最大区间阈值时,并且所述更新的第一时间区间的所有图像帧中的待识别目标均小于预定的检测阈值时;在所述更新的第一时间区间之前的第二时间区间的图像帧中,和/或在所...

【专利技术属性】
技术研发人员:宋虎鲍姗娟付延松李志强
申请(专利权)人:青岛海信电器股份有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1