基于手势的查词方法、查词设备及计算机可读存储介质技术

技术编号:35441970 阅读:23 留言:0更新日期:2022-11-03 11:53
本发明专利技术的实施方式提供了一种基于手势的查词方法、查词设备及计算机可读存储介质。该查词方法包括:基于在待检测区域连续采集的多帧全局图像中每帧全局图像的第一手势类型和第一手指位置,预判未来一帧或多帧的预判手势类型;以及根据所述预判手势类型,确定是否触发查词操作。根据本发明专利技术实施方式的基于手势的查词方法,可以通过预判来提前确定是否触发查词操作,从而可以实现对用户查词手势的快速响应,以及缩短用户可感知的耗时,为用户带来了更好的体验。更好的体验。更好的体验。

【技术实现步骤摘要】
基于手势的查词方法、查词设备及计算机可读存储介质


[0001]本专利技术的实施方式涉及人工智能
,更具体地,本专利技术的实施方式涉及基于手势的查词方法、查词设备及计算机可读存储介质。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
[0003]随着人工智能技术的发展,计算机视觉(Computer Vision,即CV)相关技术广泛应用于各类教育和效率工具类产品中。基于计算机视觉的手势人机交互是重要的交互方式,在此类交互场景下,系统往往需要从实时获取的视频流中检测特定的手势,作为某些指令或功能的触发信号。然而,在很多场景下,手势信号所触发的指令需要耗时较久的计算或数据存取等操作,使得用户所能感知到的“系统对手势的响应”,最早只能出现在该耗时操作完成的时刻,这可能导致用户的体验不佳。

技术实现思路

[0004]为此,非常需要一种改进的基于计算机视觉的手势信号触发方法,以减少用户所能感知到的响应延时,从而提高用户的使用体验。
[0005]在本上下文中,本专利技术的实施方式期望提供一种基于手势的查词方法、查词设备及计算机可读存储介质。
[0006]在本专利技术实施方式的第一方面中,提供了一种基于手势的查词方法,包括:基于在待检测区域连续采集的多帧全局图像中每帧全局图像的第一手势类型和第一手指位置,预判未来一帧或多帧的预判手势类型;以及根据所述预判手势类型,确定是否触发查词操作。
[0007]在本专利技术的一个实施例中,预判未来一帧或多帧的预判手势类型包括:基于所述多帧全局图像中每帧全局图像的第一手势类型和第一手指位置形成的数据序列,采用手势预判模型进行预判。
[0008]在本专利技术的另一个实施例中,在采用手势预判模型进行预判之前,所述查词方法还包括:获取连续多帧手势查词的图像序列样本,并对所述图像序列样本中每帧图像样本的手势类型进行第一标注,以及对每帧图像样本的手指位置进行第二标注;以及使用包括第一标注和第二标注的序列样本训练序列预测模型,以得到所述手势预判模型。
[0009]在本专利技术的又一个实施例中,基于多帧全局图像预判未来一帧或多帧的预判手势类型包括:响应于检测到的第一手势类型为非静止查词手型,基于所述非静止查词手型对应帧及其前一帧或者及其前多帧的第一手势类型和第一手指位置进行预判。
[0010]在本专利技术的一个实施例中,确定是否触发查词操作包括:响应于未来一帧或多帧的预判手势类型中存在静止查词手型,确定触发所述查词操作。
[0011]在本专利技术的另一个实施例中,该查词方法还包括:响应于触发所述查词操作,根据所述多帧全局图像中的最新全局图像,确定所述查词操作的查词范围;在基于所述查词范围进行查词操作的过程中,获取在所述待检测区域采集的第一当前帧全局图像,其中所述查词操作包括文本检测和/或文本识别;以及根据检测到的第一当前帧全局图像的第二手势类型,确定是否继续执行所述查词操作。
[0012]在本专利技术的又一个实施例中,根据第二手势类型确定是否继续执行查词操作包括:响应于检测到的所述第二手势类型为查词手型,根据第一当前帧的第二手指位置,在所述查词范围内的文本检测结果中确定文本识别范围;或者响应于检测到的所述第二手势类型为非查词手型,停止当前查词操作。
[0013]在本专利技术的一个实施例中,所述文本检测包括文本行检测,所述文本检测结果包括单行文本集合;以及确定文本识别范围包括:基于所述单行文本集合中每个单行文本的中心点坐标与所述第二手指位置,确定目标单行文本;以及基于所述目标单行文本,确定所述文本识别范围。
[0014]在本专利技术的另一个实施例中,根据第二手势类型确定是否继续执行查词操作进一步包括:响应于所述第二手势类型为静止查词手型,将所述查词范围内的文本识别结果中与所述第一当前帧的第二手指位置距离最近的词语确定为所述第一当前帧的查词结果。
[0015]在本专利技术的又一个实施例中,该查词方法还包括:对所述文本识别范围内的文本进行识别,以得到所述文本识别范围内的全部词语;获取在所述待检测区域采集的第二当前帧全局图像;以及响应于检测到第二当前帧全局图像的第三手势类型为静止查词手型,基于第二当前帧全局图像的第三手指位置与所述第二手指位置的比对结果,确定第二当前帧的查词结果。
[0016]在本专利技术的一个实施例中,确定第二当前帧的查词结果包括:响应于第三手指位置与第二手指位置之间的距离小于或等于预设阈值,将所述全部词语中距离所述第三手指位置最近的词语确定为所述第二当前帧的查词结果;或者响应于第三手指位置与第二手指位置之间的距离大于预设阈值,基于第二当前帧全局图像来确定第二当前帧的查词结果。
[0017]在本专利技术的另一个实施例中,所述预判还包括:预判未来一帧或多帧的预判手指位置;并且根据最新全局图像确定查词范围包括:以预判手势类型中静止查词手型对应的预判手指位置为基准,在所述最新全局图像中截取局部图像;以及基于所述局部图像,确定所述查词范围。
[0018]在本专利技术的又一个实施例中,在预判未来一帧或多帧的预判手势类型之前,所述查词方法还包括:实时采集待检测区域内的全局图像;以及采用手势检测模型检测每帧全局图像中目标手指的第一手势类型和第一手指位置。
[0019]在本专利技术实施方式的第二方面中,提供了一种基于手势的查词设备,包括,处理器,其配置用于执行程序指令;存储器,其配置用于存储所述程序指令,当所述程序指令由所述处理器执行时,使得所述设备执行根据本专利技术实施方式的第一方面中的任一项所述的查词方法。
[0020]在本专利技术实施方式的第三方面中,提供了一种计算机可读存储介质,其存储有程序指令,当所述程序指令由处理器加载并执行时,使得所述处理器执行根据本专利技术实施方式的第三方面中的任一项所述的方法。
[0021]根据本专利技术实施方式的基于手势的查词方法,可以通过对未来一帧或者多帧的手势类型进行预判,来确定是否触发查词操作,根据这样的设置,可以通过预判的结果来提前确定是否触发查词操作,从而可以实现对用户查词手势的快速响应,以及缩短用户可感知的耗时,为用户带来了更好的体验。
附图说明
[0022]通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,其中:
[0023]图1示意性地示出了适于实现本专利技术实施方式的示例性查词系统100的框图;
[0024]图2示意性地示出根据本专利技术实施例的基于手势的查词方法流程图;
[0025]图3示意性地示出根据本专利技术另一实施例的查词方法的流程图;
[0026]图4示意性地示出根据本专利技术实施例的包括确定查词范围的查词方法的流程图;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于手势的查词方法,包括:基于在待检测区域连续采集的多帧全局图像中每帧全局图像的第一手势类型和第一手指位置,预判未来一帧或多帧的预判手势类型;以及根据所述预判手势类型,确定是否触发查词操作。2.根据权利要求1所述的查词方法,其中预判未来一帧或多帧的预判手势类型包括:基于所述多帧全局图像中每帧全局图像的第一手势类型和第一手指位置形成的数据序列,采用手势预判模型进行预判。3.根据权利要求1所述的查词方法,其中确定是否触发查词操作包括:响应于未来一帧或多帧的预判手势类型中存在静止查词手型,确定触发所述查词操作。4.根据权利要求1或3所述的查词方法,还包括:响应于触发所述查词操作,根据所述多帧全局图像中的最新全局图像,确定所述查词操作的查词范围;在基于所述查词范围进行查词操作的过程中,获取在所述待检测区域采集的第一当前帧全局图像,其中所述查词操作包括文本检测和/或文本识别;以及根据检测到的第一当前帧全局图像的第二手势类型,确定是否继续执行所述查词操作。5.根据权利要求4所述的查词方法,其中根据第二手势类型确定是否继续执行查词操作包括:响应于检测到的所述第二手势类型为查词手型,根据第一当前帧的第二手指位置,在所述查词范围内的文本检测结果中确定文本识别范围;或者响应于检测到的所述第二手势类型为非查词手型,停止当前查词操作。6.根据权利要求5所述的查词方法,其中所述文本检测包括文本行检测,所述文本...

【专利技术属性】
技术研发人员:肖云龙林辉段亦涛
申请(专利权)人:网易有道信息技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1