利用计算机视觉辅助的适应性图像搜索制造技术

技术编号:13671795 阅读:232 留言:0更新日期:2016-09-07 19:43
本文中公开了一种具有适应性的图像搜索的计算设备,以及用于在该计算设备上运行图像识别程序的方法。图像识别程序可以接收来自用户的查询,以及目标图像,在该目标图像内将要使用多个本地存储的图像识别模型中的一个或多个来执行基于该查询的搜索,所述图像识别模型被确定为能够以充分高的置信度来执行该搜索。该查询可以包括键入的文本或是从话音转换而来的文本。该图像识别程序使用至少一个本地存储的图像识别模型在该目标图像内针对该目标图像的目标区域而执行搜索,并且将搜索结果返回给该用户。

【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
图像搜索技术可以使得用户能够获得关于在图像中的对象的信息或者在图像内对具体的对象进行定位。可以将相同的过程应用于人、场景、文本等。典型的图像识别服务是通过如下操作来运行的:从用户处接收图像,针对特别的特征来分析该图像,并且接着使用算法将该图像中的对象对照数据库中的图像进行匹配。由于数字相机的传感器和存储器容量已改进,因此由数字相机所捕获的图像的大小也已经增加。目前,一些配备有相机的智能电话捕获超过40兆像素的图像。将该大小的图像上传至基于云的服务通常花费显著的时间和带宽(尤其是当通过蜂窝网络来完成时),这常常给用户招致额外的费用。一旦上传了这样的大图像,图像识别服务可能会花费与较小的图像相比额外的时间和计算能力来处理该图像,这会减慢响应时间。另外,由于该图像是通过网络发送的,会出现涉及隐私的问题。其结果是,对于将要应用至在下一代相机上所捕获的大图像的基于云的图像搜索服务,存在重大挑战。
技术实现思路
在本文中公开了具有适应性的图像搜索的计算设备、以及用于在该计算设备上运行图像识别程序的方法。所公开的一个实施例可以包括被配置为存储多个图像识别模型的非易失性存储器、以及由计算设备的处理器执行的图像识别程序。该图像识别程序可以从用户处接收查询以及目标图像,其中,基于所述查询的搜索将在该目标图像内执行。所述查询可以包括被键入的文本或是从话音所转换的文本。图像识别程序可以接着根据置信度水平来对图像识别模型进行排名以用于在目标图像内执行搜索,并且确定图像识别模型中是否有任何一个模型高于置信度阈值以用于在计算设备的处理器上本地地执行搜索。如果确
定了图像识别模型中有至少一个模型高于置信度阈值,则图像识别程序可以选择高排名的至少一个图像识别模型。接着,图像识别程序可以使用所选择的至少一个图像识别模型在所述目标图像内针对该目标图像的目标区域执行搜索,并且最终,将搜索结果返回给用户。提供了该
技术实现思路
以用简化的形式介绍在下文的具体实施方式中所进一步描述的概念的选择。该
技术实现思路
不旨在标识所要求保护的主题的关键特征或本质特征,也不旨在用于限制所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本公开的任何部分中所指出的任何或全部缺点的实现。附图说明图1是执行本地图像识别搜索的计算设备的示意图。图2是执行基于网络的图像识别搜索的图1的计算设备的示意图。图3是用于在图1的计算设备或在其它合适的硬件上运行图像识别程序的方法的流程图。图4是根据图3的流程图的一个步骤而扩展的流程图,并且示出了用于从网络服务中下载图像识别模型的方法。图5是根据图3的流程图的一个步骤而扩展的流程图,并且示出了用于基于来自网络图像搜索的示例图像来创建新的图像识别模型的方法。图6示出了包括计算设备的计算系统的简化示意图。图7示出了关于对红色咖啡杯的图像识别搜索的一个示例用例场景。图8示出了关于对特定的书的图像识别搜索的另一个示例用例场景。图9示出了关于使用购物中心目录对购物中心的电子产品商店的图像识别搜索的另一个示例用例场景。具体实施方式图1和图2是配置有适应性的图像搜索功能的计算装置10的示意图,该图像搜索功能能够执行使用本地存储的不同模型来进行图像搜索的本地图像识别搜索,并且还可选地能够进行基于网络的图像识别搜索。在一个实施例中,计算设备10被配置为向用户呈现针对本地图像识别搜索的选项,
并且如果这样的本地图像识别搜索不能以高置信度执行,则可替代地向用户呈现用于进行基于网络的图像识别搜索的选项,或者以编程的方式(programmatically)执行网络搜索而不需要用户选择网络搜索选项。应当理解的是,通过以该方式向用户提供选项来首先尝试本地进行图像识别搜索,计算设备10潜在地解决了在上文中所讨论的涉及通过网络将大尺寸图像传输至基于网络的图像识别服务器的挑战。在一些实施例中,直到本地搜索已经作为不可用的而被排除在外为之后才显示针对基于网络的图像识别搜索的选项,而在其它实施例中,在图像搜索交互对话开始时,就将基于网络的搜索的选项和本地搜索的选项两者呈现给用户。图1示出计算设备10,其向用户呈现针对在计算设备10上显示的目标图像12的在网络上执行或本地地执行的图像识别搜索的选项。用户可以从合适的源(例如,相机输出、或者计算设备10上的非易失性存储器20中的数据存储)中选择目标图像12。多个图像识别模型22也可以存储在非易失性存储器20中。每个图像识别模型22可以包括:图像识别算法、光学字符识别(OCR)算法、和/或关键字匹配算法等。每个图像识别模型22可以只包含一种算法、或相同或不同类型的多个算法的任意组合。在计算设备10的处理器26上执行的图像识别程序24可以在显示器32上显示图像搜索GUI,该图像搜索GUI可以包括被标记为LOCAL的图形用户界面(GUI)选择器。由用户对LOCAL选择器的选择可以触发本地图像识别搜索。可替代地,可以使用另一种类型的命令(例如,语音命令或手势命令)来选择本地图像识别搜索。图像识别程序24可以被配置为从用户处接收查询28。计算设备10的输入设备30可以包括麦克风、键盘、触摸屏等。查询28可以是例如文本,该文本是在键盘或触屏上键入的、从通过麦克风所捕获的话音转换而来的、经由光学字符识别(OCR)从图像(例如,通过相机34所捕获的或存储在非易失性存储器20中的)转换而来的、或是通过其它技术产生的。音频、文本等也可以提前被存储在非易失性存储器20中,并且接着用来形成查询28。可替代地,查询28可以是用户有兴趣寻找的目标对象的图像或视频。多个图像或视频帧可以描绘同一目标对象的不同视角。用户可以可选地选择查询图像内的边界框,以帮助图像识别程序24来定位目标对象,尤其是
在图像中存在许多不相关的对象时。图像识别程序24也可以接收目标图像12,其中,在目标图像12内将要执行基于查询28的搜索。如上所述,目标图像12通常是由用户预选择的,并且可以源自板载相机,或者可以是从存储的图像文件夹等中所选择的,并且该搜索是为了找到可以被定位在目标图像12中的目标对象等的。目标对象等在目标图像12内的位置可被称为目标图像12的目标区域。接下来,图像识别程序24可以根据置信度水平对图像识别模型22进行排名以用于基于查询28在目标图像12内执行搜索,接着确定是否图像识别模型22中有任何一个模型高于置信度阈值以用于在计算设备10的处理器26上本地地执行搜索。在确定了图像识别模型22中有至少一个模型在置信度阈值以上之后,图像识别程序可以选择高排名的至少一个图像识别模型22’,并且使用所选择的至少一个图像识别模型22’在所述目标图像12内执行针对该目标图像12的目标区域的搜索。图像识别模型22的置信度水平可以受多个因素影响。例如,图像识别程序24可以运行一个或多个轻权重的过程(即,较不计算密集的算法)来对目标图像12和/或查询28中的对象进行分类。这样的轻权重过程的一个示例可以是人脸检测算法,其用于检测在目标图像12中是否存在任何人脸。如果查询28被解析为人的名字,则可以运行轻权重的过程以确定在图像中是否存在任何人脸,并且如果存在,则可以选择包含更复杂的人脸识别算法的图像识别模型22中的一个或多个模型来针对与查本文档来自技高网
...

【技术保护点】
一种具有适应性的图像搜索的计算设备,所述计算设备包括:非易失性存储器,其被配置为存储多个图像识别模型;图像识别程序,其由所述计算设备的处理器执行,并且被配置为:从用户处接收查询,所述查询包括键入的文本或是从话音转换而来的文本;接收目标图像,其中在所述目标图像内将要执行基于所述查询的搜索;根据置信度来对所述图像识别模型进行排名,以用于在所述目标图像内基于所述查询来执行所述搜索;确定所述图像识别模型中是否有任何一个模型高于置信度阈值,以用于在所述计算设备的处理器上本地地执行所述搜索;以及在确定所述图像识别模型中至少有一个高于所述置信度阈值之后,选择高排名的至少一个图像识别模型;使用所选择的至少一个图像识别模型在所述目标图像内对所述目标图像的目标区域执行所述搜索;以及将搜索结果返回给所述用户。

【技术特征摘要】
【国外来华专利技术】2014.01.24 US 14/163,9991.一种具有适应性的图像搜索的计算设备,所述计算设备包括:非易失性存储器,其被配置为存储多个图像识别模型;图像识别程序,其由所述计算设备的处理器执行,并且被配置为:从用户处接收查询,所述查询包括键入的文本或是从话音转换而来的文本;接收目标图像,其中在所述目标图像内将要执行基于所述查询的搜索;根据置信度来对所述图像识别模型进行排名,以用于在所述目标图像内基于所述查询来执行所述搜索;确定所述图像识别模型中是否有任何一个模型高于置信度阈值,以用于在所述计算设备的处理器上本地地执行所述搜索;以及在确定所述图像识别模型中至少有一个高于所述置信度阈值之后,选择高排名的至少一个图像识别模型;使用所选择的至少一个图像识别模型在所述目标图像内对所述目标图像的目标区域执行所述搜索;以及将搜索结果返回给所述用户。2.根据权利要求1所述的计算设备,其中,所述目标图像是单个图像、或是构成视频的一部分的一个或多个图像帧。3.根据权利要求1所述的计算设备,其中,每个图像识别模型包括下列算法中的至少一种算法:图像识别算法、光学字符识别(OCR)算法、以及关键字匹配算法。4.根据权利要求1所述的计算设备,其中,所述图像识别程序使用关于所述用户的位置信息。5.根据权利要求1所述的计算设备,其中,所述目标图...

【专利技术属性】
技术研发人员:A·A·安巴德卡尔C·L·海布雷格斯L·沃尔D·胡什安吉H·帕桑克
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1