促进图像作为搜索查询的使用制造技术

技术编号:21176432 阅读:24 留言:0更新日期:2019-05-22 12:07
方法、系统和装置,用于接收查询图像和用户点击位置,基于用户点击位置处理接收的查询图像,识别与处理的查询图像相关联的一个或多个实体,并且响应于接收(i)查询图像、和(ii)用户点击位置,提供关于实体中的识别的一个或多个的信息。通过允许搜索查询采取图像和用户点击位置的形式,用户界面能够允许键入搜索查询而无需使用键盘或者诸如话音辨识的其它文本录入机制的文本录入。

Promoting the use of images as search queries

Methods, systems and devices for receiving query images and user click positions, processing received query images based on user click positions, identifying one or more entities associated with the processed query images, and providing one or more information about the recognition in entities in response to receiving (i) query images and (ii) user click positions. By allowing search queries to take the form of images and user clicks, the user interface can allow text entry by typing search queries without using keyboards or other text entry mechanisms such as voice recognition.

【技术实现步骤摘要】
【国外来华专利技术】促进图像作为搜索查询的使用
本说明书涉及简化搜索引擎的使用。
技术介绍
通常,用户能够通过向搜索引擎输入查询请求信息。搜索引擎能够处理查询并且能够响应于查询提供用于输出到用户的信息。一些用户受限于其与计算机交互的能力,包括受限于其将搜索查询输入到计算机中的能力。
技术实现思路
根据本说明书中描述的主题的一些创新方面,计算设备允许到搜索设施的简化的用户界面。特别地,计算设备允许用户能够提供查询图像和用户点击位置作为搜索查询,例如来自用户周围的具有选择的兴趣区域的照片。响应于系统接收查询图像和用户点击位置,系统将视觉辨识技术应用于接收的查询图像以在接收的查询图像中识别一个或多个实体。通过使用用户点击位置改进视觉辨识结果。例如,视觉辨识结果可以用于增强对后端辨识器的输入并且可以用于排序获得的辨识结果。系统响应于接收查询图像和用户点击位置提供关于识别的实体中的一个或多个的信息。通过允许搜索查询采取图像和用户点击位置的形式,用户界面能够允许键入搜索查询而无需使用键盘或者诸如话音辨识的另一文本录入机制的文本录入。这能够允许界面由以下用户的类别使用:不可以以其它方式能够轻易地使用搜索引擎的用户(包括幼儿)、具有有限精细马达控制的用户、没有话音能力的用户等。其也能够允许界面由在基于文本的输入可能是困难或者不可能的情形中的用户使用,诸如在用户在其手上戴着手套阻止他们在其移动设备上使用诸如虚拟或者小尺寸键盘的文本录入设备的寒冷环境中。本说明书中描述的主题的创新方面可以体现在方法中,方法包括以下动作:接收(i)查询图像、和(ii)用户点击位置;基于用户点击位置处理接收的查询图像;识别与处理的查询图像相关联的一个或多个实体;并且响应于接收(i)查询图像、和(ii)用户点击位置,提供关于识别的一个或多个实体的信息。此方面的其它实施例包括对应的计算机系统、装置、和计算机程序,计算机程序记录在一个或多个计算机储存设备上,每个配置为执行方法的动作。一个或多个计算机的系统能够配置为凭借在系统上安装在操作中导致系统执行动作的软件、固件、硬件、或者其组合执行特定操作或者动作。一个或多个计算机程序能够配置为凭借包括当由数据处理装置运行时导致装置执行动作的指令执行特定操作或者动作。前述和其它实施例能够每个可选地单独地或者以组合包括以下特征中的一个或多个。在一些实施方式中,对于候选搜索查询中的每一个生成各个相关性分数包括,对于每个候选搜索查询:确定查询图像的上下文是否匹配候选搜索查询;并且基于确定的匹配,对于候选搜索查询生成各个相关性分数。在一些实施方式中,基于用户点击位置处理接收的查询图像包括基于用户点击位置裁剪接收的查询图像。在一些实施方式中,裁剪接收的查询图像包括以下中的一个或多个:(i)执行内容感知裁剪算法,(ii)使用对象检测神经网络处理查询图像,(iii)围绕用户点击位置应用固定大小裁剪,并且(iv)应用多种裁剪。在一些情况下,识别与处理的查询图像相关联的一个或多个实体包括:使用神经网络处理处理的查询图像以在处理的查询图像中分类一个或多个实体。在一些实施方式中,方法进一步包括使用神经网络处理接收的查询图像以在接收的查询图像中分类一个或多个实体;并且组合(i)在处理的查询图像中分类的一个或多个实体、和(ii)在接收的查询图像中分类的一个或多个实体。在一些情况下,组合(i)在处理的查询图像中分类的一个或多个实体、和(ii)在接收的查询图像中分类的一个或多个实体包括使用在接收的查询图像中分类的一个或多个实体上下文化(contextualize)在处理的查询图像中分类的一个或多个实体。在其它实施方式中,基于用户点击位置处理接收的查询图像包括使用光学字符辨识引擎处理接收的查询图像以检测文本的一个或多个区域。在一些情况下,方法进一步包括围绕用户点击位置选择区域。在一些情况下,识别与处理的查询图像相关联的一个或多个实体包括:使用第一光学字符辨识引擎处理选择的区域以识别第一数量的实体;使用第二光学字符辨识引擎处理处理的查询图像中的剩余文本以识别第二数量的实体,其中使用第二光学字符辨识引擎处理文本比使用第一光学字符辨识引擎处理文本在计算上更便宜。在一些实施方式中,基于用户点击位置处理接收的查询图像包括围绕用户点击位置定义兴趣区域。在一些实施方式中,识别与处理的查询图像相关联的一个或多个实体包括使用描述符匹配引擎处理处理的查询图像以识别一个或多个实体。在其它实施方式中,使用描述符匹配引擎处理处理的查询图像包括在定义的兴趣区域中提取相比于处理的查询图像中的其它区域的更高密度的描述符。在进一步的实施方式中,提供关于识别的一个或多个实体的信息包括响应于接收(i)查询图像、和(ii)用户点击位置提供用于输出的代表性搜索查询。在一些情况下,响应于接收(i)查询图像、和(ii)用户点击位置提供用于输出的代表性搜索查询,包括:对于与处理的查询图像相关联的识别的实体中的一个或多个,识别与一个或多个实体预先关联的一个或多个候选搜索查询;对于候选搜索查询中的每一个生成各个相关性分数;并且至少基于生成的各个相关性分数选择特定候选搜索查询作为对于查询图像的代表性搜索查询。在一些实施方式中,对于候选搜索查询中的每一个生成各个相关性分数包括基于与候选搜索查询预先关联的一个或多个实体对用户点击位置的接近度对于候选搜索查询中的每一个生成各个相关性分数。在一些情况下,基于与候选搜索查询预先关联的一个或多个实体对用户点击位置的接近度对于候选搜索查询中的每一个生成各个相关性分数包括:围绕每个识别的与处理的查询图像相关联的一个或多个实体定义边界框;确定用户点击位置位于一个或多个各个实体的一个或多个边界框内;向与一个或多个各个实体预先关联的一个或多个候选搜索查询分配比其它候选搜索查询更高的相关性分数。在一些实施方式中,对于候选搜索查询中的每一个的每个生成的各个相关性分数基于以下中的一个或多个:(i)结果置信度、(ii)查询普及性(popularity)、(iii)候选搜索查询的时事性、或者(iv)指示与候选搜索查询相关联的搜索结果页面是多有趣和有用的测量。在其它实施方式中,识别与处理的查询图像相关联的一个或多个实体包括:使用第一分类器处理接收的查询图像以在接收的查询图像中识别一个或多个实体;使用第二分类器处理处理的查询图像以在处理的查询图像中识别一个或多个实体,其中第二分类器具有比第一分类器更高处理能力。本说明书中描述的主题能够在特定实施例中实施以便实现以下优点中的一个或多个。图像辨识系统和过程可能是在计算上昂贵的,因为在图像中有效地辨识对象或者文本可能涉及通过描述符的大型数据库搜索、或者使用深度神经网络(例如卷积神经网络)处理图像。此外,图像辨识系统经常具有有限资源。如本说明书中描述的,使用用户点击位置实施视觉辨识的系统允许视觉辨识引擎有效地将视觉辨识资源(诸如神经网络或者其它图像分类组件)应用于用户感兴趣的图像的区域。系统向用户已经指示为重要或者有趣的图像的区域分配并且应用更多处理能力,同时向图像的其它区域分配并且应用更少处理能力。系统可以因此在用户已经指示为重要或者有趣的图像的区域中实现更高质量辨识。此外,由视觉辨识系统要求的计算资源和时间可以减少,因为不要求系统向完整图像应用本文档来自技高网...

【技术保护点】
1.一种计算机实施的方法,包括:接收(i)查询图像、和(ii)用户点击位置;基于用户点击位置处理接收的查询图像;识别与处理的查询图像相关联的一个或多个实体;并且响应于接收(i)查询图像、和(ii)用户点击位置,提供关于实体中的识别的一个或多个的信息。

【技术特征摘要】
【国外来华专利技术】2016.06.28 US 15/195,3691.一种计算机实施的方法,包括:接收(i)查询图像、和(ii)用户点击位置;基于用户点击位置处理接收的查询图像;识别与处理的查询图像相关联的一个或多个实体;并且响应于接收(i)查询图像、和(ii)用户点击位置,提供关于实体中的识别的一个或多个的信息。2.如权利要求1所述的方法,其中基于用户点击位置处理接收的查询图像包括基于用户点击位置裁剪接收的查询图像。3.如权利要求2所述的方法,其中裁剪接收的查询图像包括以下中的一个或多个:(i)执行内容感知裁剪算法,(ii)使用对象检测神经网络处理查询图像,(iii)围绕用户点击位置应用固定大小裁剪,并且(iv)应用多个裁剪。4.如权利要求2或者3所述的方法,其中识别与处理的查询图像相关联的一个或多个实体包括:使用神经网络处理处理的查询图像以在处理的查询图像中分类一个或多个实体。5.如权利要求4所述的方法,进一步包括:使用神经网络处理接收的查询图像以在接收的查询图像中分类一个或多个实体;组合(i)在处理的查询图像中分类的一个或多个实体、和(ii)在接收的查询图像中分类的一个或多个实体。6.如权利要求5所述的方法,其中组合(i)在处理的查询图像中分类的一个或多个实体、和(ii)在接收的查询图像中分类的一个或多个实体包括使用在接收的查询图像中分类的一个或多个实体以上下文化在处理的查询图像中分类的一个或多个实体。7.如任一前述权利要求所述的方法,其中基于用户点击位置处理接收的查询图像包括使用光学字符辨识引擎处理接收的查询图像以检测文本的一个或多个区域。8.如权利要求7所述的方法,进一步包括围绕用户点击位置选择区域。9.如权利要求8所述的方法,其中识别与处理的查询图像相关联的一个或多个实体包括:使用第一光学字符辨识引擎处理选择的区域以识别第一数量的实体;使用第二光学字符辨识引擎处理处理的查询图像中的剩余文本以识别第二数量的实体,其中使用第二光学字符辨识引擎处理文本比使用第一光学字符辨识引擎处理文本在计算上更便宜。10.如任一前述权利要求所述的方法,其中基于用户点击位置处理接收的查询图像包括围绕用户点击位置定义兴趣区域。11.如权利要求10所述的方法,其中识别与处理的查询图像相关联的一个或多个实体包括使用描述符匹配引擎处理处理的查询图像以识别一个或多个实体。12.如权利要求11所述的方法,其中使用描述符匹配引擎处理处理的查询图像包括在定义的兴趣区域中提取相比于处理的查询图像中的其它区域的更高密度的描述符。13.如任一前述权利要求所述的方法,其中提供关于识别的一个或多个实体的信息包括响应于接收(...

【专利技术属性】
技术研发人员:A夏尔马D彼得鲁M夏里菲
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1