用于使用图像平铺进行对象检测的系统和方法技术方案

技术编号：33018713 阅读：9 留言：0更新日期：2022-04-15 08:51

一种用于检测图像中的对象的计算系统能够执行操作，所述操作包括生成图像金字塔，图像金字塔包括与第一分辨率的图像相对应的第一级和与第二分辨率的图像相对应的第二级。所述操作能够包括：通过将第一级划分为第一多个图块并且将第二级划分为第二多个图块来平铺第一级和第二级；将第一多个图块和第二多个图块输入到机器学习对象检测模型中；接收对象检测数据作为机器学习对象检测模型的输出，对象检测数据包括分别关于第一多个图块和第二多个图块中的单个图块定义的边界框；以及通过将对象检测数据映射到图像的图像空间上来生成图像对象检测输出。图像对象检测输出。图像对象检测输出。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于使用图像平铺进行对象检测的系统和方法

[0001]本公开总体上涉及机器学习。更具体地，本公开涉及用于使用图像平铺进行对象检测的系统和方法。

技术介绍

[0002]机器学习模型能够被训练以检测图像内的对象。然而，对于这样的机器学习模型，检测同一图像内的小对象和大对象两者会是困难的。更具体地，小对象通常被尚未被训练以识别这样的小对象的机器学习模型遗漏或错误识别。因此，改进的机器学习对象检测和/或识别模型以及用于训练其的方法将在本领域受到欢迎。

技术实现思路

[0003]本公开的实施例的方面和优点将在以下描述中部分地阐述，或者能够从描述中学习，或者能够通过实施例的实践来学习。
[0004]本公开的一个方面涉及一种计算系统，所述计算系统包括至少一个处理器和机器学习对象检测模型，机器学习对象检测模型被配置为接收多个图块，并且响应于接收到多个图块，输出多个图块的对象检测数据。对象检测数据能够包括分别关于多个图块中的单个图块定义的多个边界框。计算系统能够包括至少一个存储指令的有形的非暂时性计算机可读介质，当指令由至少一个处理器执行时使得至少一个处理器执行操作。所述操作能够包括基于具有图像空间的图像生成图像金字塔。图像金字塔能够包括与第一分辨率的图像相对应的第一级和与不同于第一分辨率的第二分辨率的图像相对应的第二级。所述操作能够包括：通过将第一级划分为第一多个图块并且将第二级划分为第二多个图块来平铺第一级和第二级；将第一多个图块和第二多个图块输入到机器学习对象检测模型中；接收对象检测数据作为机器学习对象检...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算系统，包括：至少一个处理器；机器学习对象检测模型，被配置为接收多个图块，并且响应于接收到多个图块，输出多个图块的对象检测数据，对象检测数据包括分别关于多个图块中的单个图块定义的多个边界框；以及至少一个有形的非暂时性计算机可读介质，其存储指令，当指令由至少一个处理器执行时使得至少一个处理器执行操作，包括：基于具有图像空间的图像生成图像金字塔，图像金字塔包括与第一分辨率的图像相对应的第一级和与不同于第一分辨率的第二分辨率的图像相对应的第二级；通过将第一级划分为第一多个图块并且将第二级划分为第二多个图块来平铺第一级和第二级；将第一多个图块和第二多个图块输入到机器学习对象检测模型中；接收对象检测数据作为机器学习对象检测模型的输出，对象检测数据包括分别关于第一多个图块和第二多个图块中的单个图块定义的多个边界框；以及通过将对象检测数据映射到图像的图像空间上来生成图像对象检测输出。2.根据前述权利要求中任一项所述的计算系统，其中，所述操作还包括：基于图像对象检测输出的至少一个边界框与第一多个图块或第二多个图块中的一个或多个的边界相交，识别所述至少一个边界框；以及从图像对象检测输出移除所述至少一个边界框。3.根据权利要求2所述的计算系统，其中，基于至少一个边界框跨越第一多个图块或第二多个图块中的一个或多个，使得所述至少一个边界框与第一多个图块或第二多个图块中的一个或多个的边界和与所述边界平行的相对边界相交，来识别所述至少一个边界框。4.根据权利要求2所述的计算系统，其中，基于至少一个边界框与第一多个图块或第二多个图块中的一个或多个的边界相交并且与图像金字塔的相应级的边缘相交，来识别所述至少一个边界框。5.根据权利要求2所述的计算系统，其中，从图像对象检测输出移除至少一个边界框包括移除与第一多个图块或第二多个图块的多个边界中的任何边界相交的每个边界框。6.根据前述权利要求中任一项所述的计算系统，还包括：初步机器学习对象检测模型，被配置为接收图像，并且响应于接收到图像，输出中间特征表示，并且其中，基于图像生成图像金字塔包括：将图像输入到初步机器学习对象检测模型中；接收中间特征表示作为初步机器学习对象检测模型的输出；以及基于中间特征表示生成图像金字塔的第一级和第二级。7.根据前述权利要求中任一项所述的计算系统，还包括：初步机器学习对象检测模型，被配置为接收多个初步图块，并且响应于接收到多个初步图块，输出分别与多个初步图块相对应的多个中间特征表示，并且其中，基于图像生成图像金字塔包括：将图像平铺成多个初步图块；将多个初步图块输入到初步机器学习对象检测模型中；接收分别与多个初步图块相对应的多个中间特征表示，作为初步机器学习对象检测模
型的输出；以及基于多个中间特征表示生成图像金字塔的第一级和第二级。8.根据权利要求7所述的计算系统，其中，多个初步图块与第一分辨率的第一初步级相对应，并且其中，基于图像生成图像金字塔包括在平铺第一级和第二级之前缩小第一初步级以生成第二分辨率的第二初步级。9.一种用于训练机器学习对象检测模型的方法，所述方法包括：对于多个训练图像中的每个训练图像：由一个或多个计算设备基于具有相应图像空间的相应训练图像来生成图像金字塔，图像金字塔包括与第一分辨率的相应训练图像相对应的第一级和与不同于第一分辨率的第二分辨率的相应训练图像相对应的第二级；由一个或多个计算设备通过将第一级划分为第一多个图块并且将第二级划分为第二多个图块来平铺第一级和第二级；由一个或多个计算设备将第一多个图块和第二多个图块输入到机器学习对象检测模型中；由一个或多个计算设备接收对象检测数据作为机器学习对象检测模型的输出，对象检测数据包括分别关于...

【专利技术属性】
技术研发人员：涂吉林，王江，陈惠中，朱向欣，戴声扬，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人