用于使用图像平铺进行对象检测的系统和方法技术方案

技术编号:33018713 阅读:9 留言:0更新日期:2022-04-15 08:51
一种用于检测图像中的对象的计算系统能够执行操作,所述操作包括生成图像金字塔,图像金字塔包括与第一分辨率的图像相对应的第一级和与第二分辨率的图像相对应的第二级。所述操作能够包括:通过将第一级划分为第一多个图块并且将第二级划分为第二多个图块来平铺第一级和第二级;将第一多个图块和第二多个图块输入到机器学习对象检测模型中;接收对象检测数据作为机器学习对象检测模型的输出,对象检测数据包括分别关于第一多个图块和第二多个图块中的单个图块定义的边界框;以及通过将对象检测数据映射到图像的图像空间上来生成图像对象检测输出。图像对象检测输出。图像对象检测输出。

【技术实现步骤摘要】
【国外来华专利技术】用于使用图像平铺进行对象检测的系统和方法


[0001]本公开总体上涉及机器学习。更具体地,本公开涉及用于使用图像平铺进行对象检测的系统和方法。

技术介绍

[0002]机器学习模型能够被训练以检测图像内的对象。然而,对于这样的机器学习模型,检测同一图像内的小对象和大对象两者会是困难的。更具体地,小对象通常被尚未被训练以识别这样的小对象的机器学习模型遗漏或错误识别。因此,改进的机器学习对象检测和/或识别模型以及用于训练其的方法将在本领域受到欢迎。

技术实现思路

[0003]本公开的实施例的方面和优点将在以下描述中部分地阐述,或者能够从描述中学习,或者能够通过实施例的实践来学习。
[0004]本公开的一个方面涉及一种计算系统,所述计算系统包括至少一个处理器和机器学习对象检测模型,机器学习对象检测模型被配置为接收多个图块,并且响应于接收到多个图块,输出多个图块的对象检测数据。对象检测数据能够包括分别关于多个图块中的单个图块定义的多个边界框。计算系统能够包括至少一个存储指令的有形的非暂时性计算机可读介质,当指令由至少一个处理器执行时使得至少一个处理器执行操作。所述操作能够包括基于具有图像空间的图像生成图像金字塔。图像金字塔能够包括与第一分辨率的图像相对应的第一级和与不同于第一分辨率的第二分辨率的图像相对应的第二级。所述操作能够包括:通过将第一级划分为第一多个图块并且将第二级划分为第二多个图块来平铺第一级和第二级;将第一多个图块和第二多个图块输入到机器学习对象检测模型中;接收对象检测数据作为机器学习对象检测模型的输出,对象检测数据包括分别关于第一多个图块和第二多个图块中的单个图块定义的多个边界框;以及通过将对象检测数据映射到图像的图像空间上来生成图像对象检测输出。
[0005]本公开的另一方面涉及一种训练机器学习对象检测模型的方法。所述方法能够包括:对于多个训练图像中的每个训练图像,执行一系列步骤,包括由一个或多个计算设备基于具有相应图像空间的相应训练图像来生成图像金字塔,图像金字塔包括与第一分辨率的相应训练图像相对应的第一级和与不同于第一分辨率的第二分辨率的相应训练图像相对应的第二级。所述步骤能够包括:由一个或多个计算设备通过将第一级划分为第一多个图块并且将第二级划分为第二多个图块来平铺第一级和第二级;由一个或多个计算设备将第一多个图块和第二多个图块输入到机器学习对象检测模型中;由一个或多个计算设备接收对象检测数据作为机器学习对象检测模型的输出,对象检测数据包括分别关于第一多个图块和第二多个图块中的单个图块定义的多个边界框;由一个或多个计算设备通过将对象检测数据映射到相应训练图像的相应图像空间上来生成图像对象检测输出;以及由一个或多个计算设备基于图像对象检测输出和与多个训练图像中的相应训练图像相对应的真值对
象位置数据的比较来调整机器学习对象检测模型的参数。
[0006]本公开的另一方面涉及一种检测图像中的对象的位置的方法。所述方法能够包括由一个或多个计算设备基于具有图像空间的图像来生成图像金字塔。图像金字塔能够包括与第一分辨率的图像相对应的第一级和与不同于第一分辨率的第二分辨率的图像相对应的第二级。所述方法能够包括:由一个或多个计算设备通过将第一级划分为第一多个图块并将第二级划分为第二多个图块来平铺第一级和第二级;由一个或多个计算设备将第一多个图块和第二多个图块输入到机器学习对象检测模型中;由一个或多个计算设备接收对象检测数据作为机器学习对象检测模型的输出,对象检测数据包括分别关于第一多个图块和第二多个图块中的单个图块定义的多个边界框;以及由一个或多个计算设备通过将对象检测数据映射到图像的图像空间上来生成图像对象检测输出。
[0007]本公开的其他方面涉及各种系统、装置、非暂时性计算机可读介质、用户界面和电子设备。
[0008]参考以下描述和所附权利要求,将更好地理解本公开的各种实施例的这些和其他特征、方面和优点。并入本说明书中并构成本说明书的一部分的附图图示了本公开的示例实施例,并且与说明书一起用于解释相关原理。
附图说明
[0009]参考附图在说明书中阐述了针对本领域普通技术人员的实施例的详细讨论,其中:
[0010]图1A描绘了根据本公开的示例实施例的用于检测图像中的对象的位置的示例计算系统的框图。
[0011]图1B描绘了根据本公开的示例实施例的用于检测图像中的对象的位置的示例计算系统的框图。
[0012]图1C描绘了根据本公开的示例实施例的用于生成建议动作并向计算系统的用户提供建议动作的示例计算系统的框图。
[0013]图2A描绘了根据本公开的示例实施例的示例机器学习对象检测模型的框图。
[0014]图2B描绘了根据本公开的示例实施例的示例初步机器学习对象检测模型和机器学习对象检测模型的框图。
[0015]图3是根据本公开的示例实施例的用于检测图像中的对象的位置的方法的简化流程图。
[0016]图4是根据本公开的示例实施例的用于检测图像中的对象的位置的方法的简化流程图。
[0017]图5A是图4的图像金字塔的第一级的第一多个图块的简化示图。
[0018]图5B是图4的图像金字塔的第二级的第二多个图块的简化示图。
[0019]图5C图示了覆盖在图5B的第二多个图块上的图5A的第一多个图块。
[0020]图6描绘了根据本专利技术的示例实施例的包括多个边界框的图像金字塔的简化级。
[0021]图7描绘了根据本公开的方面的用于检测图像中的对象的位置的方法的流程图。
[0022]图8描绘了根据本公开的方面的用于训练机器学习对象检测模型的方法的流程图。
[0023]图9描绘了针对召回绘制的实验检测精度,其中,在归一化到1024
×
1024的图像中识别对象。
[0024]图10描绘了针对召回绘制的第一数据集的实验检测精度,其中,训练图像被平铺为256
×
256,输入图像被设置为529
×
529,并且在没有平铺的情况下在大小为1024
×
2048的测试图像上评估模型。
[0025]图11描绘了针对召回绘制的第一数据集的实验检测精度,其中,训练图像被平铺为256
×
256,输入图像被设置为529
×
529,在平铺的大小为1024
×
2048的测试图像上评估模型,并且使用非极大抑制去除冗余对象识别数据。
[0026]图12描绘了针对召回绘制的第一数据集的实验检测精度,其中,使用非极大抑制去除冗余边界框,去除或“修剪”部分检测边界框,训练图像被平铺为256
×
256,输入图像被设置为529
×
529,并且在平铺的大小为1024
×
2048的测试图像上评估模型。
[0027]图13描绘了针对召回绘制的第二数据集的实验检测精度,其中,使用了AutoML后端模型,并且输入图像被设置本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算系统,包括:至少一个处理器;机器学习对象检测模型,被配置为接收多个图块,并且响应于接收到多个图块,输出多个图块的对象检测数据,对象检测数据包括分别关于多个图块中的单个图块定义的多个边界框;以及至少一个有形的非暂时性计算机可读介质,其存储指令,当指令由至少一个处理器执行时使得至少一个处理器执行操作,包括:基于具有图像空间的图像生成图像金字塔,图像金字塔包括与第一分辨率的图像相对应的第一级和与不同于第一分辨率的第二分辨率的图像相对应的第二级;通过将第一级划分为第一多个图块并且将第二级划分为第二多个图块来平铺第一级和第二级;将第一多个图块和第二多个图块输入到机器学习对象检测模型中;接收对象检测数据作为机器学习对象检测模型的输出,对象检测数据包括分别关于第一多个图块和第二多个图块中的单个图块定义的多个边界框;以及通过将对象检测数据映射到图像的图像空间上来生成图像对象检测输出。2.根据前述权利要求中任一项所述的计算系统,其中,所述操作还包括:基于图像对象检测输出的至少一个边界框与第一多个图块或第二多个图块中的一个或多个的边界相交,识别所述至少一个边界框;以及从图像对象检测输出移除所述至少一个边界框。3.根据权利要求2所述的计算系统,其中,基于至少一个边界框跨越第一多个图块或第二多个图块中的一个或多个,使得所述至少一个边界框与第一多个图块或第二多个图块中的一个或多个的边界和与所述边界平行的相对边界相交,来识别所述至少一个边界框。4.根据权利要求2所述的计算系统,其中,基于至少一个边界框与第一多个图块或第二多个图块中的一个或多个的边界相交并且与图像金字塔的相应级的边缘相交,来识别所述至少一个边界框。5.根据权利要求2所述的计算系统,其中,从图像对象检测输出移除至少一个边界框包括移除与第一多个图块或第二多个图块的多个边界中的任何边界相交的每个边界框。6.根据前述权利要求中任一项所述的计算系统,还包括:初步机器学习对象检测模型,被配置为接收图像,并且响应于接收到图像,输出中间特征表示,并且其中,基于图像生成图像金字塔包括:将图像输入到初步机器学习对象检测模型中;接收中间特征表示作为初步机器学习对象检测模型的输出;以及基于中间特征表示生成图像金字塔的第一级和第二级。7.根据前述权利要求中任一项所述的计算系统,还包括:初步机器学习对象检测模型,被配置为接收多个初步图块,并且响应于接收到多个初步图块,输出分别与多个初步图块相对应的多个中间特征表示,并且其中,基于图像生成图像金字塔包括:将图像平铺成多个初步图块;将多个初步图块输入到初步机器学习对象检测模型中;接收分别与多个初步图块相对应的多个中间特征表示,作为初步机器学习对象检测模
型的输出;以及基于多个中间特征表示生成图像金字塔的第一级和第二级。8.根据权利要求7所述的计算系统,其中,多个初步图块与第一分辨率的第一初步级相对应,并且其中,基于图像生成图像金字塔包括在平铺第一级和第二级之前缩小第一初步级以生成第二分辨率的第二初步级。9.一种用于训练机器学习对象检测模型的方法,所述方法包括:对于多个训练图像中的每个训练图像:由一个或多个计算设备基于具有相应图像空间的相应训练图像来生成图像金字塔,图像金字塔包括与第一分辨率的相应训练图像相对应的第一级和与不同于第一分辨率的第二分辨率的相应训练图像相对应的第二级;由一个或多个计算设备通过将第一级划分为第一多个图块并且将第二级划分为第二多个图块来平铺第一级和第二级;由一个或多个计算设备将第一多个图块和第二多个图块输入到机器学习对象检测模型中;由一个或多个计算设备接收对象检测数据作为机器学习对象检测模型的输出,对象检测数据包括分别关于...

【专利技术属性】
技术研发人员:涂吉林王江陈惠中朱向欣戴声扬
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1