当前位置: 首页 > 专利查询>ARM有限公司专利>正文

具有空间不确定性的对象检测网络制造技术

技术编号:34763912 阅读:22 留言:0更新日期:2022-08-31 19:08
提供了一种用于对象检测网络的硬件加速器和一种用于检测对象的方法。本公开提供了稳健的对象检测,该稳健的对象检测有利地增强了具有空间不确定性的传统确定性边界框预测,以用于各种计算机视觉应用,诸如例如自主驾驶、机器人手术等。机器人手术等。机器人手术等。

【技术实现步骤摘要】
具有空间不确定性的对象检测网络

技术介绍

[0001]本公开涉及计算机系统。更具体地,本公开涉及包括对象检测网络的计算机系统。
[0002]预测是许多分类和对象检测网络的基本元素,该分类和对象检测网络包括机器学习(ML)(诸如,例如,具有单个隐藏层的ANN(即浅层ANN))、深度神经网络(DNN)(诸如具有多个隐藏层的ANN(即深度ANN))、卷积神经网络(CNN)、递归神经网络(RNN)等,支持向量机(SVM)、决策树、贝叶斯网络等。然而,由于许多原因(诸如,例如,某个类的数据不足、不属于分布(OOD)的输入数据(即不属于任何类的数据)等),因此网络永远无法实现100%的预测准确度。在硬件和软件中实现的网络也容易受到硬错误和软错误的影响,这可能会降低预测准确度或者导致致命事件。通常,分类和对象检测网络仅基于输入数据以及底层训练方法和数据提供“最佳”预测。
[0003]对象检测网络(诸如CNN)通常在推断期间生成确定性标签和对象边界框。边界框是大体上围绕对象的矩形,并且由位置(即,x、y坐标对)、宽度和高度定义。这些确定性输出通常过于自信,从而产生对标签和边界框位置和尺寸的错误预测。可使用各种技术来推断标签不确定性。不幸的是,没有用于预测边界框空间不确定性的已知技术,这对于许多工业应用可能很重要,在这些工业应用中,由于遮挡、照明条件等原因可能无法完全检测到对象。
附图说明
[0004]图1描绘了根据本公开的实施方案的ANN。
[0005]图2A和图2B描绘了根据本公开的实施方案的CNN。
[0006]图3描绘了根据本公开的实施方案的对象检测网络。
[0007]图4A描绘了根据本公开的实施方案的具有边界框的图像。
[0008]图4B描绘了根据本公开的实施方案的具有网格和边界框的图像。
[0009]图5描绘了根据本公开的实施方案的系统的框图。
[0010]图6描绘了根据本公开的实施方案的表示与对象检测相关联的功能的流程图。
具体实施方式
[0011]现在将参考附图描述本公开的实施方案,其中类似的附图标号始终指代类似的部件。
[0012]本公开的实施方案有利地提供了稳健的对象检测,该稳健的对象检测增强了具有空间不确定性的传统确定性边界框预测,以用于各种计算机视觉应用,诸如例如自主驾驶、机器人手术等。
[0013]更具体地,本公开的实施方案有利地提供了一种对象检测网络,该对象检测网络包括主干特征提取(BFE)模块、特征检测(FD)模块和滤波和平均(FA)模块。
[0014]BFE模块被配置为接收包括至少一个对象的图像数据或图像数据集,以及基于该图像数据生成多个特征张量。每个特征张量具有不同的尺度。在一个实施方案中,每个特征
张量包括由高度、宽度和多个通道定义的特征图数据,并且特征张量的尺度被定义为高度
·
宽度。
[0015]FD模块被配置为接收来自BFE模块的特征张量,执行多次检测经过,以及生成与每个特征张量相关联的中间张量。每次检测经过包括:向特征张量应用随机丢包掩码;以及对于每个特征张量,确定尺度依赖边界框空间数据,该尺度依赖边界框空间数据包括用于对象的多个尺度依赖边界框的平均角坐标和该角坐标的协方差矩阵。每个中间张量包括用于相关联特征张量的每次检测经过的尺度依赖边界框空间数据。
[0016]在每次检测经过期间向特征张量应用随机丢包掩码有利地向数据引入统计随机性,这继而生成边界框空间不确定性。
[0017]在一个实施方案中,FD模块包括丢包掩码生成模块和多个检测器头。丢包掩码生成模块被配置为针对每次检测经过生成用于每个特征张量的随机丢包掩码。每个检测器头包括多个卷积模块和至少一个丢包掩码应用模块,并且被配置为接收不同的特征张量。在每次检测经过期间,每个检测器头基于特征张量和相应丢包掩码来确定对象的多个尺度依赖边界框,基于该多个尺度依赖边界框来确定尺度依赖边界框空间数据,以及确定客观评分和类别概率。
[0018]FA模块被配置为接收来自FD模块的中间张量,基于该中间张量确定尺度独立边界框空间数据,以及生成包括该尺度独立边界框空间数据的输出张量。尺度独立边界框空间数据包括用于对象的尺度独立边界框的平均角坐标和该角坐标的协方差矩阵。
[0019]ANN使用通过学习过程训练的互连节点网络来对输入数据或信号与输出数据或信号之间的关系进行建模。节点被布置到各个层(包括例如输入层、一个或多个隐藏层和输出层)中。输入层接收输入数据(诸如例如图像数据),并且输出层生成输出数据(诸如例如图像数据包含已知对象的概率)。每个隐藏层至少提供输入数据到输出数据的部分转变。DNN具有多个隐藏层,以便对输入数据与输出数据之间的复杂非线性关系进行建模。
[0020]在完全连接的前馈ANN中,每个节点连接到前一层中的所有节点,以及连接到后一层中的所有节点。例如,每个输入层节点连接到每个隐藏层节点,每个隐藏层节点连接到每个输入层节点和每个输出层节点,并且每个输出层节点连接到每个隐藏层节点。附加隐藏层类似地互连。每个连接具有权重值,并且每个节点具有激活函数(诸如例如线性函数、阶梯函数、S型函数、tanh函数、整流线性单元(ReLU)函数等),该激活函数基于节点的输入的加权总和来确定节点的输出。输入数据从输入层节点传播通过相应连接权重到隐藏层节点,并且然后传播通过相应连接权重到输出层节点。
[0021]更具体地,在每个输入节点处,将输入数据提供给该节点的激活函数,并且然后将激活函数的输出作为输入数据值提供给每个隐藏层节点。在每个隐藏层节点处,从每个输入层节点接收的输入数据值乘以相应连接权重,并且将所得乘积求和或累积到被提供给该节点的激活函数的激活值中。然后将激活函数的输出作为输入数据值提供给每个输出层节点。在每个输出层节点处,从每个隐藏层节点接收的输出数据值乘以相应连接权重,并且将所得乘积求和或累积到被提供给该节点的激活函数的激活值中。然后提供激活函数的输出作为输出数据。附加隐藏层可类似地被配置为处理数据。
[0022]多层感知器(MLP)是具有输入层、输出层和一个或多个隐藏层的ANN。MLP可用于自然语言处理应用,诸如机器翻译、语音辨识等。其他ANN包括递归神经网络(RNN)、长短时记
忆(LSTM)、包括编码器RNN和解码器RNN的序列到序列模型、浅层神经网络等。
[0023]CNN是可用于分类或辨识应用的MLP的变型,诸如图像辨识、语音辨识等。CNN具有输入层、输出层和多个隐藏层,该多个隐藏层包括卷积层、池化层、归一化层、完全连接层等。每个卷积层将滑动点积或互相关应用于输入体积,将激活函数应用于结果,并且然后将激活或输出体积提供给下一层。卷积层通常使用ReLU函数作为激活函数。在某些实施方案中,激活函数在单独的激活层(诸如例如ReLU层)中提供。池化层减小了从前一卷积层接收的输出体积的尺寸,并且可计算小数据集群(诸如例如2
×
2矩阵)的平均值或最大值。在某些实施方案中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于对象检测的硬件加速器,所述硬件加速器包括:主干特征提取(BFE)模块,所述BFE模块被配置为:接收包括至少一个对象的图像数据,以及基于所述图像数据生成多个特征张量,每个特征张量具有不同的尺度;特征检测(FD)模块,所述FD模块被配置为:接收来自所述BFE模块的所述特征张量,执行多次检测经过,每次检测经过包括:向所述特征张量应用随机丢包掩码,以及对于每个特征张量,确定尺度依赖边界框空间数据,所述尺度依赖边界框空间数据包括用于所述对象的多个尺度依赖边界框的平均角坐标和所述角坐标的协方差矩阵,以及生成与每个特征张量相关联的中间张量,每个中间张量包括用于所述相关联特征张量的每次检测经过的所述尺度依赖边界框空间数据;和滤波和平均(FA)模块,所述FA模块被配置为:接收来自所述FD模块的所述中间张量,基于所述中间张量来确定尺度独立边界框空间数据,所述尺度独立边界框空间数据包括用于所述对象的尺度独立边界框的平均角坐标和所述角坐标的协方差矩阵,以及生成包括所述尺度独立边界框空间数据的输出张量。2.根据权利要求1所述的硬件加速器,其中每个特征张量包括由高度、宽度和多个通道定义的特征图数据,并且所述特征张量的所述尺度被定义为高度
·
宽度。3.根据权利要求2所述的硬件加速器,其中所述FD模块包括:丢包掩码生成模块,所述丢包掩码生成模块被配置为针对每次检测经过生成用于每个特征张量的随机丢包掩码;和多个检测器头,每个检测器头包括多个卷积模块和至少一个丢包掩码应用模块,每个检测器头被配置为:接收不同特征张量,以及对于每次检测经过,基于所述特征张量和相应丢包掩码来确定用于所述对象的所述多个尺度依赖边界框,以及基于所述多个尺度依赖边界框来确定所述尺度依赖边界框空间数据。4.根据权利要求3所述的硬件加速器,其中每个检测器头被配置为确定客观评分和类别概率。5.根据权利要求3所述的硬件加速器,其中:所述FD模块包括第一检测器头和第二检测器头,所述第一检测器头被配置为接收具有第一尺度的第一特征张量,并且所述第二检测器头被配置为接收具有大于所述第一尺度的第二尺度的第二特征张量;所述第二检测器头包括上采样器模块和级联模块,所述上采样器模块被配置为接收来自所述第一检测器头的第一卷积模块的所述第一特征张量以及增加所述第一特征张量的所述尺度以匹配所述第二特征张量的所述尺度,并且所述级联模块被配置为级联所述放大第一特征张量和所述第二特征张量以及将所述级联的第二特征张量提供给所述第二检测
器头的第一卷积模块;并且所述级联的第二特征张量具有的通道总数等于所述放大第一特征张量的通道数量加上所述第二特征张量的通道数量。6.根据权利要求5所述的硬件加速器,其中:所述FD模块包括第三检测器头,所述第三检测器头被配置为接收第三特征张量,所述第三特征张量具有大于所述第二尺度的第三尺度;所述第三检测器头包括上采样器模块和级联模块,所述上采样器模块被配置为接收来自所述第二检测器头的第一卷积模块的所述第二特征张量以及增加所述第二特征张量的所述尺度以匹配所述第三特征张量的所述尺度,所述级联模块被配置为级联所述放大第二特征张量和所述第三特征张量以及将所述级联的第三特征张量提供给所述第三检测器头的第一卷积模块;并且所述级联的第三特征张量具有的通道总数等于所述放大第二特征张量的通道数量加上所述第三特征张量的通道数量。7.根据权利要求6所述的硬件加速器,其中:所述第一检测器头还包括耦合到所述第一卷积模块和所述丢包掩码生成模块的第一掩码模块、耦合到所述第一掩码模块的第二卷积模块、耦合到所述第二卷积模块和所述丢包掩码生成模块的第二掩码模块、以及耦合到所述第二掩码模块的第三卷积模块;所述第二检测器头还包括耦合到所述第一卷积模块和所述丢包掩码生成模块的第一掩码模块、耦合到所述第一掩码模块的第二卷积模块、耦合到所述第二卷积模块和所述丢包掩码生成模块的第二掩码模块、以及耦合到所述第二掩码模块的第三卷积模块;并且所述第三检测器头还包括耦合到所述第一卷积模块和所述丢包掩码生成模块的第一掩码模块、耦合到所述第一掩码模块的第二卷积模块、耦合到所述第二卷积模块和所述丢包掩码生成模块的第二掩码模块、以及耦合到所述第二掩码模块的第三卷积模块。8.根据权利要求1所述的硬件加速器,其中所述BFE模块包括卷积神经网络(CNN)模型。9.根据权利要求8所述的硬件加速器,其中所述CNN模型是残差网络(ResNet)模型。10.根据权利要求1所述的硬件加速器,其中所述丢包掩码生成模块包括Bernoulli掩码发生器,并且所述FA模块包括Monte Carlo模拟模型。11.一种用于检测对象的方法,所述方法包括:在主干特征提取(BFE)模块处:接收包括至少一个对象的图像数据;基于所述图像数据生成多个特征张量,每个特征张量具有不同的尺度;在特征检测(FD)模块处:接收来自所述BFE模块的所述特征张量;执行多次检测经过,每次检测经过包括:向所述特...

【专利技术属性】
技术研发人员:帕塔
申请(专利权)人:Arm有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1