以AVM与强化学习实现注意力驱动资源分配的方法和装置制造方法及图纸

技术编号：25186361 阅读：18 留言：0更新日期：2020-08-07 21:13

本申请公开了一种以AVM与强化学习实现注意力驱动资源分配的方法和装置，通过使用置信度分数来在自动驾驶中实现更好性能的同时，还可以节省计算能力的方法和装置，该方法包括以下步骤：步骤(a)、计算装置通过安装在对象车辆上的至少一个全景视图传感器获取所述对象车辆周边的至少一个环境图像；步骤(b)、所述计算装置指示卷积神经网络对所述环境图像进行至少一次卷积神经网络运算，从而生成所述环境图像相关的初始客体信息与初始置信度信息；以及步骤(c)、所述计算装置在强化学习代理程序的支持下，通过参考所述初始客体信息与所述初始置信度信息，生成所述环境图像相关的最终客体信息。

全部详细技术资料下载

【技术实现步骤摘要】
以AVM与强化学习实现注意力驱动资源分配的方法和装置
本申请涉及一种用于自动驾驶车辆的方法和装置，尤其涉及一种通过强化学习实现自动驾驶安全性的资源分配方法及装置。
技术介绍
自动驾驶技术自近年的研究以来，已达到无需驾驶者的干预就可自动驾驶车辆的水准，且已具备相当高的精度。然而，这样的自动驾驶技术还没有被商业化，而公众不使用自动驾驶技术的原因可能很多，但其原因之一就是自动驾驶操作需要太多的计算能力。为了降低自动驾驶所需要的计算能力的消耗，虽已做出许多努力，然而，降低消耗计算能力后，反而造成了自动驾驶性能下降的问题。如果自动驾驶性能下降，则会导致很多错误，从而威胁驾驶员和周围的人的生命安全。因此，我们需要降低计算能力的同时保持自动驾驶的性能。但事实上，该方法并没有受到太多的研究。
技术实现思路
本申请的目的是解决上述问题。本申请的目的是通过使用全景监控影像系统(AroundViewMonitor，AVM)和强化学习算法，从而为实现自动驾驶的安全性提供一种注意力驱动资源分配的方法。本申请的另一个目的是提供一种与检出客体的过程并列地生成置信度分数(ConfidenceScore)的方法，该置信度分数表示客体被检出来的可信度的参数。本申请的又一个目的是提供一种在不确定的区域上再次执行检出客体的方法，该方法使用置信度分数实现强化学习算法，从而可以进一步更准确的重新检出客体。为了达到本申请的上述目的与效果，下面将具体说明本申请的特征结构。本申请的一实施例提供一种既...

【技术保护点】
1.一种通过使用置信度分数来在自动驾驶中实现更好性能的同时，还可以节省计算能力的方法，其中，所述置信度分数代表检出客体的可信度，并与检出客体过程并列地产生，所述方法包括以下步骤：/n步骤(a)、计算装置通过安装在对象车辆上的至少一个全景视图传感器获取所述对象车辆周边的至少一个环境图像；/n步骤(b)、所述计算装置指示卷积神经网络对所述环境图像进行至少一次卷积神经网络运算，从而生成所述环境图像相关的初始客体信息与初始置信度信息；以及/n步骤(c)、所述计算装置在强化学习代理程序的支持下，通过参考所述初始客体信息与所述初始置信度信息，生成所述环境图像相关的最终客体信息。/n

【技术特征摘要】
20190131 US 62/799,321;20200110 US 16/739,7671.一种通过使用置信度分数来在自动驾驶中实现更好性能的同时，还可以节省计算能力的方法，其中，所述置信度分数代表检出客体的可信度，并与检出客体过程并列地产生，所述方法包括以下步骤：
步骤(a)、计算装置通过安装在对象车辆上的至少一个全景视图传感器获取所述对象车辆周边的至少一个环境图像；
步骤(b)、所述计算装置指示卷积神经网络对所述环境图像进行至少一次卷积神经网络运算，从而生成所述环境图像相关的初始客体信息与初始置信度信息；以及
步骤(c)、所述计算装置在强化学习代理程序的支持下，通过参考所述初始客体信息与所述初始置信度信息，生成所述环境图像相关的最终客体信息。

2.如权利要求1所述的方法，其中，步骤(c)包括以下步骤：
步骤(c1)、所述计算装置(i)指示所述强化学习代理程序通过参考所述初始置信度信息，在所述环境图像内的一个以上区域中，选择一个以上待应用重新检出过程的第一特定区域，并(ii)指示所述卷积神经网络对所述第一特定区域进行所述卷积神经网络运算，从而执行关于所述环境图像的所述重新检出过程，所述重新检出过程用以生成第一调整客体信息及第一调整置信度信息；
步骤(c2)、所述计算装置重复(i)指示所述强化学习代理程序通过参考先前生成的第K-1调整置信度信息，从所述环境图像中的所述区域中选择一个以上的待应用重新检出过程的第K特定区域，然后(ii)指示所述卷积神经网络对所述第K特定区域进行所述卷积神经网络运算，从而执行关于所述环境图像的所述重新检出过程，所述重新检出过程用于生成第K调整客体信息与第K调整置信度信息；以及
步骤(c3)、当所述重新检出过程被执行N次后生成第N调整客体信息与第N调整置信度信息时，所述计算装置通过参考所述第一调整客体信息至所述第N调整客体信息中的至少一部分以及所述初始客体信息，生成所述最终客体信息；
其中，所述K是2至N的整数，并且所述N是所述强化学习代理程序判断出来的所述重新检出过程的应执行次数。

3.如权利要求2所述的方法，其中，当所述第M重新检出概率在大于或等于阈值时，所述计算装置指示所述卷积神经网络在所述第M特定区域进行所述卷积神经网络运算，而所述强化学习代理程序则通过参考第M-1调整置信度信息来生成第M重新检出概率及一个以上第M特定区域，其中M为1至N的整数；
当M为1时，则所述强化学习代理程序参考所述初始置信度信息来生成第一重新检出概率以及所述第一特定区域。

4.如权利要求3所述的方法，其中，当所述强化学习代理程序接收到向其输入的第M-1调整置信度信息时，则(i)通过使用其自身的参数与所述第M-1调整置信度信息，生成所述第M重新检出概率及所述第M特定区域，(ii)当所述第M重新检出概率大于或等于阈值时，则从所述卷积神经网络获取所述第M调整置信度信息，且(iii)通过参照所述第M调整置信度信息及生成第M调整客体信息时所使用的第M计算费用、所述第M-1调整置信度信息以及所述第M调整置信度信息来计算第M原始奖励，其中，所述第M调整客体信息对应于所述第M调整置信度信息，并(iv)通过参考所述第M原始奖励来学习所述参数。

5.如权利要求4所述的方法，其中，所述强化学习代理程序使用以下公式生成的梯度来学习所述参数：

其中，O是第M原始向量，所述第M原始向量包括所述第M重新检出概率和所述第M特定区域的相关信息，O'是第M调整向量，所述第M调整向量是对所述第M原始向量应用噪音而生成的，R(O)和R(O')分别是与所述第M原始奖励及所述第M调整向量相对应的第M调整奖励，∈是一个常数，用于防止所述梯度的发散。

6.如权利要求2所述的方法，其中，在重复执行所述重新检出过程时，如果一个以上的第L特定区域被选上，则所述计算装置指示所述强化学习代理程序生成与所述第L特定区域相对应的第L倍数信息，并通过参考所述第L倍数信息对所述第L特定区域进行上采样运算，生成第L特定上采样图像，并指示所述卷积神经网络对所述第L特定上采样图像进行所述卷积神经网络运算，以便生成第L调整客体信息和第L调整置信度信息，其中，L为1至N的整数。

7.如权利要求1所述的方法，其中，在所述步骤(c)中，所述计算装置在生成包括多个环境图像作为其部分图像的集成图像的同时，通过使用每个所述初始环境图像相关的每个所述初始客体信息与每个所述初始置信度信息，来生成关于所述集成图像的集成最终客体信息，其中，通过执行以下步骤来生成所述集成最终客体信息：
步骤(c4)、所述计算装置(i)通过参考每个所述初始置信度信息，生成对所述集成图像的第一集成置信度信息，并(ii)指示所述强化学习代理程序通过参考所述第一集成置信度信息，在所述集成图像中的一个以上的区域中选择待应用所述重新检出过程的一个以上的第一特定区域，并且(iii)指示所述卷积神经网络通过对所述第一特定区域进行所述卷积神经网络运算，从而在所述集成图像上执行所述重新检出过程，所述重新检出过程用于生成每个所述第一调整客体信息及每个所述第一调整置信度信息；
步骤(c5)、所述计算装置重复地执行(i)至(iii)的过程，具体为：(i)通过参考每个第K-1调整置信度信息，生成关于所述集成图像的第K调整置信度信息，并(ii)指示所述强化学习代理程序通过参考所述第K调整集成置信度信息，在所述集成图像中的所述区域中，选择每个待应用所述重新检出过程的一个以上第K特定区域，并且(iii)指示所述卷积神经网络通过对所述第K特定区域进行所述卷积神经网络运算来执行关于所述集成图像的所述重新检出过程，其中，所述重新检出过程用于生成每个第K调整客体信息和每个第K调整置信度信息；以及
步骤(c6)、当执行了N次所述重新检出过程后生成每个第N调整客体信息及每个第N调整置信度信息时，所述计算装置通过参考所述第一调整客体信息至第N调整客体信息中的至少一部分以及所述初始客体信息，生成所述集成最终客体信息；
其中，所述K为2至N的整数，并且所述N是所述强化学习代理程序判断出来的所述重新检出过程的应执行次数。

8.如权利要求7所述的方法，其中，(i)通过与照相机相对应的多个全景视图传感器中的至少一个第一全景视图传感器来获取到至少一个第一环境图像时，所述计算装置指示第一卷积神经网络，对所述第一环境图像进行至少一次第一卷积神经网络运算，其中，所述第一卷积神经网络不仅对3通道图像进行了优化，其还具有3个以上输入节点，以及(ii)通过与深度传感器相对应的至少一个第二全景视图传感器来获取到至少一个第二环境图像时，所述计算装置指示第二卷积神经网络对所述第二环境图像进行至少一次第二卷积神经网络运算，其中，所述第二卷积神经网络不仅对深度图像进行了优化，其还具有一个以上输入节点。

9.如权利要求1所述的方法，在所述步骤(a)之前，还包括以下步骤：
步骤(a1)、当获取到训练图像时，则学习装置指示所述卷积神经网络中包含的至少一个卷积层通过对所述训练图像进行至少一次卷积运算来生成至少一个卷积特征图；
步骤(a2)、所述学习装置通过对所述卷积特征图进行至少一次锚定运算来在所述训练图像上生成预测注意区域，并在执行该过程的同时，指示包含在区域建议网络中的至少一个锚定层，按所述卷积特征图的每个像素，生成至少一个区域建议网络置信度分数，所述至少一个区域建议网络置信度分数代表每个所述预测注意区域与确实注意区域相同的至少一个概率，从而生成包括所述区域建议网络置信度分数的区域建议网络置信度图；
步骤(a3)当通过包含在所述卷积神经网络中的注意区域池化层获取到至少一个注意区域池化特征图时，则所述学习装置通过使用所述注意区域池化特征图，生成预测客体的检出结果，并在执行该过程的同时，指示所述卷积神经网络中包含的全连接层为每个所述预测注意区域生成每个卷积神经网络置信度分数，其中，所述至少一个注意区域池化特征图是通过利用所述卷积特征图及所述预测注意区域生成的，所述每个卷积神经网络置信度分数代表所述预测客体的检出结果中包含的至少一个预测卷积神经网络分类结果和至少一个预测卷积神经网络回归结果中的每一个与确实客体检出结果中包含的至少一个确实卷积神经网络分类结果和至少一个确实卷积神经网络回归结果中的每一个出现相同结果的至少一个概率；以及
步骤(a4)、通过参考所述区域建议网络置信度图、所述卷积神经网络置信度图、所述预测客体检出结果和所述确实客体检出结果，所述学习装置指示损失层生成至少一个区域建议网络损失和至少一个卷积神经网络损失，并通过利用所述区域建议网络损失和所述卷积神经网络损失来执行反向传播，以学习所述卷积神经网络和所述区域建议网络中包含的至少一部分参数。

10.如权利要求9所述的方法，其中，在所述步骤(a4)中，所述学习装置使用以下公式指示所述损失层生成所述区域建议网络损失：

其中，Nreg表示与通过执行锚定运算生成的所述卷积特征图的大小相对应的常数，Ncls表示与所述训练图像相对应的常数，ci表示在所述区域建议网络置信度分数中与所述卷积特征图的第i像素相对应的第i区域建议网络置信度分数，pi表示与所述第i像素相对应的第i预测区域建议网络分类结果，表示与所述第i像素相对应的第i确实区域建议网络分类结果，ti表示与所述第i像素相对应的的第i预测区域建议网络回归结果，并且表示与所述第i像素相对应的第i确实区域建议网络回归结果；
其中，所述第i确实区域建议网络分类结果和所述第i确实区域建议网络回归结果对应于所述确实客体检出结果。

11.如权利要求9所述的方法，其中，在所述步骤(a4)中，所述学习装置通过以下公式指示所述损失层生成所述卷积神经网络损失：

其中，Nreg和Ncls表示所述预测注意区域的数量，ci表示所述卷积神经网络置信度分数中与所述预测注意区域中选择的第i预测注意区域相对应的第i卷积神经网络置信度分数，pi表示与所述第i预测注意区域相对应的第i预测卷积神经网络分类结果，表示与所述第i像素相对应的第i确实卷积神经网络分类结果，ti表示与所述第i预测注意区域相对应的第i预测卷积神经网络回归结果，表示与所述第i像素相对应的第i确实卷积神经网络回归结果；
其中，所述第i预测卷积神经网络分类结果和所述第i预测卷积神经网络回归结果与所述预测检出客体结果相对应。

12.如权利要求9所述的方法，其中，在所述步骤(a3)之后，所述学习装置通过参考所述区域建议网络置信度图和所述卷积神经网络置信度图，指示置信度层生成集成置信度图，所述集成置信度图包括所述训练图像中的每个像素的每个集成置信度分数的信息。

13.如权利要求12所述的方法，其中，所述学习装置指示所述置信度层，执行以下过程：过程(i)、(i-1)从所述卷积神经网络获取所述预测注意区域的非最大抑制结果，所述非最大抑制结果是在生成所述预测客体检出结果的过程中生成的，并(i-2)通过对所述区域建议网络置信度图进行至少一个调整大小运算来生成调整大小的区域建议网络置信度图；以及过程(ii)、通过参考所述非最大抑制结果和所述调整大小的区域建议网络置信度图来生成所述集成置信度图。

14.如权利要求13所述的方法，其中，所述学习装置通过使用以下公式指示所述置信度层在所述集成置信度分数中生成与所述训练图像上的坐标(x，y)相对应的第X_Y集成置信度分数：

其中，c'xy表示所述第X_Y集成置信度分数，cxy表示与所述调整大小的区域建议网络置信度图上的所述坐标(x，y)相对应的第X_Y调整大小的区域建议网络置信度分数，表示在所述非最大抑制结果中确定并包括所述坐标(x，y)的第i预测注意区域的第i卷积神经网络置信度分数，所述第i卷积神经网络置信度分数表示为ri。

15.如权利要求1所述的方法，其中，所述步骤(b)包括以下步骤：
步骤(b1)、当获取到所述环境图像时，则所述计算装置指示所述卷积神经网络中包含的至少一个卷积层，对所述环境图像进行至少一次卷积运算来生成至少一个卷积特征图；
步骤(b2)、所述计算装置对所述卷积特征图进行至少一次锚定运算，以此在所述环境图像上生成预测注意区域，并在执行该过程的同时，指示区域建议网络中包括的至少一个锚定层，按所述卷积特征图的每个像素，生成至少一个区域建议网络置信度分数，所述至少一个区域建议网络置信度分数代表每个所述预测注意区域与确实注意区域相同的至少一个概率，从而生成包括所述区域建议网络置信度分数的区域建议网络置信度图；
步骤(b3)、当通过包含在所述卷积神经网络中的注意区域池化层，获取到至少一个注意区域池化特征图时，则所述计算装置通过使用所述注意区域池化特征图，生成预测客体检出结果，并在执行该过程的同时，指示所述卷积神经网络中包含的全连接层为每个所述预测注意区域生成每个卷积神经网络置信度分数，从而生成包括所述卷积神经网络置信度分数的卷积神经网络置信度图，其中，所述至少一个注意区域池化特征图是通过利用所述卷积特征图及所述预测注意区域生成的，所述每个卷积神经网络置信度分数代表所述预测客体的检出结果中包含的至少一个预测卷积神经网络分类结果和至少一个预测卷积神经网络回归结果中的每一个与确实客体检出结果中包含的至少一个确实卷积神经网络分类结果和至少一个确实卷积神经网络回归结果中的每一个出现相同结果的至少一个概率；以及
步骤(b4)、所述计算装置通过参考所述区域建议网络置信度图和所述卷积神经网络置信度图，指示与所述卷积神经网络交互作用的置信度层，生成集成置信度图；
其中，所述计算装置指示所述卷积神经网络输出所述初始置信度信息，所述初始置信度信息包括所述初始客体信息及所...

【专利技术属性】
技术研发人员：金桂贤，金镕重，金鹤京，南云铉，夫硕焄，成明哲，申東洙，吕东勋，柳宇宙，李明春，李炯树，张泰雄，郑景中，诸泓模，赵浩辰，
申请(专利权)人：斯特拉德视觉公司，
类型：发明
国别省市：韩国;KR

全部详细技术资料下载我是这个专利的主人