【技术实现步骤摘要】
【国外来华专利技术】用于训练机器学习视觉注意力模型的系统和方法
[0001]本公开大体上涉及机器学习视觉注意力模型的训练。更具体地,本公开涉及将三维视觉位置估计用作机器学习视觉注意力模型的训练信号。
技术介绍
[0002]高效且准确的机器学习视觉注意力估计在各种
中变得越来越重要。作为示例,通常需要增强现实装置来估计人的视觉注意力,以适当地生成对应对象。作为另一示例,自动驾驶技术受益于了解人(例如,驾驶员、行人等)的视觉注意力是否集中在额外实体(例如,停车标志、十字路口等)上,以更有效地减轻不良事件的风险。
技术实现思路
[0003]本公开的实施例的方面和优点将在以下描述中部分地阐述,或可以从描述中学习,或可以通过实践实施例学习。
[0004]本公开的另一示例方面涉及一种用于训练机器学习视觉注意力模型的计算机实施的方法。方法可以包括由包括一个或多个计算装置的计算系统获得图像数据和相关联地面真值视觉注意力标签,其中图像数据至少描绘人的头部和额外实体。方法可以包括由计算系统用机器学习视觉注意力模型的编码器部分处理图像数 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于训练机器学习视觉注意力模型的计算机实施的方法,所述方法包括:由包括一个或多个计算装置的计算系统获得图像数据和相关联的地面真值视觉注意力标签,其中所述图像数据至少描绘人的头部和额外实体;由所述计算系统用所述机器学习视觉注意力模型的编码器部分处理所述图像数据,以获得潜在头部编码和潜在实体编码;由所述计算系统用所述机器学习视觉注意力模型处理所述潜在头部编码和所述潜在实体编码,以获得指示所述人的视觉注意力是否集中在所述额外实体上的视觉注意力值;由所述计算系统用机器学习三维视觉位置模型处理所述潜在头部编码和所述潜在实体编码,以获得三维视觉位置估计,其中所述三维视觉位置估计包括所述人的所述视觉注意力的估计三维空间位置;由所述计算系统评估损失函数,所述损失函数评估所述三维视觉位置估计与从所述图像数据导出的伪视觉位置标签之间的差异以及所述视觉注意力值与所述地面真值视觉注意力标签之间的差异;以及由所述计算系统至少部分地基于所述损失函数来相应地调整所述机器学习视觉注意力模型和所述机器学习三维视觉位置模型的一个或多个参数。2.根据权利要求1所述的计算机实施的方法,其中:所述人的所述头部和所述额外实体分别由头部边界框和实体边界框定义在所述图像数据内;由所述计算系统获得所述图像数据进一步包括由所述计算系统至少部分地基于所述图像数据的多个图像数据特性而生成空间编码特征向量,其中所述空间编码特征向量包括二维空间编码和三维空间编码;以及所述空间编码特征向量与所述潜在空间头部编码和所述潜在空间实体编码一起被输入到所述机器学习视觉注意力模型,以获得所述视觉注意力值。3.根据权利要求2所述的计算机实施的方法,其中:所述二维空间编码描述所述多个图像数据特性中的一个或多个;以及所述多个图像数据特性包括:在所述头部边界框和所述实体边界框中的每一个的所述图像数据内的相应二维位置坐标;以及所述图像数据的高度值和宽度值。4.根据权利要求2至3中的任一项所述的计算机实施的方法,其中:所述多个图像数据特性包括:在所述头部边界框和所述实体边界框中的每一个的所述图像数据内的相应二维位置坐标;对应于所述图像数据的估计相机焦距,其中所述估计相机焦距至少部分地基于所述图像数据的高度值和宽度值;所述人的所述头部和所述实体中的每一个的相应深度估计,其中相应估计深度至少部分地基于所述估计相机焦距;以及所述三维空间编码描述所述人的所述头部和所述额外实体两者的伪三维相对定位。5.根据权利要求4所述的计算机实施的方法,其中,所述伪视觉位置标签至少部分地基
于所述三维空间编码。6.根据任一项前述权利要求所述的计算机实施的方法,其中,所述额外实体包括以下项的至少一部分:对象;人;方向;机器可读视觉编码;表面;或空间。7.根据任一项前述权利要求所述的计算机实施的方法,其中:所述额外实体包括第二人的头部;以及所述视觉注意力值指示所述人的所述视觉注意力是否集中在所述第二人的所述头部上以及所述第二人的视觉注意力是否集中在所述人的所述头部上。8.根据权利要求7所述的计算机实施的方法,其中,所述三维视觉位置估计包括所述人的所述视觉注意力的所述估计三维空间位置以及所述第二人的所述视觉注意力的估计三维空间位置。9.根据任一项前述权利要求所述的计算机实施的方法,其中,所述视觉注意力值是二进制值。10.根据任一项前述权利要求所述的计算机实施的方法,其中,所述机器学习视觉注意力模型或所述机器学习三维视觉位置模型中的至少一个包括一个或多个卷积神经网络。11.根据任一项前述权利要求所述的计算机实施的方法,其中:所述额外实体包括第二人的头部;以及所述方法进一步包括:由所述计算系统获得第二图像数据,所述第二图像数据至少描绘第三人的第三头部和第四人的第四头部;由所述计算系统用所述机器学习视觉注意力模型处理所述第二图像数据以获得第二视觉注意力值,其中所述第二视觉注意力值指示所述第三人的视觉注意力是否集中在所述第四人上以及所述第四人的视觉注意力是否集中在所述第三人...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。