训练装置、识别装置、训练方法、识别方法和程序制造方法及图纸

技术编号：23632369 阅读：32 留言：0更新日期：2020-04-01 00:44

提供了能够准确地识别与深度信息相关联的图像中表示的对象是什么的训练装置、识别装置、训练方法、识别方法和程序。对象数据获取部分(32)获取表示对象的三维数据。训练数据生成部分(34)基于三维数据生成多个训练数据，多个训练数据的每个表示对象的相互不同的部分。训练部分(36)将生成的训练数据用作对象的训练数据来训练机器学习模型(30)。

Training device, identification device, training method, identification method and procedure

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】训练装置、识别装置、训练方法、识别方法和程序
本专利技术涉及训练装置、识别装置、训练方法、识别方法和程序。
技术介绍
存在一种已知的技术，其通过使用训练模型(诸如三维卷积神经网络)在诸如体素数据的三维数据上执行识别处理，来识别三维数据中表示的对象是什么。
技术实现思路
[技术问题]例如，可以想到当将基于与深度信息相关联的图像生成的三维数据输入到上述训练模型中时，基于输出识别图像中表示的对象是什么。然而，与深度信息相关联的图像中未表示的部分不在基于图像生成的三维数据中表示。因此，以这种方式生成的三维数据不表示对象的完整三维形状。因此，在将表示对象的完整三维形状的三维数据用作训练数据训练了用于识别的训练模型的情况下，准确地识别与深度信息相关联的图像中表示的对象是什么偶尔会导致失败。本专利技术是针对上述问题做出的。本专利技术的目的之一是提供训练装置、识别装置、训练方法、识别方法和程序，其能够准确地识别与深度信息相关联的图像中表示的对象是什么。[问题的解决方案]为了解决上述问题，根据本专利技术的训练装置是一种用于训练机器学习模型的训练装置，机器学习模型用于识别与深度信息相关联的图像中表示的对象是什么的处理，并且训练装置包括：三维数据获取部分，其被配置为获取表示对象的三维数据；训练数据生成部分，其被配置为基于三维数据生成多个训练数据，多个训练数据的每个表示对象的相互不同的部分；以及训练部分，其被配置为将生成的训练数据用作对象的训练数据来训练机器学习模型。>在本专利技术的一个方面，训练数据生成部分被配置为为其中布置对象的虚拟空间中的多个相互不同的位置中的每一个，生成表示对象的部分的训练数据，所述部分从位置的对应一个处可见。此外，在本专利技术的一个方面，训练装置被配置为训练机器学习模型，其中，将基于与深度信息相关联的图像生成的三维数据输入，作为识别目标数据；训练数据生成部分被配置为生成包括三维数据的训练数据；并且训练部分被配置为将生成的三维数据用作对象的训练数据来训练机器学习模型。可选地，训练装置被配置为训练机器学习模型，其中，将与深度信息相关联的图像输入，作为识别目标数据；训练数据生成部分被配置为生成包括与深度信息相关联的图像的训练数据；并且训练部分被配置为将与深度信息相关联的生成图像用作对象的训练数据来训练机器学习模型。此外，根据本专利技术的识别装置是一种识别装置，其用于执行识别与深度信息相关联的图像中表示的对象是什么的处理，并且识别装置包括：训练模型，其已经将基于表示对象的三维数据生成的训练数据学习为对象的训练数据，训练数据的每个表示对象的相互不同的部分；以及识别部分，其被配置为基于将与图像相对应的识别目标数据输入训练模型时的输出，来识别与深度信息相关联的图像中表示的对象是什么。此外，根据本专利技术的训练方法是一种用于训练机器学习模型的训练方法，机器学习模型用于识别与深度信息相关联的图像中表示的对象是什么的处理，并且训练方法包括：获取表示对象的三维数据的步骤；基于三维数据生成多个训练数据的步骤，多个训练数据的每个表示对象的相互不同的部分；以及将生成的训练数据用作对象的训练数据来训练机器学习模型的步骤。此外，根据本专利技术的识别方法是一种识别方法，其用于执行识别与深度信息相关联的图像中表示的对象是什么的处理，并且识别方法包括：将与图像相对应的识别目标数据输入到训练模型的步骤，训练模型已经将基于表示对象的三维数据生成的训练数据学习为对象的训练数据，训练数据的每个表示对象的相互不同的部分；以及基于将识别目标数据输入训练模型时的输出，来识别与深度信息相关联的图像中表示的对象是什么的步骤。此外，根据本专利技术的程序是一种用于训练机器学习模型的程序，机器学习模型用于识别与深度信息相关联的图像中表示的对象是什么的处理，并且程序使计算机执行：获取表示对象的三维数据的步骤；基于三维数据生成多个训练数据的步骤，多个训练数据的每个表示对象的相互不同的部分；以及将生成的训练数据用作对象的训练数据来训练机器学习模型的步骤。此外，根据本专利技术的另一程序是一种程序，其用于执行识别与深度信息相关联的图像中表示的对象是什么的处理，并且程序使计算机执行：将与图像相对应的识别目标数据输入到训练模型的步骤，训练模型已经将基于表示对象的三维数据生成的训练数据学习为对象的训练数据，训练数据的每个表示对象的相互不同的部分；以及基于将识别目标数据输入训练模型时的输出，来识别与深度信息相关联的图像中表示的对象是什么的步骤。附图说明图1是根据本专利技术一个实施例的信息处理装置的配置图。图2是示出如何在虚拟空间中布置要由机器学习模型学习的对象的示例的图。图3A是示出第一部分的示例的图。图3B是示出第二部分的示例的图。图3C是示出第三部分的示例的图。图4A是示出第一二维图像的示例的图。图4B是示出第二二维图像的示例的图。图4C是示出第三二维图像的示例的图。图5是示出根据本专利技术一个实施例的信息处理装置中实现的功能的示例的功能框图。图6是示出根据本专利技术一个实施例的信息处理装置执行的训练处理的流程的示例的流程图。图7是示出根据本专利技术一个实施例的信息处理装置执行的识别处理的流程的示例的流程图。具体实施方式以下，将基于附图详细说明本专利技术的一个实施例。图1是根据本专利技术一个实施例的信息处理装置10的配置图。根据本实施例的信息处理装置10是诸如游戏机或个人计算机的计算机。如图1所示，例如，根据本实施例的信息处理装置10包括处理器12、存储部分14、操作部分16和显示部分18。处理器12例如是根据安装在信息处理装置10中的程序操作的诸如中央处理单元(CPU)的程序控制设备。存储部分14是存储元件，诸如只读存储器(ROM)或随机存取存储器(RAM)，或者是硬盘驱动器等。存储部分14存储将由处理器12执行的程序等。操作部分16是诸如键盘、鼠标、游戏机的控制器的用户界面。操作部分16接收来自用户的操作输入并将指示操作输入什么的信号输出到处理器12。显示部分18是诸如液晶显示器的显示设备，并且根据来自处理器12的指令显示各种类型的图像。应当注意的是，信息处理装置10可以包括诸如网卡的通信接口、用于读取诸如数字多功能光盘(DVD-ROM)或蓝光(注册商标)盘的光盘的光盘驱动器、以及通用串行总线(USB)端口等。根据本实施例的信息处理装置10执行识别在与深度信息相关联的图像中表示的对象是什么的处理。这里，作为识别目标的上述图像可以是与深度图像相关联的捕获图像。捕获图像由立体相机、带有红外测距传感器的相机等捕获。此外，例如，可以基于通过从多个方向捕获被摄体而获得的捕获图像生成与捕获所述捕获图像时相机的位置、定向和视角相对应的深度信息。此外，在本实施例中，使用诸如二维卷积神经网络(二维CNN)或三维卷积神经网络(三维CNN)的机器学习模型来识别在上述图像中表本文档来自技高网...

【技术保护点】
1.一种用于训练机器学习模型的训练装置，所述机器学习模型用于识别与深度信息相关联的图像中表示的对象是什么的处理，所述训练装置包括：/n三维数据获取部分，其被配置为获取表示对象的三维数据；/n训练数据生成部分，其被配置为基于所述三维数据生成多个训练数据，所述多个训练数据的每个表示所述对象的相互不同的部分；以及/n训练部分，其被配置为将生成的训练数据用作所述对象的所述训练数据来训练所述机器学习模型。/n

【技术特征摘要】
【国外来华专利技术】1.一种用于训练机器学习模型的训练装置，所述机器学习模型用于识别与深度信息相关联的图像中表示的对象是什么的处理，所述训练装置包括：
三维数据获取部分，其被配置为获取表示对象的三维数据；
训练数据生成部分，其被配置为基于所述三维数据生成多个训练数据，所述多个训练数据的每个表示所述对象的相互不同的部分；以及
训练部分，其被配置为将生成的训练数据用作所述对象的所述训练数据来训练所述机器学习模型。

2.根据权利要求1所述的训练装置，其中，
所述训练数据生成部分被配置为：为其中布置所述对象的虚拟空间中的多个相互不同的位置中的每一个，生成表示所述对象的部分的训练数据，所述部分从所述位置的对应一个处可见。

3.根据权利要求1或2所述的训练装置，其中，
所述训练装置被配置为训练所述机器学习模型，其中，将基于与深度信息相关联的图像生成的三维数据输入，作为识别目标数据；
所述训练数据生成部分被配置为生成包括三维数据的所述训练数据；并且
所述训练部分被配置为将所述生成的三维数据用作所述对象的所述训练数据来训练所述机器学习模型。

4.根据权利要求1或2所述的训练装置，其中，
所述训练装置被配置为训练所述机器学习模型，其中，将与深度信息相关联的图像输入，作为识别目标数据；
所述训练数据生成部分被配置为生成包括与深度信息相关联的图像的所述训练数据；并且
所述训练部分被配置为将与所述深度信息相关联的所述生成图像用作所述对象的所述训练数据来训练所述机器学习模型。

5.一种识别装置，其用于执行识别与深度信息相关联的图像中表示的对象是什么的处理，所述识别装置包括：
训练模型，其已经将基于表示对象的三维数据生成的训练数据学习为所述对象的所述训练数据，所述训练数据的每个表示所述对象的相互不同的部分；以及
识别部分，其被配置为基于将与所述图像相对应的识别目标数据输入所述训练...

【专利技术属性】
技术研发人员：堀川勉，小野大地，
申请(专利权)人：索尼互动娱乐股份有限公司，
类型：发明
国别省市：日本;JP

全部详细技术资料下载我是这个专利的主人