机器学习装置、机器学习方法以及推论装置制造方法及图纸

技术编号:38607332 阅读:25 留言:0更新日期:2023-08-26 23:38
提供一种机器学习装置、机器学习方法以及推论装置,能够高效地学习VQA任务的统计模型。机器学习装置包括处理电路。处理电路基于非VQA格式的样本,生成与VQA任务相关的VQA格式的学习样本。所述VQA格式的所述学习样本具有对象、与该对象相关的提问句以及针对该提问句的回答句的组合作为要素,所述非VQA格式的所述样本具有对象和与该对象相关联的标签的组合作为要素。处理电路基于所生成的所述VQA格式的所述学习样本训练所述VQA任务的统计模型。型。型。

【技术实现步骤摘要】
机器学习装置、机器学习方法以及推论装置
[0001]相关申请的交叉引用
[0002]本申请基于并要求于2022年2月10日提交的日本专利申请No.2022

019858的优先权,其全部内容通过引用并入本文。


[0003]这里描述的实施例总体上涉及机器学习装置、机器学习方法以及推论装置。

技术介绍

[0004]在机器学习的领域中,已知有输入图像和与该图像相关的文本形式的提问,输出针对该提问的文本形式的回答的任务。该任务被称为VQA(Visual Question Answering,视觉问答)。VQA任务的统计模型基于作为图像、提问以及回答的组合(元组:taple)而被提供的学习数据集进行训练。在图像和与该图像相关的提问的组合中考虑庞大的变化,因此在被称为VQAv2的VQA的学习数据集中,通过对几万个图像准备几十万个提问来确保变化。例如,当想要生成能够与固有的动植物、交通工具对应的统计模型时,需要准备与这些固有的对象物相关的图像和与这些图像相关的所有变化的提问和回答。如此,为了以多样的变化来准备由图像、提问以及回答的组合构成的学习数据集,需要庞大的成本。为了抑制成本,即使利用变化少的学习数据集训练统计模型,也无法生成精度良好的统计模型。期望能够以低成本生成高精度的统计模型的高效的学习。

技术实现思路

[0005]本专利技术要解决的课题是提供能够高效地学习VQA任务的统计模型的机器学习装置、机器学习方法以及推论装置。
附图说明
[0006]图1是表示本实施方式的机器学习装置的结构例的图。
[0007]图2是例示机器学习装置的机器学习处理的处理步骤的图。
[0008]图3是示意性地表示图2所例示的机器学习处理的图。
[0009]图4是表示统计模型的网络结构例的图。
[0010]图5是示意性地表示实施例1的机器学习处理的图。
[0011]图6是示意性地表示比较例的机器学习处理的图。
[0012]图7是表示通过实施例1的机器学习训练的统计模型的预测结果的一例的图。
[0013]图8是表示相对于实施例1,通过比较例的机器学习训练的统计模型的预测结果的一例的图。
[0014]图9是示意性地表示实施例2的机器学习处理的图。
[0015]图10是示意性地表示实施例3的机器学习处理的图。
[0016]图11是表示通过实施例3的机器学习训练的统计模型的预测结果的一例的图。
[0017]图12是表示相对于实施例3,通过比较例的机器学习训练的统计模型的预测结果的一例的图。
[0018]图13是示意性地表示实施例4的机器学习处理的图。
[0019]图14是表示对象的模态是视频的情况下的统计模型的网络结构例的图。
[0020]图15是表示对象的模态是声音的情况下的统计模型的网络结构例的图。
[0021]图16是表示对象的模态是三维点群的情况下的统计模型的网络结构例的图。
[0022]图17是表示本实施方式的推论装置的结构例的图。
[0023]图18是例示推论装置的推论处理的处理步骤的图。
具体实施方式
[0024]实施方式的机器学习装置具有转换部和学习部。转换部基于非VQA格式的样本,生成与VQA任务相关的VQA格式的学习样本。所述VQA格式的所述学习样本具有对象、与该对象相关的提问句以及针对该提问句的回答句的组合作为要素,所述非VQA格式的所述样本具有对象和与该对象相关联的标签的组合作为要素。学习部基于由所述转换部生成的所述VQA格式的所述学习样本来训练所述VQA任务的统计模型。
[0025]以下,参照附图说明本实施方式的机器学习装置、机器学习方法以及推论装置。
[0026]图1是表示本实施方式的机器学习装置1的结构例的图。如图1所示,机器学习装置1是具有处理电路11、存储装置12、输入设备13、通信设备14以及显示设备15的计算机。处理电路11、存储装置12、输入设备13、通信设备14以及显示设备15之间的数据通信经由总线进行。
[0027]处理电路11具有CPU(Central Processing Unit,中央处理器)等处理器和RAM(Random Access Memory,随机存取存储器)等存储器。处理电路11具有获取部111、转换部112、学习部113以及显示控制部114。处理电路11通过执行机器学习程序来实现上述各部111~114的各功能。机器学习程序存储于存储装置12等非易失性的计算机可读取的记录介质。机器学习程序既可以作为记述上述各部111~114的全部功能的单一的程序来安装,也可以作为分割为几个功能单位的多个模块来安装。另外,上述各部111~114也可以通过面向特定用途的集成电路(Application Specific Integrated Circuit,专用集成电路:ASIC)、FPGA(Field Programmable Gate Array,现场可编程逻辑门阵列)等集成电路来安装。在该情况下,既可以安装于单一的集成电路,也可以相互独立地安装于多个集成电路。
[0028]获取部111为了训练VQA任务的统计模型,获取与VQA任务相关的VQA格式的学习样本和非VQA格式的数据样本。VQA任务的学习样本具有作为用于训练VQA任务的统计模型的样本的格式。具体而言,VQA任务的学习样本具有对象、与该对象相关的提问句以及针对该提问的回答句的组合(元组:taple)作为其要素。对象是指处理目标的数据。作为对象,具体而言,使用图像或视频。需要说明的是,本实施方式的对象除了图像或视频以外,还可以使用通过声音、测量器输出和/或三维点群等各种模态得到的数据。VQA格式的学习样本是从保存有VQA格式的大量的学习样本的数据库获取的。非VQA格式是指与VQA格式不同的格式。非VQA格式的数据样本具有对象和与对象相关联的标签的组合作为其要素。标签是与对象的语义内容相关联的文本数据。非VQA格式的数据样本既可以是与VQA任务不同的任务(非VQA任务)的学习样本,也可以不是学习样本。非VQA格式的数据样本从保存有非VQA格式的
大量的数据样本的数据库中获取。
[0029]转换部112基于非VQA格式的数据样本,生成与VQA任务相关的VQA格式的学习样本。由转换部112生成的学习样本也用于VQA任务的统计模型的训练。以下,将由获取部111从VQA样本的数据库获取的VQA格式的学习样本称为VQA样本,将由转换部112生成的学习样本称为追加样本。另外,将由获取部111获取的非VQA格式的数据样本称为非VQA样本。另外,在不区分VQA样本、非VQA样本以及追加样本时,有时也简称为样本。
[0030]学习部113基于由转换部112生成的追加样本来训练VQA任务的统计模型。需要说明的是,学习部113也可以基于由转换部112生成的追加样本和由获取部111获取的VQA样本来训练VQA任务的统计模型。
[0031]显示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器学习装置,具备:转换部,基于非VQA即视觉问答格式的样本,生成与VQA任务相关的VQA格式的学习样本,所述VQA格式的所述学习样本具有对象、与该对象相关的提问句以及针对该提问句的回答句的组合作为要素,所述非VQA格式的所述样本具有对象和与该对象相关联的标签的组合作为要素;以及学习部,基于由所述转换部生成的所述VQA格式的所述学习样本训练所述VQA任务的统计模型。2.根据权利要求1所述的机器学习装置,其中,所述转换部基于所述标签生成所述提问句和所述回答句。3.根据权利要求2所述的机器学习装置,其中,所述样本是从用于与所述VQA任务不同的非VQA任务的学习样本得到的学习样本,作为所述标签,具有针对与所述非VQA任务相应的所述对象的正解标签,所述转换部基于所述正解标签生成所述提问句和所述回答句。4.根据权利要求3所述的机器学习装置,其中,所述非VQA任务是图像分类任务、物体检测任务、图像基础训练任务或者图像检索任务。5.根据权利要求1所述的机器学习装置,其中,所述学习部基于由所述转换部生成的所述学习样本和由所述获取部获取到的所述学习样本训练所述统计模型。6.根据权利要求1所述的机器学习装置,其中,所述样本作为所述标签具有针对所述对象的说明句,所述转换部基于所述说明句生成所述提问句和所述回答句。7.根据权利要求1所述的机器学习装置,其中,所述统计模型具有:将所述对象转换为第1特征量...

【专利技术属性】
技术研发人员:三岛直Q
申请(专利权)人:株式会社东芝
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1