数据生成装置、预测器学习装置、数据生成方法和学习方法制造方法及图纸

技术编号:29419509 阅读:23 留言:0更新日期:2021-07-23 23:14
本发明专利技术提供一种生成数据集合的数据生成装置,其包括:扰动生成部,其基于训练数据集合的各元素的输入和关于所述训练数据集合的信息这两者中的至少一者,来生成用于使所述元素变形的扰动集合;伪数据合成部,其根据所述训练数据集合和所述扰动集合,来生成与所述训练数据集合不同的新的伪数据集合;评价部,其计算所述训练数据集合和所述伪数据集合的分布间距离或关于其的推算量,以及从所述扰动集合得到的伪数据相对于训练数据的扰动的大小;和参数更新部,其更新所述扰动生成部生成所述扰动集合时所使用的参数,以使所述训练数据集合与所述伪数据集合的分布间距离相接近,使扰动的大小或期待值成为预定的目标值。

【技术实现步骤摘要】
【国外来华专利技术】数据生成装置、预测器学习装置、数据生成方法和学习方法本申请主张平成31年(2019年)1月10日申请的日本申请即特愿2019-2436的优先权,通过参照其内容,编入本申请。
本专利技术涉及生成机器学习中使用的数据的数据生成装置。
技术介绍
目前,应用了机器学习的系统、服务正在普及。例如,许多企业通过运用装置、设备、车辆等多种多样的物理的资产(asset),来进行经济活动。这些资产由于电气的或机械的原因而有时不正常或发生故障。因此,适当通过预测的或应对措施即零件及消耗品的更换、单元的更换及修缮等而在运用上不会产生大的故障是重要的。但是,由于资产的复杂化、以及熟练的保养员或修理工的短缺等,有时无法采取适当的措施。因此,正在研究一种系统,其通过基于过去的运转实绩及修理历史等信息来推荐适当的措施,补充保养员或操作员的作业,能够实现资产稳定地运转。在上述的应用了机器学习的系统及服务中,预测器是根据关于输入及输出的训练数据集合,基于学习其输入输出的关系性的被称为监督学习或半监督学习的框架来构建的。该预测器对于训练数据集合中未包含的数据要求高的预测性能(通用性能)。因此,目前提出了以神经网络为代表的预测器的各种模型。另一方面,作为另一种方法,有通过使将训练数据集合适当地变形或变换而得到的伪数据集合与原始的训练数据集合一起用于学习,以实现通用性能提高的方法。将这种伪数据生成称为数据扩充。例如,通常来说,如果为图像,则可以通过对训练数据集合进行旋转、扩大、缩小、移动等变形来扩充数据。然而,就上述的运转实绩及修理历史等在产业上处理的大多数据而言,如图像那种有效起作用的启发式的数据扩充方法不清楚的情况也有很多。因此,采用通过将根据参数的分布的标本和原始的训练数据集合混合来扩充数据的方法。例如,通过将遵循小的标准偏差的正态分布的标本的元素添加到原始数据的元素中,能够进行数据扩充。然而,在数据扩充后的训练数据集合的分布与原始的训练数据集合的分布大不相同的情况下,性能有时降低。作为本

技术介绍
,有以下的现有技术。在日本特开2006-343124号中,作为根据传感器响应来推算化学物质浓度的技术,公开了以下技术,即:“掌握化学数据的插值误差作为随机变量,推算插值误差的概率密度函数。通过反复多次生成遵循插值误差的推算概率密度函数的伪随机数矢量,并将伪插值误差矢量与从插值曲面上的矢量随机选出的矢量相加而生成新的数据矢量,生成反映了插值曲面及插值误差的特征的多个数据矢量即伪数据。使神经网络学习伪数据。将传感器应用于未知的受验试样,测定传感器响应。在学习完成后的神经网络中输入传感器响应,根据神经网络的输出来推算多个化学物质的未知浓度。”。
技术实现思路
专利技术要解决的问题但是,在日本特开2006-343124号中记载的技术中,对输入数据集合相对于输出数据集合的回归模型,进行通过核密度推算法来推算关于误差的分布,并将遵循所推算出的误差分布的标本的元素添加到推算量的操作,因此,与单纯地在输入数据集合的元素中添加从正态分布得到的集合的元素的方法相比,虽然实现了复杂的数据扩充,但是有时生成与原始的输入数据集合的分布大不相同的伪数据集合。特别是,在存在输入数据相对于输出数据成为一对一的部位(单峰的部位)和成为一对多的部位(多峰的部位)的情况下,在上述技术中,基于相同的分布进行变形,因此,在一对一的部位,在应施加小的变形的部位进行较大的变形,在一对多的部位,在应施加大的变形的部位,进行较小的变形,从而有可能成为与原始的分布大不相同的伪数据集合。另外,核密度推算法存在相对于训练数据需要选择多种核和核参数(如果为高斯核,则为带宽)等的应选择的要素多的这一问题。本专利技术是鉴于上述问题而开发的,其目的在于,提供一种生成与原始的分布没有大的差异且与训练数据不同的伪数据集合的方法。用于解决问题的技术方案本申请中公开的专利技术的代表的一例如下述。即,一种数据生成装置,其生成数据集合,其特征在于,包括:扰动生成部,其基于训练数据集合的各元素的输入和关于所述训练数据集合的信息这两者中的至少一者,来生成用于使所述元素变形的扰动集合;伪数据合成部,其根据所述训练数据集合和所述扰动集合,来生成与所述训练数据集合不同的新的伪数据集合;评价部,其计算所述训练数据集合和所述伪数据集合的分布间距离或关于其的推算量,以及从所述扰动集合得到的伪数据相对于训练数据的扰动的大小;和参数更新部,其更新所述扰动生成部生成所述扰动集合时所使用的参数,以使所述训练数据集合与所述伪数据集合的分布间距离相接近,使扰动的大小或期待值成为预定的目标值。专利技术效果根据本专利技术的一方式,能够生成可取得分布间距离和扰动大小的平衡的、在目标扰动量以上不会与训练数据的分布不同的伪数据。通过以下的实施例的说明来明确上述以外的问题、结构及效果。附图说明图1是表示本实施例的推荐系统的结构的图。图2是表示本实施例的数据生成及预测器学习部的操作的图。图3是表示构成本实施例的推荐系统的计算机的硬件结构的图。图4是表示本实施例的实绩数据的一例的图。图5是表示本实施例的修理作业数据的一例的图。图6是表示本实施例的训练数据集合的一例的图。图7是本实施例中的建模阶段的处理的流程图。图8是本实施例中的建模阶段的学习处理的流程图。图9是本实施例中的推荐处理的流程图。图10是表示本实施例的训练数据选择画面的图。图11是表示本实施例的伪数据确认画面的图。具体实施方式以下,适当参照附图,对用于实施本专利技术的代表的方式进行说明。<概述>本专利技术涉及基于数据的机器学习装置,特别是涉及基于已知的数据生成其他伪数据,并运用其学习保持高的通用性能的预测器的装置。在本实施例中,对在上述的资产不正常或成为故障的情况下,基于资产的运转实绩、修理历史等信息来推荐适当的措施的推荐系统中所使用的与预测器的学习相关的数据生成及预测器学习装置的概略进行说明。首先,参照图1对推荐系统整体的处理的流程进行说明。首先,说明从运转实绩、修理历史的收集到预测器学习的流程(称为建模阶段)。推荐系统11从资产13、且经由资产13从操作员16、并且经由修理工终端14从修理工17,收集运转实绩、不良情况状况、修理历史等,并且对将收集到的信息结合而得的实绩数据进行收集。在此,实绩数据是例如资产13的运转时间、来自安装于资产13的传感器的信息、操作员16输入的不良情况状况(例如,杂音的产生)、对资产13实施的修理作业的信息等。接着,管理者15经由管理终端12选择推荐系统11收集的实绩数据中的用于数据生成及预测器的学习的数据。推荐系统11根据该选择提取数据,并将提取的数据作为训练数据向数据生成及预测器学习装置10发送。数据生成及预测器学习装置10使用接收到的训练数据生成数据,制作学习完成后的模型。而且,数据生成及预测器学习装置10将学习后的模型(学习完成后的模型)送回推荐系统。接着,对修理内容的推荐本文档来自技高网
...

【技术保护点】
1.一种生成数据集合的数据生成装置,其特征在于,包括:/n扰动生成部,其基于训练数据集合的各元素的输入和关于所述训练数据集合的信息这两者中的至少一者,来生成用于使所述元素变形的扰动集合;/n伪数据合成部,其根据所述训练数据集合和所述扰动集合,来生成与所述训练数据集合不同的新的伪数据集合;/n评价部,其计算所述训练数据集合和所述伪数据集合的分布间距离或关于其的推算量,以及从所述扰动集合得到的伪数据相对于训练数据的扰动的大小;和/n参数更新部,其更新所述扰动生成部生成所述扰动集合时所使用的参数,以使所述训练数据集合与所述伪数据集合的分布间距离相接近,使扰动的大小或期待值成为预定的目标值。/n

【技术特征摘要】
【国外来华专利技术】20190110 JP 2019-0024361.一种生成数据集合的数据生成装置,其特征在于,包括:
扰动生成部,其基于训练数据集合的各元素的输入和关于所述训练数据集合的信息这两者中的至少一者,来生成用于使所述元素变形的扰动集合;
伪数据合成部,其根据所述训练数据集合和所述扰动集合,来生成与所述训练数据集合不同的新的伪数据集合;
评价部,其计算所述训练数据集合和所述伪数据集合的分布间距离或关于其的推算量,以及从所述扰动集合得到的伪数据相对于训练数据的扰动的大小;和
参数更新部,其更新所述扰动生成部生成所述扰动集合时所使用的参数,以使所述训练数据集合与所述伪数据集合的分布间距离相接近,使扰动的大小或期待值成为预定的目标值。


2.根据权利要求1所述的数据生成装置,其特征在于:
所述扰动生成部,除所述训练数据集合的各元素的输入或关于所述训练数据集合的信息之外,还基于所述训练数据集合的各元素的输出或关于该输出的信息,来生成所述扰动集合。


3.根据权利要求1所述的数据生成装置,其特征在于:
所述扰动生成部,除所述训练数据集合的各元素的输入或关于所述训练数据集合的信息之外,还基于与所述训练数据集合的输入相关的概率密度函数的推算量,来生成所述扰动集合。


4.根据权利要求1所述的数据生成装置,其特征在于:
所述扰动生成部,通过生成表示所述扰动集合的事后分布的参数分布的参量,来生成所述扰动集合。


5.根据权利要求1所述的数据生成装置,其特征在于:
生成可输入所述扰动生成部所使用的参数值或其范围的接口画面的显示数据。


6.根据权利要求1所述的数据生成装置,其特征在于:
生成表示了所述训练数据集合的各元素和所述伪数据集合的各元素的散点图的显示数据。


7.一种预测器学习装置,其特征在于,包括:
预测部,其根据所述训练数据集合中未包含的数据的输入,来预测输出;和
所述参数更新部,
所述预测部使用权利要求1~6中任一项所述的数据生成装置所生成的伪数据和所述训练数据,来进行学习。


8.根据权利要求7所述的预测器学习装置,其特征在于:
所述预测部由神经网络构成,
追加可以使输入所述训练数据时和输入所述伪数据时的内部状态之差,或者从所述训练数据生成的两个伪数据的内部状态之差变小的目...

【专利技术属性】
技术研发人员:但马庆行河野洋平
申请(专利权)人:株式会社日立制作所
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1