数据的自主修改的方法和系统技术方案

技术编号：26173010 阅读：18 留言：0更新日期：2020-10-31 13:53

本发明专利技术涉及一种数据的自主修改的方法和系统。提供一种用于使用生成式对抗网络来修改数据集中的模式的计算机实现的方法。所述方法包括提供数据样本对。每个所述对包括基础数据样本和修改数据样本。所述修改模式是通过对所述基础数据样本应用随机修改来确定的。所述方法包括使用对抗训练方法并且使用数据样本对作为输入来训练所述生成器以构建所述生成器的模型，其中，所述判别器接收数据集的数据集对作为输入，每个所述数据集对包括所述生成器的基于基础数据样本和所述对应的修改数据样本的预测输出，由此优化用于所述生成器和所述判别器的联合损失函数，以及在没有所述判别器的情况下，针对未知数据样本作为所述生成器的输入来预测输出数据集。

全部详细技术资料下载

【技术实现步骤摘要】
数据的自主修改的方法和系统
本专利技术一般地涉及自主更改数据模式，更具体地说，涉及用于使用生成式对抗网络来修改数据集中的模式的计算机实现的方法。本专利技术还涉及用于使用生成式对抗网络来修改数据集中的模式的对应的机器学习系统以及计算机程序产品。
技术介绍
采取特殊机器学习形式的人工智能(AI)被广泛引入企业部署中并且作为企业应用的一部分。当前，软件开发正在经历从线性编程到机器学习(ML)模型训练的转型过程。然而，事实证明，机器学习系统的训练并不轻松，它是一个高度复杂的过程，成败取决于训练数据的可用性。机器学习系统的预测结果仅与训练数据的结果一样好。但是，良好的训练数据通常需要良好的注释或标记(labeling)才能被机器学习系统正确解释以便开发成功的模型。因此，如今编程不再是该过程中最耗时的部分。随着机器学习的兴起，标记成为新型工具开发的重要组成部分。实际上，基于机器学习的过程所需的样本数量随输入的复杂性而伸缩。例如，LSVRC-2010ImageNet训练集包括被组织成1000个类别的130万个图像(Sutskever，Hinton和Krizhevsky，2012年)。在这种情况下，生成式对抗网络(GAN)作为一种捕获数据集固有分布的方式而开始获得关注(Goodfellow等人所著，2014年)，从而导致诸如数据增强之类的应用(Antoniou、Storkey和Edwards，2018年)，在这些应用中，可以使用合成生成的样本来训练其它AI模型。
技术实现思路
根据本专利技术的一方...

【技术保护点】
1.一种用于修改数据集中的模式的计算机实现的方法，所述方法使用包括生成器和判别器的生成式对抗网络，所述方法包括：/n提供数据样本对，每个所述对包括具有模式的基础数据样本和具有对应的修改模式的修改数据样本，其中，所述修改模式是通过对所述基础数据样本应用至少一个随机修改来确定的，/n使用对抗训练方法并且使用所述数据样本对作为输入来训练所述生成器以构建所述生成器的模型，其中，所述判别器接收数据集的数据集对作为输入，每个所述数据集对包括所述生成器的基于基础数据样本和所述对应的修改数据样本的预测输出，由此优化用于所述生成器和所述判别器的联合损失函数，以及/n在没有所述判别器的情况下，针对未知数据样本作为所述生成器的输入来预测输出数据集。/n

【技术特征摘要】
20190425 US 16/3944931.一种用于修改数据集中的模式的计算机实现的方法，所述方法使用包括生成器和判别器的生成式对抗网络，所述方法包括：
提供数据样本对，每个所述对包括具有模式的基础数据样本和具有对应的修改模式的修改数据样本，其中，所述修改模式是通过对所述基础数据样本应用至少一个随机修改来确定的，
使用对抗训练方法并且使用所述数据样本对作为输入来训练所述生成器以构建所述生成器的模型，其中，所述判别器接收数据集的数据集对作为输入，每个所述数据集对包括所述生成器的基于基础数据样本和所述对应的修改数据样本的预测输出，由此优化用于所述生成器和所述判别器的联合损失函数，以及
在没有所述判别器的情况下，针对未知数据样本作为所述生成器的输入来预测输出数据集。

2.根据权利要求1所述的方法，其中，所述联合损失函数是Wasserstein损失函数。

3.根据权利要求1所述的方法，还包括：使用所述对抗训练方法并且使用所述数据样本对作为输入来训练所述生成器网络的不同模型，其中，所述修改数据样本是根据不同的方面来修改的。

4.根据权利要求1所述的方法，其中，所述生成器是输出节点与输入节点一样多并且隐藏层节点少于输入节点数量的神经网络。

5.根据权利要求1所述的方法，其中，所述判别器是输入节点与所述生成器具有的输出节点一样多并且具有两个输出节点的神经网络。

6.根据权利要求1所述的方法，其中，所述判别器是PatchGAN。

7.根据权利要求1所述的方法，其中，所述联合损失函数是损失函数的加权组合。

8.根据权利要求1所述的方法，其中，所述损失函数与所述基础数据样本的内容损失有关，并且其中，所述内容损失是使用预先训练的神经网络的特征图来确定的。

9.根据权利要求1所述的方法，其中，与相关的数据样本相比，所述修改数据样本包括实线而不是虚线，包括黑白模式而不是等效的彩色模式，包括无文本模式而不是具有文本的模式，以及包括无线条图像而不是混合线条/文本图像。

10.根据权利要求1所述的方法，其中，提供数据样本对包括：
提供具有模式的图像集，
确定要被修改的至少一个模式，
使用随机数生成器来随机修改所述图像的所述至少一个模式，以及
将所述图像集中的一个图像和相关图像与定义包括所述基础数据样本和所述修改数据样本的所述对中的一个对的所述至少一个模式相关。

11.根据权利要求1所述的方法，其中，当比较当前迭代与先前迭代的结果时，如果所述联合损失函数的结果小于相对阈值，则所述生成式对抗网络的训练终止。

12.根据权利要求1所述的方法，其中，所述基础数据样本和修改数据样本是图像。

13.一种用于使用生成...

【专利技术属性】
技术研发人员：A·乔万尼尼，A·F·罗德里格斯，M·加布拉尼，A·克里斯塔利迪斯，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人