信息处理设备、信息处理方法以及计算机可读存储介质技术

技术编号:22570136 阅读:50 留言:0更新日期:2019-11-17 10:18
本发明专利技术提供了一种信息处理设备,该信息处理设备包括:采集装置,用于获取包括用于目标任务学习的数据和标签的第一训练数据和获取包括用于水印检测的数据和标签的第二训练数据;学习装置,用于基于第一训练数据和第二训练数据生成构成用于检测目标任务或水印的机器学习模型的模型参数。

Information processing equipment, information processing method and computer readable storage medium

The invention provides an information processing device, which includes: a collection device for acquiring the first training data including data and labels used for target task learning and a second training data including data and labels used for watermark detection; a learning device for generating target task detection based on the first training data and the second training data Or watermark machine learning model parameters.

【技术实现步骤摘要】
【国外来华专利技术】信息处理设备、信息处理方法以及计算机可读存储介质
本专利技术涉及一种信息处理设备、一种信息处理方法以及一种计算机可读存储介质。
技术介绍
近年来,CPU(中央处理单元)和GPU(图形处理单元)的速度和存储器的容量都在快速增长,机器学习技术也在快速发展。因此,使用几十万到几百万条学习数据的机器学习是可能的,并且精确的识别技术和分类技术也正在建立中。引用列表非专利文献1:YangqingJia,EvanShelhamer,JeffDonahue,SergeyKarayev,JonathanLong,RossGirshick,SergioGuadarrama,和TrevorDarrell.Caffe:Convolutionalarchitectureforfastfeatureembedding.InProceedingsofthe22ndACMinternationalconferenceonMultimedia(pp.675-678).ACM.
技术实现思路
技术问题执行基于大量学习数据的机器学习的计算成本很高。此外,准备大量学习数据和用于处理所准备的学习数据的预处理需要大量的精力,以便将数据用于机器学习。另一方面,通过机器学习生成的学习模型是数字数据,该数字数据容易复制。而且,通常难以从学习模型本身来评估用于生成学习模型的学习数据。因此,如果学习模型被第三方非法使用,那么对于生成该模型的人来说难以证明其非法性。收集到的学习数据以及基于该学习数据生成的学习模型是通过大量努力才获取到的,是有价值的,并且需要保护该学习模型不被非法使用。问题的解决方案根据本专利技术的一个方面,信息处理设备包括采集装置和学习装置,采集装置用来获取包括用于目标任务学习的数据和标签的第一训练数据以及用来获取包括用于水印检测的标签的第二训练数据,学习装置用来基于第一训练数据和第二训练数据生成构成用于检测目标任务或水印的机器学习模型的模型参数。专利技术的有益效果根据本专利技术,可以提供来源可被识别的学习模型。本专利技术的其它特征和优点将通过以下参照附图给出的说明变得显而易见。应当注意的是,在附图中,相同的附图标记被分配给相同或类似的组成元件。附图说明图1示出了根据实施例的信息处理设备的概要的示意图。图2示出了根据实施例的信息处理设备的功能框图。图3示出了根据实施例的由子集生成单元执行的子集生成处理示意图。图4示出了根据实施例的包括在原始学习数据和子集中的训练数据的条数的示意图。图5是根据实施例的由信息处理设备执行的信息处理的流程图。图6是根据实施例的由子集生成单元执行的子集生成处理的流程图。具体实施例实施例概要图1示出了根据本专利技术的实施例的信息处理设备1的概要的示意图。根据本专利技术的实施例的信息处理设备1是为实现目标任务而使用机器学习来生成学习模型的设备。信息处理设备1由诸如CPU和GPU的处理器、诸如DRAM(动态随机存取存储器)的工作存储器和诸如HDD(硬盘驱动器)或SSD(固态硬盘)的大容量存储设备构成。信息处理设备1也可以为单个设备,例如PC(个人电脑)、工作站、或服务器,或者也可以由诸如云服务器的多个设备构成。由信息处理设备1执行的机器学习可以是任何被称为“监督式学习”的机器学习。例如,由信息处理设备1执行的机器学习可以是任何具有多层结构的神经网络的机器学习,包括深度学习、SVM(支持向量机)的学习、Boosting学习等。在这种监督式学习中,用于鉴别目标任务的鉴别器的学习模型是通过学习包括用于目标任务学习的数据和标签的训练数据而生成的。待由信息处理设备1实现的目标任务涵盖识别任务的多个领域,包括图像识别和声音识别、还包括诸如围棋和日本象棋的游戏任务、机器翻译任务等。在本实施例中,假设信息处理设备1的主要目标任务是识别任务,以此作为例子进行描述。根据本专利技术的实施例,信息处理设备1执行两个阶段,即“学习阶段”和“检测阶段”。在“学习阶段”中,通过训练数据的学习生成用于实现目标任务的学习模型,在“检测阶段”中,使用所生成的学习模型来处理未知数据。例如,图1示出了信息处理设备1的目标任务为“狗或猫鉴别”的情况,“狗或猫鉴别”为确定图像数据是“猫”的图像还是“狗”的图像。为了实现狗或猫鉴别任务,根据本专利技术的实施例,信息处理设备1学习由第一数据D1构成的数据集,该第一数据D1由包括猫或狗作为对象的多个不同的图像、用于指出对象为猫的预先定义的标签L11、以及用于指出对象为狗的预先定义的标签L12组成。该数据集为“用于目标任务学习的数据集”,其由信息处理设备1学习以实现目标任务,并且,为了描述方便,以下称为“第一训练数据T1”。此外,除非特别区分标签L11和标签L12,标签L11和标签L12被称为“第一标签L1”。应当注意的是,对于信息处理设备1的目标任务为诸如“狗和猫检测”的两类确定任务的情况,不加以限制。例如,除了狗和猫检测之外,目标任务也可为用于执行“鸟类检测”的多类任务,或也可为用于确定对象为猫或其它类的任务。在两种情况中,对于不同的目标任务,分别准备不同条的学习数据及相应的标签。考虑到目标任务所需的精确度和目标任务本身的难度,第一数据D1的条数可通过实验来确定,但是作为示例,第一数据D1的条数被设置为几十万至几百万条。使用诸如已知的深度学习等机器学习技术,通过第一训练数据T1的学习,信息处理设备1生成模型参数P,该模型参数P用作鉴别图像是猫图像还是狗图像的狗或猫鉴别器。应当注意的是,当信息处理设备1使用深度学习技术生成模型参数P时,构成神经网络的每一层的一组权重被设置为模型参数P。信息处理设备1生成模型参数P,以便如果“猫图像”被输入则输出标签L11,如果“狗图像”被输入则输出标签L12。可以说,在由信息处理设备1生成的模型参数P中,比如说,“猫”或“狗”的抽象特征已经被获得。因此,模型参数P具有生成指示输入图像是猫图像或狗图像的第一标签L1的泛化能力,不仅当包括在第一训练数据T1中的图像被输入时,而且当不包括在第一训练数据T1中的猫图像或狗图像被输入时。这里,为了使信息处理设备1生成具有高性能的模型参数P,换句话说,已实现高泛化能力的模型参数P,选择适当的机器学习技术和准备大量条高质量的训练数据是很重要的。特别地,大量高质量的数据本身就像大数据一样有价值。此外,训练数据的条数越多,由信息处理设备1执行的机器学习所需要的计算资源就越多。因此,对于生成具有高性能的模型参数P来说,准备大数据所需的成本和处理大数据所需的计算成本是必需的。以这种方式,可以说,由信息处理设备1生成的模型参数P是以高成本创建的财产类型。鉴于此,根据本专利技术的实施例,信息处理设备1在生成模型参数P的过程中,通过机器学习将电子“水印”嵌入到模型参数P中。具体地,基于以上描述的第一训练数据、用于水印检测的多条第二数据D2以及包括与各条第二数据D2相关联的第二标签L2的第本文档来自技高网...

【技术保护点】
1.一种信息处理设备,包括:/n采集装置,用于获取包括用于目标任务学习的数据和标签的第一训练数据,和获取包括用于水印检测的数据和标签的第二训练数据;以及/n学习装置,用于基于所述第一训练数据和所述第二训练数据生成构成用于检测目标任务或水印的机器学习模型的模型参数。/n

【技术特征摘要】
【国外来华专利技术】20170331 JP 2017-0726101.一种信息处理设备,包括:
采集装置,用于获取包括用于目标任务学习的数据和标签的第一训练数据,和获取包括用于水印检测的数据和标签的第二训练数据;以及
学习装置,用于基于所述第一训练数据和所述第二训练数据生成构成用于检测目标任务或水印的机器学习模型的模型参数。


2.根据权利要求1所述的信息处理设备,其中,
其中,所述采集装置获取作为所述第二训练数据的数据,该数据与包括在所述第一训练数据中的多条数据的相似度小于包括在所述第一训练数据中的多条数据之间的相似度。


3.根据权利要求1或2所述的信息处理设备,其中,
学习装置将与模型参数的生成有关的包括在所述第二训练数据中的一条数据的贡献率,设置为大于包括在所述第一训练数据中的一条数据的贡献率。


4.根据权利要求1至3中任一项所述的信息处理设备,其中,
所述学习装置包括:
子集生成装置,用于生成由包括所述第一训练数据和所述第二训练数据的学习数据构成的多个子集,以及
学习执行装置,用于依次执行所述子集的机器学习,使用所述多个子集中的一个子集作为学习数据,
所述子集生成装置生成所述子集,使得包括在所述多个子集的每个子集中的第二训练数据的比率高于在全部学习数据中的第二训练数据的比率,并且
所述学习执行装置执行机器学习,使用前期机器学习中生成的...

【专利技术属性】
技术研发人员:小林达也
申请(专利权)人:凯迪迪爱通信技术有限公司
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1