用于生成用于模型重新训练的数据集的系统和方法技术方案

技术编号:32523892 阅读:19 留言:0更新日期:2022-03-05 11:15
提供了一种计算机系统并对其进行编程,以组装多个合成数据集并将那些合成数据集混合成合成数据集。然后执行评估,以确定现有模型应该与合成数据集相关联,还是应该使用合成数据集从现有模型训练新模型。据集从现有模型训练新模型。据集从现有模型训练新模型。

【技术实现步骤摘要】
【国外来华专利技术】用于生成用于模型重新训练的数据集的系统和方法
[0001](一个或多个)相关申请的(一个或多个)交叉引用本申请要求2019年5月14日提交的美国申请No.62/847,621和2020年5月13日提交的美国申请No.15/931,369的优先权,所述美国申请的全部内容特此通过引用并入。


[0002]本文描述的技术涉及处理和/或准备用于重新训练或训练模型的数据集。更特别地,本文描述的技术涉及用于机器学习以及更特别的深度学习的转移学习技术。

技术介绍

[0003]机器学习和深度学习可以向计算机赋予“学习”特定任务而无需为该任务对计算机明确地编程的能力。这可以通过基于初始数据开发模型(例如,数学模型)并且然后使用该模型评估新数据来实现。例如,可以开发模型在包含狗的图片和包含猫的图片之间自动识别和区分。
[0004]机器学习(以及特别是深度学习)中的一个问题是,开发这样的模型可能占用大量资源(例如,在时间、计算能力、数据集大小等方面)。并且对于每个新的任务或问题,可能需要开发新的模型来解决该特定的任务或问题。用于标识狗的模型可能对于标识马或猫没有那么有用。因此,的那个处理新类型的任务(例如,标识猫相对于标识狗)时,可能需要开发全新的模型。然而,生成(例如,训练)全新的模型可能是资源密集型的过程。
[0005]因此,将领会,在机器学习和深度学习中,不断寻求新的和改进的技术、系统和过程。这样的技术可以包括开发模型领域中新的和改进的技术。例如,通过准备或以其他方式组织可以用于开发新模型的数据集,新模型可以根据已经现有的模型训练。

技术实现思路

[0006]提供了一种计算机系统,并且该计算机系统被编程为组装多个合成数据集并将那些合成数据集混合成合成的数据集。然后,评估器确定是应当将现有模型与合成数据集相关联,还是应当使用合成数据集训练新模型。
[0007]提供本
技术实现思路
是为了引入将在下面的详细描述中进一步描述的概念的选择。本
技术实现思路
既不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围;相反,本
技术实现思路
旨在提供本文档中描述的主题的概述。因此,将领会,上述特征仅仅是示例,并且根据以下详细描述、附图和权利要求书,本文描述的主题的其他特征、方面和优点将变得清楚。
附图说明
[0008]通过结合附图参考示例非限制性说明性实施例的以下详细描述,将更好和更完全地理解这些和其他特征和优点,其中:图1是根据某些示例实施例的被配置为处置已经通过使用机器和/或深度学习技
术生成的多个不同模型的计算机系统的图解;图2是根据某些示例实施例的被配置为选择或生成至少一个数据集和/或模型的计算机系统的图解;图3是根据某些示例实施例的图2中所示的合成重新训练数据集生成器的流程图;图4是根据某些示例实施例的包括图3中所示的具有模型无关张量同质性评估器(MATHOR)模块的学习Oracle(Learned Oracle)的框图;图5示出了根据某些示例实施例可以使用MATHOR处理的数据集的示例;图6示出了根据某些示例实施例的在图4的学习MATHOR模块中提供的MATHOR过程;图7示出了可以作为图6的MATHOR过程的一部分计算的示例密度估计曲线;图8图示了在图6中所示的MATHOR过程期间被执行的样本级相似性检查;图9示图示了根据某些示例实施例的图4的用于数据集选择模块的学习Oracle;图10A是根据某些示例实施例的图2的模型评估器的框图;图10B是根据某些示例实施例可以如何采用图2的系统的示例实现的框图;和图11示出了可以在一些实施例中用于实现本文描述的特征的示例计算设备。
具体实施方式
[0009]在以下描述中,出于解释而非限制的目的,阐述了诸如特定节点、功能实体、技术、协议等之类的具体细节,以便提供对所述技术的理解。对于本领域技术人员而言将清楚的是,除了下面描述的具体细节之外,还可以实践其他实施例。在其他实例中,对公知的方法、设备、技术等的详细描述被省略,以免用不必要的细节模糊描述。
[0010]在本具体实施方式中使用章节仅仅是为了引导读者以便了解每个章节的一般主题;如下文将看到的,许多特征的描述跨越多个章节,并且标题不应被解读为影响任何章节中包括的描述的含义。
[0011]概述提供了一种计算机系统,并且该计算机系统被编程为从多个帧组装或以其他方式生成数据集,并为组装或以其他方式生成的数据集选择(或生成)模型。该系统使用(例如,由用户或其他处理)标记的帧作为输入来生成不同的合成数据集,然后使用神经网络对用户定义的重新训练问题进行适配来混合所述不同的合成数据集。在某些示例中,该系统允许将包含在第一模型中的“知识”转移到生成的新的第二模型。在某些示例中,知识被表示为数据集(例如,其可以是从多个不同的合成数据集合成的最优生成/选择的数据集)。第二模型可以用于解决与第一模型已经解决的问题不同(但潜在相关)的问题。例如,用于检测图像中的狗的模型(第一模型)可以用于生成用于检测猫的新模型(第二模型)。
[0012]图1示出了通过使用不同模型处理数据的计算机系统的示例(并且因此可以用于处理不同的任务)。图2是模型重新训练系统的框图。图3图示了作为图2的重新训练系统的一部分的合成重新训练数据集生成器。除了其他模块之外,合成重新训练数据集生成器尤其包括模型无关张量同质性评估器(MATHOR)模块。图4

9图示了在模块中实现的MATHOR过程的不同方面,并且用于确定两个数据集之间的相似性。图10A是图2中所示的模型评估器的框图。图10B示出了本文讨论的技术的示例实现。图11示出了可以用于实现本文描述的特征的计算设备的示例。
[0013]在本文档的许多地方,描述了软件执行的软件模块、引擎、生成器、评估器、提取器、过程和动作。这样做是为了便于描述;应当理解,无论何时在本文档中描述软件执行任何动作,该动作实际上都是由底层硬件元件(诸如处理器和存储器设备)根据包括软件的指令来执行的。关于此的另外细节除了其他地方之外尤其在下面图11的描述中提供。
[0014]图1的描述图1是根据某些示例实施例的计算机系统100的框图,该计算机系统100被配置为处理已经使用机器和/或深度学习生成的多个不同模型。
[0015]将领会,深度学习可以被视为机器学习的子领域。如本文使用的,并且除非另有指示,否则本文讨论的与“机器学习”相关的方面也可以应用于“深度学习”,并且反之亦然。
[0016]计算机系统100存储机器学习模型,该机器学习模型包括模型104和110,用于处理(例如分类)包含在数据库102(或其他数据存储介质)中的数据。计算机系统100的示例包括结合图11描述的计算设备1100。在某些示例中,计算机系统100由计算设备1100的多个不同实例组成。在某些示例中,计算机系统100可以是包括许多不同节点(例如,每个节点都是计算设备1100的实例)的基于云的计算机系统。在某些示例中,由计算机系统100处理的每个模型在其自己的虚拟环境(例如,虚本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机系统,包括:非暂时性计算机可读存储器,被配置为存储:参考模型;和与参考模型相关联的参考数据集;包括至少一个硬件处理器的处理系统,所述处理系统被配置为:生成从标记的检测帧导出的多个合成数据集;针对所述多个合成数据集的每个合成数据集,为来自所述每个合成数据集的多个特征生成多个特征度量,其中所述特征度量是基于参考数据集生成的;使用第一神经网络,基于所确定的多个特征度量,生成所述多个合成数据集的每一个相对于参考数据集的数据集相似性评分,其中数据集相似性评分中的每一个指示给定合成数据集与参考数据集有多相似;通过使用对应的合成数据集训练参考模型的神经网络架构,为所述多个合成数据集的每一个生成训练相似性评分;以及通过基于训练相似性评分和数据集相似性评分将来自所述多个合成数据集的数据组合来生成合成数据集。2.根据权利要求1所述的系统,其中处理系统进一步被配置为:从所述多个合成数据集的每一个选择具有大于阈值量的可分离性的特征,其中基于所选择的那些特征来生成所述多个合成数据集的每一个的所述多个特征度量。3.根据权利要求1所述的系统,其中处理系统进一步被配置为:在所述多个合成数据集的每一个和参考数据集之间执行特征级相似性处理,其中,基于所执行的特征级相似性处理,生成所述多个合成数据集的每一个的多个特征度量。4.根据权利要求3所述的系统,其中处理系统进一步被配置为:针对所述多个合成数据集的每一个的每个特征,计算关于参考数据集的密度估计曲线,其中所述多个合成数据集的每一个的所述多个特征度量是针对所述多个合成数据集中的特征的所计算的密度估计曲线生成的。5.根据权利要求4所述的系统,其中处理系统进一步被配置为:基于对应的所计算的密度估计曲线,为所述多个合成数据集的每一个的每个特征计算几何相似性。6.根据权利要求1所述的系统,其中处理系统进一步被配置为:执行包括同质性检查和异质性检查的样本级相似性检查,同质性检查测量所述多个合成数据集之一和参考数据集之间的相同类有多相似,异质性检查测量相同合成数据集内的不同类有多不相似,其中所述多个合成数据集的每一个的所述多个特征度量是针对所述多个合成数据集中的特征的所计算的密度估计曲线生成的。7.根据权利要求1所述的系统,其中,处理系统进一步被配置为:执行模型无关张量同质性评估器过程,以计算所述多个特征度量。8. 根据权利要求1所述的系统,其中处理系统进一步被配置为:
对照参考模型测试合成数据集的性能;和基于合成数据集的测试性能在阈值量内的确定,存储合成数据集和参考模型之间的关联。9. 根据权利要求8所述的系统,其中处理系统进一步被配置为:基于合成数据集的测试性能在阈值量外部的确定,通过使用合成数据集训练新模型;和存储合成数据集和新模型之间的关联。10.一种在计算机系统上实现的方法,该方法包括:将参考模型和与参考模型相关联的参考数据集存储到非暂时性存储介质;生成从标记的检测帧导出的多个合成数据集;针对所述多个合成数据集的每个合成数据集,为来自合成数据集的多个特征生成多个特征度量,其中所述特征度量是基于与参考数据集的比较而生成的;使用第一神经网络,基于所确定的多个特征度量,生成所述多个合成数据集的每一个相对于参考数据集的数据集相似性评分,其中数据集相似性评分中的每一个...

【专利技术属性】
技术研发人员:A
申请(专利权)人:纳斯达克公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1