用于生成用于模型重新训练的数据集的系统和方法技术方案

技术编号：32523892 阅读：41 留言：0更新日期：2022-03-05 11:15

提供了一种计算机系统并对其进行编程，以组装多个合成数据集并将那些合成数据集混合成合成数据集。然后执行评估，以确定现有模型应该与合成数据集相关联，还是应该使用合成数据集从现有模型训练新模型。据集从现有模型训练新模型。据集从现有模型训练新模型。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于生成用于模型重新训练的数据集的系统和方法
[0001]（一个或多个）相关申请的（一个或多个）交叉引用本申请要求2019年5月14日提交的美国申请No.62/847，621和2020年5月13日提交的美国申请No.15/931，369的优先权，所述美国申请的全部内容特此通过引用并入。

[0002]本文描述的技术涉及处理和/或准备用于重新训练或训练模型的数据集。更特别地，本文描述的技术涉及用于机器学习以及更特别的深度学习的转移学习技术。

技术介绍

[0003]机器学习和深度学习可以向计算机赋予“学习”特定任务而无需为该任务对计算机明确地编程的能力。这可以通过基于初始数据开发模型（例如，数学模型）并且然后使用该模型评估新数据来实现。例如，可以开发模型在包含狗的图片和包含猫的图片之间自动识别和区分。
[0004]机器学习（以及特别是深度学习）中的一个问题是，开发这样的模型可能占用大量资源（例如，在时间、计算能力、数据集大小等方面）。并且对于每个新的任务或问题，可能需要开发新的模型来解决该特定的任务或问题。用于标识...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机系统，包括：非暂时性计算机可读存储器，被配置为存储：参考模型；和与参考模型相关联的参考数据集；包括至少一个硬件处理器的处理系统，所述处理系统被配置为：生成从标记的检测帧导出的多个合成数据集；针对所述多个合成数据集的每个合成数据集，为来自所述每个合成数据集的多个特征生成多个特征度量，其中所述特征度量是基于参考数据集生成的；使用第一神经网络，基于所确定的多个特征度量，生成所述多个合成数据集的每一个相对于参考数据集的数据集相似性评分，其中数据集相似性评分中的每一个指示给定合成数据集与参考数据集有多相似；通过使用对应的合成数据集训练参考模型的神经网络架构，为所述多个合成数据集的每一个生成训练相似性评分；以及通过基于训练相似性评分和数据集相似性评分将来自所述多个合成数据集的数据组合来生成合成数据集。2.根据权利要求1所述的系统，其中处理系统进一步被配置为：从所述多个合成数据集的每一个选择具有大于阈值量的可分离性的特征，其中基于所选择的那些特征来生成所述多个合成数据集的每一个的所述多个特征度量。3.根据权利要求1所述的系统，其中处理系统进一步被配置为：在所述多个合成数据集的每一个和参考数据集之间执行特征级相似性处理，其中，基于所执行的特征级相似性处理，生成所述多个合成数据集的每一个的多个特征度量。4.根据权利要求3所述的系统，其中处理系统进一步被配置为：针对所述多个合成数据集的每一个的每个特征，计算关于参考数据集的密度估计曲线，其中所述多个合成数据集的每一个的所述多个特征度量是针对所述多个合成数据集中的特征的所计算的密度估计曲线生成的。5.根据权利要求4所述的系统，其中处理系统进一步被配置为：基于对应的所计算的密度估计曲线，为所述多个合成数据集的每一个的每个特征计算几何相似性。6.根据权利要求1所述的系统，其中处理系统进一步被配置为：执行包括同质性检查和异质性检查的样本级相似性检查，同质性检查测量所述多个合成数据集之一和参考数据集之间的相同类有多相似，异质性检查测量相同合成数据集内的不同类有多不相似，其中所述多个合成数据集的每一个的所述多个特征度量是针对所述多个合成数据集中的特征的所计算的密度估计曲线生成的。7.根据权利要求1所述的系统，其中，处理系统进一步被配置为：执行模型无关张量同质性评估器过程，以计算所述多个特征度量。8. 根据权利要求1所述的系统，其中处理系统进一步被配置为：
对照参考模型测试合成数据集的性能；和基于合成数据集的测试性能在阈值量内的确定，存储合成数据集和参考模型之间的关联。9. 根据权利要求8所述的系统，其中处理系统进一步被配置为：基于合成数据集的测试性能在阈值量外部的确定，通过使用合成数据集训练新模型；和存储合成数据集和新模型之间的关联。10.一种在计算机系统上实现的方法，该方法包括：将参考模型和与参考模型相关联的参考数据集存储到非暂时性存储介质；生成从标记的检测帧导出的多个合成数据集；针对所述多个合成数据集的每个合成数据集，为来自合成数据集的多个特征生成多个特征度量，其中所述特征度量是基于与参考数据集的比较而生成的；使用第一神经网络，基于所确定的多个特征度量，生成所述多个合成数据集的每一个相对于参考数据集的数据集相似性评分，其中数据集相似性评分中的每一个...

【专利技术属性】
技术研发人员：A，
申请(专利权)人：纳斯达克公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人