【技术实现步骤摘要】
用于机器学习模型的数据集生成和增强
技术介绍
[0001]机器学习模型
(MLM)(
例如深度神经网络
(DNN))
的性能可以通过修改
MLM
的架构或用于训练
MLM
的数据来提高
。
现有解决方案试图通过收集更多数据来改进用于训练
MLM
的数据
。
然而,收集真实世界的数据是一项费力
、
昂贵且耗时的任务,需要无数的人力和计算资源
。
即使在可以收集大量数据的情况下,为了生成稳健和通用的模型而应被捕获的某些场景也可能很少见,并且在数据中所占的百分比很低
。
因此,在这些代表性不足的情况下,
MLM
可能仍然表现不佳
。
[0002]可以执行数据增强技术以减少需要收集以训练
MLM
的真实世界数据的量
。
现有的数据增强技术包括图像旋转
、
翻转
、
裁剪或以其他方式修改现有数据
。
当经训练的
MLM
观察到这些变化时,这些方法可以提高
MLM
的准确度
。
但是,这些方法可能无法解决与代表性不足的场景相关的准确度问题
。
例如,如果训练数据集中的数据
(
例如人脸
)
没有充分变化,或者如果训练数据集中的某些特征被高估或低估,则人脸检测网络的准确度可能会降低
。< ...
【技术保护点】
【技术特征摘要】
1.
一种方法,包括:评估应用于至少一种机器学习模型
MLM
的一个或更多个数据样本的一个或更多个属性;至少基于所述评估,识别所述一个或更多个属性中的至少一个属性的至少一个值;将至少一个输入应用到一个或更多个生成
MLM
,以生成与所述至少一个值相对应的一个或更多个附加数据样本;以及使用所述一个或更多个附加数据样本训练所述至少一个
MLM。2.
如权利要求1所述的方法,其中所述一个或更多个生成
MLM
包括合成生成器,其生成作为所述一个或更多个属性中的多个属性的合成的所述一个或更多个样本
。3.
如权利要求1所述的方法,其中所述评估所述一个或更多个属性包括:使用与所述至少一个
MLM
对所述至少一个属性的推理准确度相对应的至少一个性能度量来评估所述一个或更多个属性,并且所述识别是至少基于低于阈值准确度水平的所述推理准确度
。4.
如权利要求1所述的方法,其中所述至少一个属性的所述至少一个值是属性的一个或更多个值的第一集合,并且所述评估包括使用至少一个性能度量来评估所述一个或更多个属性,所述至少一个性能度量与所述至少一个
MLM
对于相对于所述属性的一个或更多个值的第二集合的一个或更多个值的所述第一集合的推理准确度相对应
。5.
如权利要求1所述的方法,其中所述一个或更多个数据样本和所述一个或更多个附加数据样本包括描绘一个或更多个对象的图像,并且所述一个或更多个属性属于所述一个或更多个对象
。6.
如权利要求1所述的方法,其中所述评估包括使用至少一个性能度量来评估所述一个或更多个属性,所述至少一个性能度量与所述至少一个
MLM
对于由多个所述一个或更多个数据样本上的所述至少一个属性的一个或更多个值表示的时间模式的推理准确度相对应,并且至少一个属性的所述至少一个值包括所述时间模式
。7.
如权利要求6所述的方法,其中所述时间模式与使用所述至少一个属性的所述值表示的一个或更多个事件的频率
、
幅度
、
速度或持续时间中的一个或更多个相对应
。8.
如权利要求1所述的方法,其中所述至少一个属性为一个或更多个图像中描绘的人定义以下项的一项或更多项:所述人的年龄
、
所述人的种族
、
所述人的头发长度
、
所述人的头部位置
、
所述人是否戴眼镜
、
所述人是否有胡须
、
所述人的情绪
、
所述人的眨眼频率
、
所述人的眼睑张开幅度
、
所述人的眼妆
、
所述人的眨眼幅度
、
所述人的眨眼持续时间
、
所述人的面部模式
、
所述人是否戴口罩
、
所述人的照明情况
、
所述人的面部表情
、
是否在所述一个或更多个图像中强调所述人
、
是否在所述一个或更多个图像中强调所述人的背景
、
或者是否在所述一个或更多个图像中强调所述人的前景
。9.
如权利要求1所述的方法,其中所述一个或更多个生成
MLM
包括无条件生成模型,并且所述至少一个输入引导所述无条件生成模型使用定义所述至少一个属性中的第一属性的语义的第一能量函数和定义所述至少一个属性中的第二属性的语义的第二能量函数来生成所述一个或更多个样本
。10.
一种系统,包括:一个或更多个处理单元,用于执行以下操作,所述操作包括:
生成一个或更多个性能度量值,所述一个或更多个性能度量值与应用于至少一个机器学习模型
MLM
的第一一个或更多个图像中描绘的一个或更多个对象的一个或更多个属性相对应;使用所述性能度量值中的一个或更多个确定所述至少一个
MLM
的性能低于所述一个或更多个属性中的至少...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。