【技术实现步骤摘要】
【国外来华专利技术】生成用于机器学习模型的训练数据
[0001]相关申请的交叉引用
[0002]本申请要求于2019年9月6日提交的题为《生成用于机器学习模型的训练数据》(“Generating Training Data for Machine
‑
Learning Models”)的美国专利申请号16/562,972的优先权和权益。
技术介绍
[0003]机器学习模型通常需要大量数据来训练,以做出关于新数据的准确的预测、分类或推断。当数据集不足够大时,机器学习模型可能被训练为做出不正确的推断。例如,小数据集可能导致机器学习模型对可用数据的过适。这可能导致机器学习模型由于省略了较小数据集中特定类型的记录而偏向特定结果。作为另一示例,通过增加机器学习模型的性能的方差,小数据集中的异常数可能不成比例地影响机器学习模型的性能。
[0004]不幸地,足够大的数据集合并不总是可以容易地用于训练机器学习模型。例如,跟踪罕有发生的事件的发生可能由于缺少事件的发生而导致小数据集。作为另一示例,与小群体大小相关的数据可能由于有限数量的成员而导致小 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种系统,包括:计算设备,所述计算设备包括处理器和存储器;训练数据集,所述训练数据集存储在所述存储器中,所述训练数据集包括多个记录;以及第一机器学习模型,所述第一机器学习模型存储在所述存储器中,所述第一机器学习模型在由所述处理器执行时,使所述计算设备至少执行:分析所述训练数据集,以识别所述多个记录之间的相似处;并且至少部分地基于所识别的所述多个记录之间的相似处而生成新记录;以及第二机器学习模型,所述第二机器学习模型存储在所述存储器中,所述第二机器学习模型在由所述处理器执行时,使所述计算设备至少执行:分析所述训练数据集,以识别所述多个记录之间的相似处;评估由所述第一机器学习模型生成的新纪录,以至少部分地基于预定的错误率来确定所述新纪录是否至少无法与所述训练数据集中的所述多个记录的子集区分开;至少部分地基于所述新纪录的评估来更新所述第一机器学习模型;并且至少部分地基于所述新纪录的评估来更新所述第二机器学习模型。2.根据权利要求1所述的系统,其中:所述第一机器学习模型使所述计算设备生成多个新记录;并且所述系统还包括存储在所述存储器中的第三机器学习模型,所述第三机器学习模型使用由所述第一机器学习模型生成的所述多个新记录来训练。3.根据权利要求1或2所述的系统,其中,响应于确定所述第二机器学习模型不能在由所述第一机器学习模型生成的新纪录与所述训练数据集中的所述多个记录中的各个记录之间进行区分,生成所述多个新记录。4.根据权利要求1至3所述的系统,其中,从由概率密度函数(PDF)定义的样本空间中的预定数量的点的随机样本来生成所述多个新记录,所述概率密度函数(PDF)由所述第一机器学习模型识别。5.根据权利要求1至4所述的系统,其中,所述第一机器学习模型重复地生成所述新记录,直到所述第二机器学习模型不能以预定比率区分所述新记录与所述训练数据集中的所述多个记录。6.根据权利要求1至5所述的系统,其中,当相同大小的新记录被创建时,所述预定比率是百分之五十。7.根据权利要求1至6所述的系统,其中,所述第一机器学习模型使所述计算设备生成所述新记录至少两次,并且所述第二机器学习模型使所述计算设备评估所述新记录至少两次,更新所述第一机器学习模型至少两次,并且更新所述第二机器学习模型至少两次。8.一种计算机实施的方法,包括:分析多个原始记录,以识别概率分布函数(PDF),其中,所述概率分布函数(PDF)包括样本空间,并且所述样本空间包括所述多个原始记录;使用所述概率分布函数(PDF)生成多个新记录;创建扩大的数据集,所述扩大的数据集包括所述多个新记录;并且
使用所述扩大的数据集训练机器学习模型。9.根据权利要求8所述的计算机实施的方法,其中,分析所述多个原始记录以识别所述概率分布函数,还包括:训练生成器机器学习模型,以创建新纪录,所述新纪录与所述多个原始记录中的各个原始记录类似;训练判别器机器学习模型,以在所述新记录与所述多个原始记录中的各个原始记录之间进行区分;并且响应于由所述生成器机器学习模型创建的新记录被所述判别器机器学习模型以预定比率误认,识别所述概率分布函数。10.根据权利要求9所述的计算机实施的方法,其中,所述预定比率是由判别器在所述新记录与所述多个原始记录之间进行的比较的大约百分之五十。11.根据权利要求9或10所述的计算机实施的方法,其中,所述生成器机器学习模型是第一生成器机器学习模型,所述第一生成器机器学习模型和至少第二生成器机器学习模型被包括在多个生成器机器学习模型中,并且所述方法还包括:至少训练所述第二生成器机器学习模型,以创建新纪录,所述新纪录与所述多个原始记录中的各个原始记录类似;并且至少部分地基于以下各项从所述多个生成器机器学习模型中选择所述第一生成器机器学习模型:与每个生成器机器学习模型和所述判别器机器学习模型相关联...
【专利技术属性】
技术研发人员:S,
申请(专利权)人:美国运通旅游有关服务公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。