【技术实现步骤摘要】
【国外来华专利技术】用于模型探索的数据采样
[0001]所公开的实施例涉及机器学习。更具体地说,所公开的实施例涉及用于机器学习中的模型探索的数据采样。
技术介绍
[0002]分析通常用于发现与大型的复杂、互连和/或多维数据集相关的趋势、模式、关系和/或其他属性。进而,所发现的信息用于获得见解和/或指导与数据相关的决策或动作。例如,业务分析可以用于评估过去的表现、指导业务规划和/或识别可以提高未来表现的动作。
[0003]为了收集这些见解,使用回归模型、人工神经网络、支持向量机、决策树、朴素贝叶斯分类器和/或其他类型的机器学习模型来分析大型的特征数据集。然后可以使用发现的信息来指导决策和/或执行与数据相关的操作。例如,机器学习模型的输出用于指导营销决策、评估风险、检测欺诈、预测行为和/或定制或优化应用或网站的使用。
[0004]然而,在用于分析的机器学习模型的创建和训练期间,在特征选择上花费了大量时间、精力和开销。例如,机器学习模型的数据集可能有数千到数百万个特征,包括根据其他特征的组合创建的特征,而只有一小部分特征和/或组合可能 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:获得包括与第一实体标识符(ID)的第一ID值集合相关联的第一记录集合的训练数据集和包括与所述第一实体ID的第二ID值集合相关联的第二记录集合的评估数据集;通过一个或多个计算机系统,从所述第二ID值集合中选择所述第一实体ID的随机ID值子集;生成经采样的评估数据集,所述经采样的评估数据集包括所述第二记录集合中的与所述随机ID值子集相关联的第一记录子集;生成经采样的训练数据集,所述经采样的训练数据集包括所述第一记录集合中的与所述随机ID值子集相关联的第二记录子集;使用所述经采样的训练数据集和第一训练配置来训练所述第一机器学习模型的一个或多个版本;以及使用所述经采样的评估数据集来评估所述第一机器学习模型的所述一个或多个版本的第一性能。2.根据权利要求1所述的方法,其中,所述第一机器学习模型的所述一个或多个版本包括全局版本和针对由所述随机ID值子集表示的第一实体集合的第一个性化版本集合。3.根据权利要求2所述的方法,还包括:将所述第一机器学习模型的所述第一性能与使用第二训练配置训练的第二机器学习模型的第二性能进行比较,以识别所述第一机器学习模型和所述第二机器学习模型内性能最高的机器学习模型;以及使用用于所述性能最高的机器学习模型的训练配置和所述训练数据集来训练第三机器学习模型。4.根据权利要求3所述的方法,其中,使用用于所述性能最高的机器学习模型的所述训练配置和所述训练数据集来训练所述第三机器学习模型包括:从所述训练配置中获得与全局版本相关联的正则化超参数;以及通过由所述经采样的训练数据集代表的所述训练数据集的比例的倒数来对所述正则化超参数进行缩放。5.根据权利要求2所述的方法,还包括:在所述第一记录子集中,识别第二实体ID的第三ID值集合;以及向所述经采样的训练数据集添加所述第一记录集合中的与所述第三ID值集合相关联的附加记录。6.根据权利要求5所述的方法,还包括:使用所述经采样的训练数据集和所述第一训练配置,训练所述第一机器学习模型的针对由所述第三ID值集合表示的第二实体集合的第二个性化版本集合。7.根据权利要求5所述的方法,其中,所述第二实体ID表示职位。8.根据权利要求1所述的方法,其中,所述第一训练配置包括一个或多个特征。9.根据权利要求1所述的方法,其中,所述第一训练配置包括一个或多个超参数。10.根据权利要求1所述的方法,其中,从所述第二ID值集合中选择所述随机ID值子集包括:生成所述随机ID值子集以包括一定比例的所述第二ID值集合。
11.根据权利要求1所述的方法,其中,所述第一实体ID表示成员。12.一种系统,包括:一个或多个处理器;以及存储指令的存储器,所述指令当由所述一个或多个处理器执行时使所述系统:获得包括与第一实体标识符(ID)的第一ID值集合相关联的第一记录集合的训练数据集和包括与所述第一实体ID的第二ID值集合相关联的第二记录集合的评估数据集;从所述第二ID值集合中选择所述第一实体ID的随机ID值子集;生成经采样的评估数据集,所述经采样的评估数据集包括所述第二记录集合中的与所述随机ID值子集相关联的第一记录子集;生成经采样的训练数据集,...
【专利技术属性】
技术研发人员:Y,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。