【技术实现步骤摘要】
一种供应链数据模型的自动更新方法及装置
[0001]本说明书一个或多个实施例涉及机器学习领域,尤其涉及一种供应链数据模型的自动更新方法及装置。
技术介绍
[0002]自动机器学习(AutoML)的目标是通过自动化一些通用步骤(如数据预处理、模型选择和调整超参数),以简化机器学习(ML)模型的生成过程。AutoML的显著特点是尽量避免人工设定超参数,而是采用某种学习机制自动调节这些超参数。随着时间的推移,AutoML技术变得越来越流行,因为它们有助于简化繁琐而困难的ML模型开发任务,甚至使非专业用户能够为其手头的数据集建立准确而稳健的模型。大型供应链集成服务企业集团在推进数字化转型赋能管理提升、业务发展的过程中,数据开发工程师为了实现供应链数据模型的自动开发,通常采用AutoML技术在数以百万计的ML流程配置之间进行比较,并输出最佳流程,通常包括数据预处理、特征工程、模型选择和超参数优化等。然而,当用于训练模型的供应链数据集非常庞大时,每个流程配置的执行时间也会变得更长,这可能会增加几个小时甚至几天的搜索时间。因此,在处理大型 ...
【技术保护点】
【技术特征摘要】
1.一种供应链数据模型的自动更新方法,包括:获取供应链数据集,其中包括L个供应链数据,每个供应链数据包括K
‑
1个数据特征和1个标定标签;其中,L和K均为正整数;将所述供应链数据集排布为L行K列的数据阵列,其中的L行分别对应于L个供应链数据,K列分别对应于K
‑
1个数据特征和1个标定标签;针对所述数据阵列重复执行多次行列抽取,并基于每次行列抽取得到的各行和各列,形成1个数据子集;如此得到N个数据子集;所述各列至少包括对应于标定标签的列;N为正整数;对基于所述N个数据子集形成的初代子集集合执行多轮迭代,其中,任意的第t轮迭代包括:从当代子集集合中抽样若干初始数据子集,针对每个初始数据子集,基于所述数据阵列,随机地对其中的行或列进行替换,得到更新数据子集;将得到的各个更新数据子集添加到当代子集集合中,得到中间子集集合;从所述中间子集集合中抽样若干子集对,针对每个子集对,在其中的两个数据子集之间进行行或列互换,得到更新子集对;将各个更新子集对中的两个更新子集添加到所述中间子集合,得到候选子集合;对于所述候选子集合中各候选数据子集,基于对应于所述各候选数据子集的各个信息熵与对应于所述供应链数据集的总信息熵,确定对应于所述各候选数据子集的各个信息损失;基于所述各个信息损失,从所述候选子集合中选取一部分下代数据子集,并按照预定概率,从所述候选子集合的各剩余数据子集中选取另一部分下代数据子集;所述一部分下代数据子集和另一部分下代数据子集形成下代子集集合;从所述多轮迭代后得到的下代子集集合中,选取对应信息熵最大的数据子集作为最终数据子集;将所述最终数据子集输入自动机器学习AutoML工具,得到初始供应链数据模型;将所述供应链数据集和所述初始供应链数据模型,再次输入所述AutoML工具,得到目标供应链数据模型。2.根据权利要求1所述的方法,其中,所述基于所述数据阵列,随机地对其中的行或列进行替换,包括:确定对应于所述初始数据子集的初始行编号集合和初始列编号集合;将所述初始行编号集合中的若干元素,分别替换为总行编号集合中与其不同的其它行编号,得到更新行编号集合;其中,所述总行编号集合和所述总列编号集合基于所述数据阵列确定;或者,将所述初始列编号集合中的若干元素,分别替换为总列编号集合中与其不同的其它列编号,得到更新列编号集合;基于更新行编号集合以及初始列编号集合,确定更新数据子集;或者,基于更新列编号集合以及初始行编号集合,确定更新数据子集。3.根据权利要求1所述的方法,其中,所述子集对中的两个数据子集包括第一子集和第二子集;所述在其中的两个数据子集之间进行行或列互换,包括:
对所述第一子集中的第一目标行/列进行切割,得到在前的第一行/列片段和在后的第一行/列片段,以及对所述第二子集中的第二目标行/列进行切割,得到在前的第二行/列片段和在后的第二行/列片段;对在前的第一行/列片段和在后的第二行/列片段进行拼接,得到第一更新目标行/列,以及对在前的第二行/列片段和在后的第一行/列片段进行拼接,得到第二更新目标行/列;至少基于所述第一更新目标行/列,确定第一更新子集,以及至少基于所述第二更新目标行/列,确定第二更新子集;所述第一更新子集和第二更新子集形成所述更新子集对。4.根据权利要求1所述的方法,其中,所述候选子集合包括目标数据子集,所述目标数据子集排布为r行c列的子阵列,r和c均为正整数,且r≤L,c≤K;所述目标数据子集对应的目标信息熵通过以下步骤获得:对于所述子阵列中的第i列,根据所述r行分别对应于所述第i列的r个数值各自的出现频率,计算对应于所述第i列的信息熵;对所述c列各自对应的c个信息熵求平均,得到所述目标信息熵;所述总信息熵通过以下步骤获得:对于所述数据阵列中的第j列,根据所述L行分别对应于所述第j列的L个数值各自的出现频率,计算对应于所述第j列的信息熵;对所述K列各自对应的K个信息熵求平均,得到所述总信息熵;其中,i,j均为正整数,且1≤i≤c,1≤j≤K。5.根据权利要求1所述的方法,其中,所述确定对应于所述各候选数据子集的各个信息损...
【专利技术属性】
技术研发人员:周俊,朱海洋,陈为,肖杰,胡健,陈晓丰,季永炜,夏祯锋,童高强,
申请(专利权)人:物产中大数字科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。