一种模型构建方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:38025645 阅读:10 留言:0更新日期:2023-06-30 10:52
本申请提供了一种模型构建方法、装置、电子设备及可读存储介质,属于计算机技术领域。本申请通过,获取用于构建目标模型的目标算法和原始数据集;确定所述目标算法对应的超参数搜索空间,并在所述超参数搜索空间中确定目标超参数集合;在所述原始数据集对应的至少一个所述特征列中确定目标特征列,并基于所述目标特征列构建所述原始数据集对应的目标数据集;基于所述目标算法和所述目标超参数集合构建初始模型,并利用所述目标数据集对所述初始模型进行训练,得到所述目标模型。由此,实现了根据目标算法和原始数据集自动构建模型,从而减少人力成本,以及提高模型构建的效率。以及提高模型构建的效率。以及提高模型构建的效率。

【技术实现步骤摘要】
一种模型构建方法、装置、电子设备及可读存储介质


[0001]本申请涉及计算机
,尤其涉及一种模型构建方法、装置、电子设备及可读存储介质。

技术介绍

[0002]构建模型主要有以下几个流程:准备数据、选择特征、选择并设置模型参数、训练及输出模型。实际应用中,这些工作流程一般需要数名工作人员,根据经验人工完成。人力成本高,且,效率低下。

技术实现思路

[0003]为了解决上述人工构建模型,人力成本高,且,效率低下的技术问题,本申请提供了一种模型构建方法、装置、电子设备及可读存储介质。
[0004]第一方面,本申请实施例提供一种模型构建方法,包括:
[0005]获取用于构建目标模型的目标算法和原始数据集;
[0006]确定所述目标算法对应的超参数搜索空间,并在所述超参数搜索空间中确定目标超参数集合;
[0007]在所述原始数据集对应的至少一个所述特征列中确定目标特征列,并基于所述目标特征列构建所述原始数据集对应的目标数据集;
[0008]基于所述目标算法和所述目标超参数集合构建初始模型,并利用所述目标数据集对所述初始模型进行训练,得到所述目标模型。
[0009]在一个可能的实施方式中,所述在所述原始数据集对应的至少一个所述特征列中确定目标特征列,包括:
[0010]确定每个特征列对应的特征类型;
[0011]基于每个特征列对应的特征类型,在至少一个所述特征列中确定候选特征列;
[0012]在所述候选特征列中确定待删除特征列;/>[0013]将所述候选特征列中除所述待删除特征列以外的特征列,确定为所述目标特征列。
[0014]在一个可能的实施方式中,所述基于每个特征列对应的特征类型,在至少一个所述特征列中确定候选特征列,包括:
[0015]在对应特征类型为数值型的情况下,将所述特征列确定为候选特征列;
[0016]在对应特征类型为字符型的情况下,确定所述特征列中特征值的数量,在所述数量小于预设数量阈值的情况下,将所述特征列转换为数值型的特征列,并将转换为数值型的所述特征列确定为候选特征列。
[0017]在一个可能的实施方式中,所述在所述候选特征列中确定待删除特征列,包括:
[0018]针对每个所述候选特征列,计算所述候选特征列对应的信息价值;
[0019]将对应信息价值小于预设价值阈值的候选特征列,确定为所述待删除特征列。
[0020]在一个可能的实施方式中,所述在所述候选特征列中确定待删除特征列,包括:
[0021]将每两个候选特征列作为一个特征列组合,并计算每个所述特征列组合中两个候选特征列之间的相关性;
[0022]针对每个相关性大于预设相关性阈值的特征列组合,比较所述特征列组合中两个候选特征列的信息价值的大小,并将对应信息价值较小的候选特征列确定为所述待删除特征列。
[0023]在一个可能的实施方式中,所述在所述候选特征列中确定待删除特征列,包括:
[0024]计算每个所述候选特征列对应的第一特征重要度;
[0025]构建一个随机数列,并计算所述随机数列对应的二特征重要度;
[0026]将对应第一特征重度小于所述第二特征重要度的候选特征列,确定为所述待删除特征列。
[0027]在一个可能的实施方式中,所述在所述超参数搜索空间中确定目标超参数集合,包括:
[0028]在预设损失函数的约束下,利用预设参数搜索算法在所述超参数搜索空间中搜索预设次数,得到每次搜索到的超参数集合及所述超参数集合对应的损失值;
[0029]将对应损失值最小的超参数集合确定为所述目标超参数集合。
[0030]第二方面,本申请实施例提供一种模型构建装置,包括
[0031]获取模块,用于获取用于构建目标模型的目标算法和原始数据集;
[0032]第一确定模块,用于确定所述目标算法对应的超参数搜索空间,并在所述超参数搜索空间中确定目标超参数集合;
[0033]第二确定模块,用于在所述原始数据集对应的至少一个所述特征列中确定目标特征列,并基于所述目标特征列构建所述原始数据集对应的目标数据集;
[0034]构建模块,用于基于所述目标算法和所述目标超参数集合构建初始模型,并利用所述目标数据集对所述初始模型进行训练,得到所述目标模型。
[0035]在一个可能的实施方式中,所述第二确定模块,具体用于:
[0036]确定每个特征列对应的特征类型;
[0037]基于每个特征列对应的特征类型,在至少一个所述特征列中确定候选特征列;
[0038]在所述候选特征列中确定待删除特征列;
[0039]将所述候选特征列中除所述待删除特征列以外的特征列,确定为所述目标特征列。
[0040]在一个可能的实施方式中,所述第二确定模块,还用于:
[0041]在对应特征类型为数值型的情况下,将所述特征列确定为候选特征列;
[0042]在对应特征类型为字符型的情况下,确定所述特征列中特征值的数量,在所述数量小于预设数量阈值的情况下,将所述特征列转换为数值型的特征列,并将转换为数值型的所述特征列确定为候选特征列。
[0043]在一个可能的实施方式中,所述第二确定模块,还用于:
[0044]针对每个所述候选特征列,计算所述候选特征列对应的信息价值;
[0045]将对应信息价值小于预设价值阈值的候选特征列,确定为所述待删除特征列。
[0046]在一个可能的实施方式中,所述第二确定模块,还用于:
[0047]将每两个候选特征列作为一个特征列组合,并计算每个所述特征列组合中两个候选特征列之间的相关性;
[0048]针对每个相关性大于预设相关性阈值的特征列组合,比较所述特征列组合中两个候选特征列的信息价值的大小,并将对应信息价值较小的候选特征列确定为所述待删除特征列。
[0049]在一个可能的实施方式中,所述第二确定模块,还用于:
[0050]计算每个所述候选特征列对应的第一特征重要度;
[0051]构建一个随机数列,并计算所述随机数列对应的二特征重要度;
[0052]将对应第一特征重度小于所述第二特征重要度的候选特征列,确定为所述待删除特征列。
[0053]在一个可能的实施方式中,所述第一确定模块,具体用于:
[0054]在预设损失函数的约束下,利用预设参数搜索算法在所述超参数搜索空间中搜索预设次数,得到每次搜索到的超参数集合及所述超参数集合对应的损失值;
[0055]将对应损失值最小的超参数集合确定为所述目标超参数集合。
[0056]第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0057]存储器,用于存放计算机程序;
[0058]处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型构建方法,其特征在于,所述方法包括:获取用于构建目标模型的目标算法和原始数据集;确定所述目标算法对应的超参数搜索空间,并在所述超参数搜索空间中确定目标超参数集合;在所述原始数据集对应的至少一个所述特征列中确定目标特征列,并基于所述目标特征列构建所述原始数据集对应的目标数据集;基于所述目标算法和所述目标超参数集合构建初始模型,并利用所述目标数据集对所述初始模型进行训练,得到所述目标模型。2.根据权利要求1所述的方法,其特征在于,所述在所述原始数据集对应的至少一个所述特征列中确定目标特征列,包括:确定每个特征列对应的特征类型;基于每个特征列对应的特征类型,在至少一个所述特征列中确定候选特征列;在所述候选特征列中确定待删除特征列;将所述候选特征列中除所述待删除特征列以外的特征列,确定为所述目标特征列。3.根据权利要求2所述的方法,其特征在于,所述基于每个特征列对应的特征类型,在至少一个所述特征列中确定候选特征列,包括:在对应特征类型为数值型的情况下,将所述特征列确定为候选特征列;在对应特征类型为字符型的情况下,确定所述特征列中特征值的数量,在所述数量小于预设数量阈值的情况下,将所述特征列转换为数值型的特征列,并将转换为数值型的所述特征列确定为候选特征列。4.根据权利要求2所述的方法,其特征在于,所述在所述候选特征列中确定待删除特征列,包括:针对每个所述候选特征列,计算所述候选特征列对应的信息价值;将对应信息价值小于预设价值阈值的候选特征列,确定为所述待删除特征列。5.根据权利要求2所述的方法,其特征在于,所述在所述候选特征列中确定待删除特征列,包括:将每两个候选特征列作为一个特征列组合,并计算每个所述特征列组合中两个候选特征列之间的相关性;针对每个相关性大于预设相关性阈值的特征列组合,比较所述特征列组合中两个候选特征列的信...

【专利技术属性】
技术研发人员:方俊雅刘航伍燕鹏唐小平
申请(专利权)人:上海极牛科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1