【技术实现步骤摘要】
一种自动建模方法、装置及其存储介质
本专利技术涉及数据建模
,具体而言,涉及一种自动建模方法、装置及其存储介质。
技术介绍
随着企业信息化建设的逐步完成,各行业的企业都建立了自己的信息系统,存放了大量的业务数据,信息技术发展从之前的积累数据向现在的利用数据创造价值转变,而在这转变的过程中,机器学习技术无疑是利用历史数据提高业务能力的有效手段。机器学习建模过程是一个复杂的系统工程,整个流程包括业务理解、数据理解、数据准备、特征工程、模型构建及评估等步骤。全流程不仅需要建模人员对业务有非常深入的理解,还需要对建模中涉及到的技术非常熟悉,因此要求极高。虽然目前对机器学习建模的全流程研究均比较成熟,但这些方法的实现都需建模人员全程参与,需建模人员对建模全流程的数据处理和特征选择技术要求有较好地基础,无法实现从原始数据到建模结果的自动完成。但对于很多行业,尤其是传统行业的业务部门的业务人员,机器学习技术了解甚少,对于他们来说建模工作需要较高的技术门槛。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种自动建模方法、装置及其存储介质,以解决上述问题。第一方面,本专 ...
【技术保护点】
1.一种自动建模方法,其特征在于,所述自动建模方法包括:获取与模型分析目标对应的特征字段;对所述特征字段进行类型标记,并标记出所述特征字段中的目标变量;对所述特征字段和所述目标变量进行规范化处理,基于规范化后的目标变量从所述特征字段中确定特征子集;采用所述特征子集进行建模。
【技术特征摘要】
1.一种自动建模方法,其特征在于,所述自动建模方法包括:获取与模型分析目标对应的特征字段;对所述特征字段进行类型标记,并标记出所述特征字段中的目标变量;对所述特征字段和所述目标变量进行规范化处理,基于规范化后的目标变量从所述特征字段中确定特征子集;采用所述特征子集进行建模。2.根据权利要求1所述的自动建模方法,其特征在于,所述特征字段包括离散特征字段和连续特征字段,所述对所述特征字段进行类型标记,包括:将所述特征字段划分为离散特征字段和连续特征字段。3.根据权利要求1所述的自动建模方法,其特征在于,所述对所述特征字段和所述目标变量进行规范化处理,包括:对存在缺失值的特征字段进行缺失值处理;对存在异常值的特征字段进行异常值处理。4.根据权利要求3所述的自动建模方法,其特征在于,所述对存在缺失值的特征字段进行缺失值处理,包括:确定所述特征字段中的缺失字段占比;在所述缺失字段占比低于第一阈值时,删除所述缺失字段所属的个例;在所述缺失字段占比不低于所述第一阈值时,对所述缺失字段进行插补操作。5.根据权利要求3所述的自动建模方法,其特征在于,在所述对存在异常值的特征字段进行异常值处理之前,所述自动建模方法还包括:根据所述模型分析目标确定所述特征字段中各个变量的预设取值范围,确定超出所述预设取值范围的变量为异常值;根据拉依达准则将绝对值大于3σ的变量确定为异常值。6.根据权利要求1所述的自动建模方法,其特征在于,所述基于规范化后的目标变量从所述特征字段中确定特征子集,包括:对所述特征字段进行相关性处理;将完成相关性处理后的所述特征字段分割成训练集和测试集;基于规范化后的目标变量确定验证模型,采用所述训练集对所述验证模型进行训练;根据所述模型分析目标对应的应用场景确定评估指标以及评估指标阈值,采用所述测试集对训练后的所述验证模型进行评估;在所述评估指标大于所述评估指标...
【专利技术属性】
技术研发人员:田斌,覃进学,赵神州,王纯斌,赵红军,
申请(专利权)人:成都四方伟业软件股份有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。