【技术实现步骤摘要】
基于Python的机器学习模型自变量选择方法、系统及设备
[0001]本申请涉及人工智能
,尤其涉及一种基于Python的机器学习模型自变量选择方法、系统及设备。
技术介绍
[0002]近年来,随着机器学习模型在各行各业(例如,互联网保险金融行业)的大量普及,需要将机器学习模型(例如,车辆保险)在多种不同平台进行相应的部署。然而机器学习模型需要用到大量的数据处理和统计分析。
[0003]在现有的数据处理和统计分析领域,SAS系统(Statistics Analysis System,统计分析系统,简称SAS)已经成为国际上的标准软件系统。SAS系统是一款模块化、集成化的大型应用软件系统,把数据存取、管理、分析和展现有机地融为一体,由数十个专用模块构成,功能包括数据访问、数据储存及管理、数据分析、图形处理、计量经济学与预测、运筹学等。SAS系统应用场景主要在数据分析领域(因此也要求具备一定的数学、统计学基础)。其编程语言需要专门学习和掌握,而且对学习人员的数学、统计学基础知识也有要求。
[0004]目前, ...
【技术保护点】
【技术特征摘要】
1.一种基于Python的机器学习模型自变量选择方法,其特征在于,包括:获取构建所述机器学习模型所需的多个自变量;针对所述多个自变量中的每个自变量:构建第一机器学习模型和第二机器学习模型;所述第一机器学习模型包括广义线性模型;所述第二机器学习模型与第一机器学习模型相同;所述第一机器学习模型和第二机器学习模型的差异为构建时是否存在所述自变量;基于所述第一机器学习模型与第二机器学习模型,确定所述自变量是否为目标自变量;确定所述多个自变量中的至少一个目标自变量。2.根据权利要求1所述的方法,其特征在于,针对所述多个自变量中的每个自变量:构建第一机器学习模型和第二机器学习模型,包括:基于所述多个自变量构建第一机器学习模型;基于去除所述多个自变量中的所述自变量剩余的至少一个自变量,构建第二机器学习模型。3.根据权利要求1所述的方法,其特征在于,所述基于所述第一机器学习模型与第二机器学习模型,确定所述自变量是否为目标自变量,包括:基于所述第二机器学习模型与所述第一机器学习模型分别进行计算,获得所述第二机器学习模型与所述第一机器学习模型各自的偏差值;依据所述偏差值,获得卡方统计量;对所述卡方统计量,做卡方检验,获得卡方检验的显著性值;将所述显著性值与预设阈值比较,确定所述自变量是否为目标自变量。4.根据权利要求3所述的方法,其特征在于,所述依据所述偏差值,获得卡方统计量,包括:卡方统计量=2*(第一机器学习模型的偏差值
‑
第二机器学习模型的偏差值)。5.根据权利要求3所述的方法,其特征在于,所述将所述显著性值与预设阈值比较,确定所述自变量是否为目标自变量,包括:当显著性值小于预设阈值时,确定所述自变量为目标自变量;当显著性值大于预设阈值时,确定所述自...
【专利技术属性】
技术研发人员:于忠华,邹家伟,叶灵玲,熊寅庚,林杰,武荻忻,
申请(专利权)人:珠海鼎然信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。