基于Python的机器学习模型自变量选择方法、系统及设备技术方案

技术编号:36561036 阅读:9 留言:0更新日期:2023-02-04 17:16
本申请涉及人工智能领域,提供一种基于Python的机器学习模型自变量选择方法、系统及设备,所述方法包括:获取构建所述模型所需的多个自变量;针对所述多个自变量中的每个自变量:构建第一机器学习模型和第二机器学习模型;所述第一机器学习模型包括广义线性模型;所述第二机器学习模型与第一机器学习模型相同;所述第一机器学习模型和第二机器学习模型的差异为构建时是否存在所述自变量;基于所述第一机器学习模型与第二机器学习模型,确定所述自变量是否为目标自变量;确定所述多个自变量中的至少一个目标自变量。本申请通过在Python语言环境下实现自变量的筛选,可以不用基于SAS平台实现数据检验。基于SAS平台实现数据检验。基于SAS平台实现数据检验。

【技术实现步骤摘要】
基于Python的机器学习模型自变量选择方法、系统及设备


[0001]本申请涉及人工智能
,尤其涉及一种基于Python的机器学习模型自变量选择方法、系统及设备。

技术介绍

[0002]近年来,随着机器学习模型在各行各业(例如,互联网保险金融行业)的大量普及,需要将机器学习模型(例如,车辆保险)在多种不同平台进行相应的部署。然而机器学习模型需要用到大量的数据处理和统计分析。
[0003]在现有的数据处理和统计分析领域,SAS系统(Statistics Analysis System,统计分析系统,简称SAS)已经成为国际上的标准软件系统。SAS系统是一款模块化、集成化的大型应用软件系统,把数据存取、管理、分析和展现有机地融为一体,由数十个专用模块构成,功能包括数据访问、数据储存及管理、数据分析、图形处理、计量经济学与预测、运筹学等。SAS系统应用场景主要在数据分析领域(因此也要求具备一定的数学、统计学基础)。其编程语言需要专门学习和掌握,而且对学习人员的数学、统计学基础知识也有要求。
[0004]目前,Type3检验的实现主要通过SAS系统进行。但SAS系统是收费软件并且为非开源代码,由此,将模型在不同平台进行部署时较为不便,需要做数据重构等操作,部署效率低下。
[0005]最近几年来,Python语言由于具有简单易学、免费、开源、可移植、可扩展、也没有对于数学等基础学科知识的要求等优点,在人工智能、大数据、数据分析、运维、Web开发等领域,都有着广阔的应用前景。
[0006]最近,车联网技术大力发展,互联网车险成为当前保险方面的研究热点,由于SAS系统在金融领域的稳定性和信用背书好,因此在金融保险领域多数采用SAS系统进行实现。
[0007]基于成本考量和平台的可移植性,本申请提出采用Python语言构建机器学习模型实现自变量选择的方法。

技术实现思路

[0008]有鉴于此,本申请提供了一种基于Python的机器学习模型自变量选择方法、装置及设备,实现自变量选择的同时,还提高不同平台部署模型的效率。
[0009]本申请采用的技术方案是:
[0010]第一方面,本申请提供一种基于Python的机器学习模型自变量选择方法,其中,应用于Python语言,包括:获取构建所述模型所需的多个自变量;针对所述多个自变量中的每个自变量:构建第一机器学习模型和第二机器学习模型;所述第一机器学习模型包括广义线性模型;所述第二机器学习模型与第一机器学习模型相同;所述第一机器学习模型和第二机器学习模型的差异为构建时是否存在所述自变量;基于所述第一机器学习模型与第二机器学习模型,确定所述自变量是否为目标自变量;确定所述多个自变量中的至少一个目标自变量。
[0011]第二方面,本申请提供一种基于Python的机器学习模型自变量选择系统,其中,所述系统包括:获取模块,用于获取构建所述模型所需的多个自变量;处理模块,用于针对所述多个自变量中的每个自变量:构建第一机器学习模型和第二机器学习模型;所述第一机器学习模型包括广义线性模型;所述第二机器学习模型与第一机器学习模型相同;所述第一机器学习模型和第二机器学习模型的差异为构建时是否存在所述自变量;基于所述第一机器学习模型与第二机器学习模型,确定所述自变量是否为目标自变量;确定模块,用于确定所述多个自变量中的至少一个目标自变量。
[0012]第三方面,本申请还提供一种电子设备,包括处理器,其中,所述处理器用于执行机器学习模型自变量选择方法。
[0013]第四方面,本申请还提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行机器学习模型自变量选择方法。
[0014]本申请的基于Python的机器学习模型自变量选择方法、装置及设备,通过所述第一机器学习模型和第二机器学习模型的差异为构建时是否存在所述自变量,找到目标自变量,通过在Python语言环境下实现自变量的筛选,可以不用基于SAS平台实现数据检验。
附图说明
[0015]本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
[0016]图1是根据本说明书一些实施例所示的基于Python的机器学习模型自变量选择方法的应用场景示意图;
[0017]图2是根据本说明书一些实施例所示的基于Python的机器学习模型自变量选择方法的示例性流程图;
[0018]图3是根据本说明书一些实施例所示的针对所述多个自变量中的每个自变量,构建第一机器学习模型和第二机器学习模型方法的示例性流程图;
[0019]图4是根据本说明书一些实施例所示的基于第一机器学习模型与第二机器学习模型确定自变量是否为目标自变量方法的示例性流程图;
[0020]图5为本说明书一些实施例提供的另一种机器学习模型自变量选择方法的示例性流程图;以及
[0021]图6是根据本说明书一些实施例所示的基于Python的机器学习模型自变量选择系统的模块图。
具体实施方式
[0022]为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
[0023]应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别
的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
[0024]如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
[0025]本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
[0026]Type3检验是一种在使用数据建模的过程中,用于从建模所需的自变量中选择一个或多个显著自变量的检验方法。通过Type3检验可以筛选出对模型影响显著的自变量,由此来改善模型的表现。
[0027]目前,Type3检验的实现主要通过统计分析软件(Statistics Analysis System,简称SAS)实现。SAS系统是大型集成软件系统,具有完备的数据访问、管理、分析和呈现及应用开发功能。在数据处理和统计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Python的机器学习模型自变量选择方法,其特征在于,包括:获取构建所述机器学习模型所需的多个自变量;针对所述多个自变量中的每个自变量:构建第一机器学习模型和第二机器学习模型;所述第一机器学习模型包括广义线性模型;所述第二机器学习模型与第一机器学习模型相同;所述第一机器学习模型和第二机器学习模型的差异为构建时是否存在所述自变量;基于所述第一机器学习模型与第二机器学习模型,确定所述自变量是否为目标自变量;确定所述多个自变量中的至少一个目标自变量。2.根据权利要求1所述的方法,其特征在于,针对所述多个自变量中的每个自变量:构建第一机器学习模型和第二机器学习模型,包括:基于所述多个自变量构建第一机器学习模型;基于去除所述多个自变量中的所述自变量剩余的至少一个自变量,构建第二机器学习模型。3.根据权利要求1所述的方法,其特征在于,所述基于所述第一机器学习模型与第二机器学习模型,确定所述自变量是否为目标自变量,包括:基于所述第二机器学习模型与所述第一机器学习模型分别进行计算,获得所述第二机器学习模型与所述第一机器学习模型各自的偏差值;依据所述偏差值,获得卡方统计量;对所述卡方统计量,做卡方检验,获得卡方检验的显著性值;将所述显著性值与预设阈值比较,确定所述自变量是否为目标自变量。4.根据权利要求3所述的方法,其特征在于,所述依据所述偏差值,获得卡方统计量,包括:卡方统计量=2*(第一机器学习模型的偏差值

第二机器学习模型的偏差值)。5.根据权利要求3所述的方法,其特征在于,所述将所述显著性值与预设阈值比较,确定所述自变量是否为目标自变量,包括:当显著性值小于预设阈值时,确定所述自变量为目标自变量;当显著性值大于预设阈值时,确定所述自...

【专利技术属性】
技术研发人员:于忠华邹家伟叶灵玲熊寅庚林杰武荻忻
申请(专利权)人:珠海鼎然信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1