逻辑回归模型的构建方法、装置、存储介质及终端制造方法及图纸

技术编号：18554408 阅读：22 留言：0更新日期：2018-07-28 11:15

本发明专利技术适用于通信技术领域，提供了一种逻辑回归模型的构建方法，所述分析方法包括：获取样本数据，对所述样本数据进行预处理；将预处理后的所述样本数据导出至Excel文档中；生成VBA任务，执行所述VBA任务，对所述Excel文档中的样本数据进行单调性校验及调整；将单调性校验及调整后的样本数据从所述Excel文档导入至数据库中，并作为训练集以训练目标变量的逻辑回归模型。本发明专利技术实现了在构建逻辑回归模型的过程中对样本数据的单调性校验，且实现了可视化的操作界面，有利于快速地检视样本数据的单调性，提高了单调性校验的效率，以及提高了所构建模型的稳定性和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
逻辑回归模型的构建方法、装置、存储介质及终端
本专利技术属于通信
，尤其涉及一种逻辑回归模型的构建方法、装置、存储介质及终端。
技术介绍
逻辑回归(logisticregression)模型是研究因变量为二类观察结果与影响因数(自变量)之间关系的一种多变量分析方法，属概率型非线性回归。在利用逻辑回归模型进行数据建模时，若输入模型的变量不单调时，会大大地降低模型整体的准确性、稳定性。
技术实现思路
本专利技术实施例提供了一种逻辑回归模型的构建方法、装置、存储介质及终端，以解决现有技术中输入模型的变量不单调时，模型的准确性低、稳定性不佳的问题。本专利技术实施例提供了一种逻辑回归模型的构建方法，所述构建方法包括：获取样本数据，对所述样本数据进行预处理；将预处理后的所述样本数据导出至Excel文档中；生成VBA任务，执行所述VBA任务，对所述Excel文档中的样本数据进行单调性校验及调整；将单调性校验及调整后的样本数据从所述Excel文档导入至数据库中，并作为训练集以训练目标变量的逻辑回归模型。可选地，所述获取样本数据，对所述样本数据进行预处理包括：剔除所述样本数据中的异常数据；从已剔除异常数据的所述样本数据中获取数值型变量，对每一个数值型变量执行分箱操作；针对同一数值型变量的每一分箱，计算每一分箱内数据的特征信息度IV值；剔除特征信息度IV值最小的分箱及其内数据。可选地，所述对所述Excel文档中的样本数据进行单调性校验及调整包括：针对同一数值型变量，计算每一分箱的WOE值；统计所有分箱的WOE值，获取WOE值呈连续递增变化趋势的分箱数和/或WOE值呈连续递减...

【技术保护点】
1.一种逻辑回归模型的构建方法，其特征在于，所述构建方法包括：获取样本数据，对所述样本数据进行预处理；将预处理后的所述样本数据导出至Excel文档中；生成VBA任务，执行所述VBA任务，对所述Excel文档中的样本数据进行单调性校验及调整；将单调性校验及调整后的样本数据从所述Excel文档导入至数据库中，并作为训练集以训练目标变量的逻辑回归模型。

【技术特征摘要】
1.一种逻辑回归模型的构建方法，其特征在于，所述构建方法包括：获取样本数据，对所述样本数据进行预处理；将预处理后的所述样本数据导出至Excel文档中；生成VBA任务，执行所述VBA任务，对所述Excel文档中的样本数据进行单调性校验及调整；将单调性校验及调整后的样本数据从所述Excel文档导入至数据库中，并作为训练集以训练目标变量的逻辑回归模型。2.如权利要求1所述的逻辑回归模型的构建方法，其特征在于，所述获取样本数据，对所述样本数据进行预处理包括：获取样本数据，剔除所述样本数据中的异常数据；从已剔除异常数据的所述样本数据中获取数值型变量，对每一个数值型变量执行分箱操作；针对同一数值型变量的每一分箱，计算每一分箱内数据的特征信息度IV值；剔除特征信息度IV值最小的分箱及其内数据。3.如权利要求1所述的逻辑回归模型的构建方法，其特征在于，所述对所述Excel文档中的样本数据进行单调性校验及调整包括：针对同一数值型变量，计算每一分箱的WOE值；统计所有分箱的WOE值，获取WOE值呈连续递增变化趋势的分箱数和/或WOE值呈连续递减变化趋势的分箱数；选取分箱数较大的变化趋势作为所述数值型变量的目标变化趋势；调整所述数值型变量的分箱方式，以使调整后的所述数值型变量对应的分箱之间呈现所述目标变化趋势；其中，第i分箱的WOEi值的计算公式为：在上式中，pyi表示同一数值型变量对应的第i分箱数据中正样本与所有分箱数据中所有正样本的比例；pni表示同一数值型变量对应的第i分箱数据中负样本与所有分箱数据中所有负样本的比例。4.如权利要求3所述的逻辑回归模型的构建方法，其特征在于，所述调整所述数值型变量的分箱方式，以使调整后的所述数值型变量对应的分箱之间呈现所述目标变化趋势包括：遍历同一数值型变量对应的所有分箱，获取与所述目标变化趋势不一致的分箱作为待调整分箱；获取所述待调整分箱的相邻分箱；合并所述待调整分箱和所述相邻分箱，以使调整后的所述数值型变量对应的分箱之间呈现所述目标变化趋势。5.如权利要求3或4所述的逻辑回归模型的构建方法，其特征在于，所述根据所述目标变化趋势，调整所述数值型变量的分...

【专利技术属性】
技术研发人员：王进，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人