基于GroupLasso的变量自动选择方法、系统及可读介质技术方案

技术编号：26171933 阅读：28 留言：0更新日期：2020-10-31 13:46

本发明专利技术涉及数据处理技术领域，具体涉及一种基于Group Lasso的变量自动选择方法、系统及可读介质，本发明专利技术利用用户行为数据和标签特征，其输入是数据，包含特征字段和标签字段。在数据上建立模型的过程中，算法自动进行各个变量的筛选，最终保留筛选下来的变量和一个建立好的逻辑斯蒂回归模型，用于对新数据进行预测。本发明专利技术变量选择与模型建立的过程是同时进行的，避免了在模型训练之前进行手动选择变量带来的局限性。将变量选择与模型训练相结合，我们通过运用一个算法将数据和变量的信息进行了直接整合，有利于提升模型准确度；本发明专利技术极易于应用在其他建模场景上，因此该发明专利技术具有良好的灵活性与可拓展性。

全部详细技术资料下载

【技术实现步骤摘要】
基于GroupLasso的变量自动选择方法、系统及可读介质
本专利技术涉及数据处理
，具体涉及一种基于GroupLasso的变量自动选择方法、系统及可读介质。
技术介绍
数据建模在人们的工作与生活中承担了越来越重要的作用。工业科技的发展为人们带来了更多的数据，而如何利用数据建模去解决各种实际问题成为了一个很重要的话题。在大数据建模分析的过程中，其中一个核心的问题是对变量的筛选。随着数据维度变高，各个变量之间往往带有比较严重的信息重复性，因此如何最优地筛选变量成为了大数据建模的基础。变量筛选的操作对于提升模型准确度，以及提高模型可解释性方面有重要作用。现有的变量筛选的方法多半是基于研究人员的业务经验和数据直觉进行手筛选。自动化变量筛选的方法是一个非常热门的研究领域，之前的研究有等宽分箱、等频分箱、卡方分箱、决策树分箱等。而基于Lasso系列的自动分箱方法则没有人进行过研究。经检索，中国专利申请号为CN201210427974.9的专利，公开了一种基于偏最小二乘的变量选择方法，涉及基于偏最小二乘的变量选择方法。该选...

【技术保护点】
1.一种基于Group Lasso的变量自动选择方法，其特征在于，所述方法包括以下步骤：/nS1输入数据(A,B)，A指代高维度的用户行为特征数据，中的非数值变量需要被提前数值化；B指代A对应的标签数据，B中的标签需要被提前数值化编码；/nS2对A数据进行分箱，给每一个分箱衍生出一个0，1编码的指示变量，附加空值(NA)单独分出一个子分箱；/nS3对于分箱后的新的变量矩阵A

【技术特征摘要】
1.一种基于GroupLasso的变量自动选择方法，其特征在于，所述方法包括以下步骤：
S1输入数据(A,B)，A指代高维度的用户行为特征数据，中的非数值变量需要被提前数值化；B指代A对应的标签数据，B中的标签需要被提前数值化编码；
S2对A数据进行分箱，给每一个分箱衍生出一个0，1编码的指示变量，附加空值(NA)单独分出一个子分箱；
S3对于分箱后的新的变量矩阵Aenc，求解一个分组GroupLasso的优化问题来估计每个子变量的参数mij。
S4对估计的各个变量进行筛选，最终保留筛选下来的变量和一个建立好的逻辑斯蒂回归模型，模型训练。

2.根据权利要求1所述的基于GroupLasso的变量自动选择方法，其特征在于，所述S1中，特征数据A为数值型变量，对于非数值型的变量首先进行数值编码，对标签数据进行哑变量编码的数值标签，对于非数值的标签例取值的标签预先进行0，1量化编码。

3.根据权利要求1所述的基于GroupLasso的变量自动选择方法，其特征在于，所述S2中，选择10个卡方分箱，给每一个分箱衍生出一个0，1编码的指示变量，附加空值(NA)单独分出一个子分箱，将原始的每个变量拆成11个细粒度的子分箱，将原始的每个变量Ai拆分为多个Ai,j子变量。

4.根据权利要求1所述的基于GroupLasso的变量自动选择方法，其特征在于，所述S3中，GroupLasso的问题如下：

其中∑i||mi||2代表对每个大变量分拆出的子变量组的变量系数加上一个组捆绑约束；所述λ为变量选择强...

【专利技术属性】
技术研发人员：陈亚娟，龙泳先，罗维检，孟颖，边亚瑜，
申请(专利权)人：北京睿知图远科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人