潜在的流失用户自动识别模型的构建方法及装置制造方法及图纸

技术编号:21514849 阅读:18 留言:0更新日期:2019-07-03 09:18
本发明专利技术公开了一种潜在的流失用户自动识别模型的构建方法及装置,方法包括:读取建模数据样本文件;根据经验值设定比例将建模数据样本划分为训练样本和测试样本;进行数据预处理;使用独热编码对所述训练样本中的离散型因子进行转换,调整因子的个数;固定建模数据样本文件包含自变量、目标变量,训练潜在的流失用户自动识别模型;利用测试样本对模型的效果进行测试,根据所得评价指标来判断模型的好坏;读取目标数据样本文件;对目标数据样本进行数据预处理;使用独热编码对所述训练样本中的离散型因子进行转换,调整因子的个数;计算每一个目标数据的流失概率值;输出概率值列表。本发明专利技术的模型效果更加精准,中间不需要任何的人工操作,且操作较为简便,非分析人员也能使用模型。

Construction Method and Device of Automatic Identification Model for Potential Lost Users

【技术实现步骤摘要】
潜在的流失用户自动识别模型的构建方法及装置
本专利技术涉及大数据潜在用户识别领域,特别涉及一种潜在的流失用户自动识别模型的构建方法及装置。
技术介绍
传统的潜在用户识别模型有很多,不同的模型和不同的数据处理手段都会导致模型的准确率不同,但是传统的潜在用户识别模型中有一个通病,就是缺乏建模步骤之间的连接线,往往需要在中间步骤加入人工处理的操作,且其操作较为复杂,另外,还需要每一个用户都要有数据分析的能力,当不具有数据分析能力的用户想要对传统的潜在用户识别模型进行操作时,其面临的问题是不能进行操作。传统的潜在用户识别模型只能针对特定的人群(即有数据分析能力的用户)才能进行操作,非分析人员不便于对传统的潜在用户识别模型进行操作,其使用范围受限。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的上述缺陷,提供一种模型效果更加精准、中间不需要任何的人工处理操作、操作较为简便、非分析人员也能使用模型的潜在的流失用户自动识别模型的构建方法及装置。本专利技术解决其技术问题所采用的技术方案是:构造一种潜在的流失用户自动识别模型的构建方法,包括如下步骤:A)读取建模数据样本文件并输入建模数据样本;所述建模数据样本文件包含影响变量和目标变量;B)按照设定的比例将所述建模数据样本划分为训练样本和测试样本;C)采取统计的方法对所述训练样本和测试样本进行数据预处理;D)使用独热编码对所述训练样本中的离散型因子进行转换,调整因子的个数;E)采用分类算法固定所述建模数据样本文件需包含自变量、目标变量,利用所述训练样本训练所述潜在的流失用户自动识别模型;F)利用所述测试样本对所述潜在的流失用户自动识别模型进行测试,并输出测试结果,利用评价指标来判断所述潜在的流失用户自动识别模型的好坏;G)读取目标数据样本文件并输入目标数据样本;所述目标数据样本文件包含影响变量;H)利用统计的方法对所述目标数据样本进行数据预处理;I)使用独热编码对所述目标样本中的离散型因子进行转换,调整因子的个数;J)计算所述目标数据样本中每一个目标数据的流失概率值;K)输出概率列表。在本专利技术所述的潜在的流失用户自动识别模型的构建方法中,所述步骤A)进一步包括:A1)读取建模数据样本文件,并判断是否找到所述建模数据样本文件,如是,执行步骤A);否则,退出;A2)校验写入的所述建模数据样本是否具有所述目标变量且所述目标变量为二元变量,如是,执行步骤B);否则,报错后返回步骤A1)。在本专利技术所述的潜在的流失用户自动识别模型的构建方法中,所述步骤H)进一步包括:H1)读取所述目标数据样本文件,并判断是否找到所述建模数据样本文件,如是,执行步骤H2);否则,退出;H2)校验所述目标数据样本文件中的字段与所述建模数据样本是否一致,如是,执行步骤I);否则,报错后返回步骤H1)。在本专利技术所述的潜在的流失用户自动识别模型的构建方法中,所述设定的比例为7:3。在本专利技术所述的潜在的流失用户自动识别模型的构建方法中,当所述评价指标大于0.7时,确定所述潜在的流失用户自动识别模型的测试结果良好,所述评价指标大于0.8时,确定所述潜在的流失用户自动识别模型的测试结果较优。本专利技术还涉及一种实现上述潜在的流失用户自动识别模型的构建方法的装置,包括:建模数据样本输入单元:用于读取建模数据样本文件并输入建模数据样本;所述建模数据样本文件包括影响变量和目标变量;样本划分单元:用于按照设定的比例将所述建模数据样本划分为训练样本和测试样本;样本数据预处理单元:用于采取统计的方法对所述训练样本和测试样本进行数据预处理;独热编码转换单元:用于对所述训练样本中的离散型的影响变量进行转换,调整因子的个数;模型训练样本单元:用于采用分类算法固定所述建模数据样本文件需包含自变量、目标变量,利用所述训练样本训练所述潜在的流失用户自动识别模型;模型测试单元:用于利用测试样本对所述潜在的流失用户自动识别模型进行测试,并输出测试结果,利用评价指标来判断所述潜在的流失用户自动识别模型的好坏;目标数据样本输入单元:用于读取目标数据样本文件并输入目标数据样本;所述目标数据样本文件包含影响变量;目标数据补全单元:用于利用统计的方法对所述目标数据样本进行数据预处理;独热编码转换单元:用于对所述目标样本中的离散型的影响变量进行转换,调整因子的个数;概率计算单元:用户计算所述目标数据样本中每一个目标数据的流失概率值;结果输出单元:用于输出概率列表。在本专利技术所述的装置中,所述建模数据样本输入单元进一步包括:建模数据样本文件读取判断模块:用于读取建模数据样本文件,并判断是否找到所述建模数据样本文件,如是,进入建模数据样本校验模块;否则,退出;建模数据样本校验模块:用于校验写入的所述建模数据样本是否具有所述目标变量且所述目标变量为二元变量,如是,进入所述样本划分单元;否则,报错后返回所述建模数据样本文件读取判断模块。在本专利技术所述的装置中,所述目标数据样本输入单元进一步包括:目标数据样本文件读取判断模块:用于读取所述目标数据样本文件,并判断是否找到所述建模数据样本文件,若是,进入样本判断模块;否则,退出;样本判断模块:用于校验所述目标数据样本文件中的字段与所述建模数据样本是否一致,如是,进入目标数据补全单元;否则,报错后返回所述目标数据样本文件读取判断模块。在本专利技术所述的装置中,所述设定的比例为7:3。在本专利技术所述的装置中,当所述评价指标大于0.7时,确定所述潜在的流失用户自动识别模型的测试结果良好,所述评价指标大于0.8时,确定所述潜在的流失用户自动识别模型的测试结果较优。实施本专利技术的潜在的流失用户自动识别模型的构建方法及装置,具有以下有益效果:由于采用独热编码技术,对数据进行转化,采取统计的方法对训练样本和测试样本进行数据预处理,使得该潜在的流失用户自动识别模型的效果更加精准,程序运行效率更高,并且对该大数据精准营销模型的整个流程进行了封装,加入了程序自动化的思想,中间不需要任何的人工处理操作,既使是非分析人员也能使用模型;所以其模型效果更加精准、中间不需要任何的人工处理操作、操作较为简便、非分析人员也能使用模型。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术潜在的流失用户自动识别模型的构建方法及装置一个实施例中方法的流程图;图2为所述实施例中读取建模数据样本文件并输入建模数据样本的具体流程图;图3为所述实施例中读取目标数据样本文件并输入目标数据样本的具体流程图;图4为所述实施例中装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术潜在的流失用户自动识别模型的构建方法及装置实施例中,其潜在的流失用户自动识别模型的构建方法的流程图如图1所示。图1中,该潜在的流失用户本文档来自技高网...

【技术保护点】
1.一种潜在的流失用户自动识别模型的构建方法,其特征在于,包括如下步骤:A)读取建模数据样本文件并输入建模数据样本;所述建模数据样本文件包含影响变量和目标变量;B)根据经验值设定比例将所述建模数据样本划分为训练样本和测试样本;C)采取统计的方法对所述训练样本和测试样本进行数据预处理;D)使用独热编码对所述训练样本中的离散型因子进行转换,调整因子的个数;E)采用分类算法固定所述建模数据样本文件需包含自变量、目标变量,利用所述训练样本训练所述潜在的流失用户自动识别模型;F)利用所述测试样本对所述潜在的流失用户自动识别模型进行测试,并输出测试结果,利用评价指标来判断所述潜在的流失用户自动识别模型的好坏;G)读取目标数据样本文件并输入目标数据样本;所述目标数据样本文件包含影响变量;H)利用统计的方法对所述目标数据样本进行数据预处理;I)使用独热编码对所述目标样本中的离散型因子进行转换,调整因子的个数;J)计算所述目标数据样本中每一个目标数据的流失概率值;K)输出概率列表。

【技术特征摘要】
1.一种潜在的流失用户自动识别模型的构建方法,其特征在于,包括如下步骤:A)读取建模数据样本文件并输入建模数据样本;所述建模数据样本文件包含影响变量和目标变量;B)根据经验值设定比例将所述建模数据样本划分为训练样本和测试样本;C)采取统计的方法对所述训练样本和测试样本进行数据预处理;D)使用独热编码对所述训练样本中的离散型因子进行转换,调整因子的个数;E)采用分类算法固定所述建模数据样本文件需包含自变量、目标变量,利用所述训练样本训练所述潜在的流失用户自动识别模型;F)利用所述测试样本对所述潜在的流失用户自动识别模型进行测试,并输出测试结果,利用评价指标来判断所述潜在的流失用户自动识别模型的好坏;G)读取目标数据样本文件并输入目标数据样本;所述目标数据样本文件包含影响变量;H)利用统计的方法对所述目标数据样本进行数据预处理;I)使用独热编码对所述目标样本中的离散型因子进行转换,调整因子的个数;J)计算所述目标数据样本中每一个目标数据的流失概率值;K)输出概率列表。2.根据权利要求1所述的潜在的流失用户自动识别模型的构建方法,其特征在于,所述步骤A)进一步包括:A1)读取建模数据样本文件,并判断是否找到所述建模数据样本文件,如是,执行步骤A2);否则,退出;A2)校验写入的所述建模数据样本是否具有所述目标变量且所述目标变量为二元变量,如是,执行步骤B);否则,报错后返回步骤A1)。3.根据权利要求1或2所述的潜在的流失用户自动识别模型的构建方法,其特征在于,所述步骤H)进一步包括:H1)读取所述目标数据样本文件,并判断是否找到所述建模数据样本文件,如是,执行步骤H2);否则,退出;H2)校验所述目标数据样本文件中的字段与所述建模数据样本是否一致,如是,执行步骤I);否则,报错后反馈步骤H1)。4.根据权利要求1,所述的潜在的流失用户自动识别模型的构建方法,其特征在于,所述的设定的比例为7:3。5.根据权利要求1所述的潜在的流失用户自动识别模型的构建方法,其特征在于,所述评价指标大于0.7时,确定所述潜在的流失用户自动识别模型的测试结果良好,所述评价指标大于0.8时,确定所述潜在的流失用户自动识别模型的测试结果较优。6.一种实现如权利要求1所述的潜在的流失用户自动识别模型的构建方法的设置,其特征在于,包括:建模数据样本输入单元:用于读取建模数据样本文件并输入建模数据样本;所述建模数据样本文件包括影响变量和目标变量;样本划分单元:用于按照设定的比例将所述建模...

【专利技术属性】
技术研发人员:江颖钟山沈超张馨
申请(专利权)人:广州帷策智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1