大数据精准营销模型的构建方法及装置制造方法及图纸

技术编号:15392402 阅读:107 留言:0更新日期:2017-05-19 05:16
本发明专利技术公开了一种大数据精准营销模型的构建方法及装置,方法包括:读取建模数据样本文件;按照设定的比例将建模数据样本划分为训练样本和测试样本;进行缺失值补全;对连续型的影响变量做离散化处理;计算各属性的信息熵,并对数据进行替换;固定建模数据样本文件的最后一列为目标变量,训练大数据精准营销模型;对模型进行测试,利用AUC值来判断模型的好坏;读取目标数据样本文件;对目标数据样本进行缺失值补全;对目标数据样本中连续型的影响变量做离散化替换;对离散型数据做离散化替换;计算每一个目标数据的概率值;输出概率列表。本发明专利技术的模型效果更加精准、中间不需要任何的人工操作、操作较为简便、非分析人员也能使用模型。

Construction method and device for accurate marketing model of big data

The invention discloses a construction method and device, a large data precision marketing model modeling method includes: reading data sample files; according to the setting of the ratio of the modeling data sample is divided into training samples and test samples; for filling missing values; influence of continuous variables do discrete processing; calculating the information entropy of each attribute, and the data were replaced; fixed training data file and the last column is the target variable, training large data precision marketing model; the model is tested by using the AUC value to determine the model quality; read the target data file; the target data samples for filling missing values; continuous variables on the target data in the sample do discrete replacement; do discrete replacement for discrete data; calculate the probability of each target data output probability list. The model of the invention is more accurate, no manual operation is needed in the middle, the operation is simpler, and the model can be used by non analysts.

【技术实现步骤摘要】
大数据精准营销模型的构建方法及装置
本专利技术涉及大数据营销模型领域,特别涉及一种大数据精准营销模型的构建方法及装置。
技术介绍
传统的精准营销模型有很多,不同的模型和不同的数据处理手段都会导致模型的准确率不同,但是传统的精准营销模型中有一个通病,就是缺乏步骤之间的连接线,往往需要在中间步骤加入人工的操作,其操作较为复杂,另外,还需要每一个用户都要有数据分析的能力,当不具有数据分析能力的用户想要对传统的精准营销模型进行操作时,其面临的问题是不能进行操作。传统的精准影响模型只能针对特定的人群(即有数据分析能力的用户)才能进行操作,非分析人员不便于对传统的精准营销模型进行操作,其使用范围受限。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的上述缺陷,提供一种模型效果更加精准、中间不需要任何的人工操作、操作较为简便、非分析人员也能使用模型的大数据精准营销模型的构建方法及装置。本专利技术解决其技术问题所采用的技术方案是:构造一种大数据精准营销模型的构建方法,包括如下步骤:A)读取建模数据样本文件并输入建模数据样本;所述建模数据样本文件包含影响变量和目标变量;B)按照设定的比例将所述建模数据样本划分为训练样本和测试样本;C)采取众数的方法对所述训练样本和测试样本进行缺失值补全;D)对所述训练样本中的连续型的影响变量做离散化处理;E)计算离散化处理后的每个影响变量中各属性的信息熵,并对缺失值补全后的数据进行替换,并存储替换规则;F)采用二元逻辑回归的方法固定所述建模数据样本文件的最后一列为目标变量,其他为自变量,利用所述训练样本训练所述大数据精准营销模型;G)利用所述测试样本对所述大数据精准营销模型进行测试,并输出测试结果,利用AUC(AreaUnderrocCurve,曲线下面积)值来判断所述大数据精准营销模型的好坏;H)读取目标数据样本文件并输入目标数据样本;所述目标数据样本文件包含影响变量;I)利用统计的方法对所述目标数据样本进行缺失值补全;J)对所述目标数据样本中连续型的影响变量按照所述建模数据样本的规则做离散化替换,替换成离散型数据;K)按照所述替换规则对所述离散型数据做离散化替换;L)计算所述目标数据样本中每一个目标数据的概率值;M)输出概率列表。在本专利技术所述的大数据精准营销模型的构建方法中,所述步骤A)进一步包括:A1)读取建模数据样本文件,并判断是否找到所述建模数据样本文件,如是,执行步骤A2);否则,退出;A2)校验写入的所述建模数据样本是否具有所述目标变量且所述目标变量为二元变量,如是,执行步骤B);否则,报错后返回步骤A1)。在本专利技术所述的大数据精准营销模型的构建方法中,所述步骤H)进一步包括:H1)读取所述目标数据样本文件,并判断是否找到所述建模数据样本文件,如是,执行步骤H2);否则,退出;H2)校验所述目标数据样本文件中的字段与所述建模数据样本是否一致,如是,执行步骤I);否则,报错后返回步骤H1)。在本专利技术所述的大数据精准营销模型的构建方法中,所述设定的比例为7:3。在本专利技术所述的大数据精准营销模型的构建方法中,当所述AUC值小于0.6时,确定所述大数据精准营销模型的测试结果不好。本专利技术还涉及一种实现上述大数据精准营销模型的构建方法的装置,包括:建模数据样本输入单元:用于读取建模数据样本文件并输入建模数据样本;所述建模数据样本文件包含影响变量和目标变量;样本划分单元:用于按照设定的比例将所述建模数据样本划分为训练样本和测试样本;样本缺失值补全单元:用于采取众数的方法对所述训练样本和测试样本进行缺失值补全;离散处理单元:用于对所述训练样本中的连续型的影响变量做离散化处理;信息熵计算替换单元:用于计算离散化处理后的每个影响变量中各属性的信息熵,并对缺失值补全后的数据进行替换,并存储替换规则;模型训练单元:用于采用二元逻辑回归的方法固定所述建模数据样本文件的最后一列为目标变量,其他为自变量,利用所述训练样本训练所述大数据精准营销模型;测试单元:用于利用所述测试样本对所述大数据精准营销模型进行测试,并输出测试结果,利用AUC值来判断所述大数据精准营销模型的好坏;目标数据样本输入单元:用于读取目标数据样本文件并输入目标数据样本;所述目标数据样本文件包含影响变量;目标数据补全单元:用于利用统计的方法对所述目标数据样本进行缺失值补全;离散化替换单元:对所述目标数据样本中连续型的影响变量按照所述建模数据样本的规则做离散化替换,替换成离散型数据;信息熵替换单元:用于按照所述替换规则对所述离散型数据做离散化替换;概率计算单元:用于计算所述目标数据样本中每一个目标数据的概率值;结果输出单元:用于输出概率列表。在本专利技术所述的装置中,所述建模数据样本输入单元进一步包括:建模数据样本文件读取判断模块:用于读取建模数据样本文件,并判断是否找到所述建模数据样本文件,如是,进入建模数据样本校验模块;否则,退出;建模数据样本校验模块:用于校验写入的所述建模数据样本是否具有所述目标变量且所述目标变量为二元变量,如是,进入所述样本划分单元;否则,报错后返回所述建模数据样本文件读取判断模块。在本专利技术所述的装置中,所述目标数据样本输入单元进一步包括:目标数据样本文件读取判断模块:用于读取所述目标数据样本文件,并判断是否找到所述建模数据样本文件,如是,进入样本判断模块;否则,退出;样本判断模块:用于校验所述目标数据样本文件中的字段与所述建模数据样本是否一致,如是,进入目标数据补全单元;否则,报错后返回所述目标数据样本文件读取判断模块。在本专利技术所述的装置中,所述设定的比例为7:3。在本专利技术所述的装置中,当所述AUC值小于0.6时,确定所述大数据精准营销模型的测试结果不好。实施本专利技术的大数据精准营销模型的构建方法及装置,具有以下有益效果:由于采用信息熵技术,对数据进行预处理,即采取众数的方法对训练样本和测试样本进行缺失值补全,利用统计的方法对缺失值进行补全,使得该大数据精准营销模型的效果更加精准,并且对该大数据精准营销模型的整个流程进行了封装,加入了程序自动化的思想,中间不需要任何的人工操作,既使是非分析人员也能使用模型;所以其模型效果更加精准、中间不需要任何的人工操作、操作较为简便、非分析人员也能使用模型。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术大数据精准营销模型的构建方法及装置一个实施例中方法的流程图;图2为所述实施例中读取建模数据样本文件并输入建模数据样本的具体流程图;图3为所述实施例中读取目标数据样本文件并输入目标数据样本的具体流程图;图4为所述实施例中装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术大数据精准营销模型的构建方法及装置本文档来自技高网...
大数据精准营销模型的构建方法及装置

【技术保护点】
一种大数据精准营销模型的构建方法,其特征在于,包括如下步骤:A)读取建模数据样本文件并输入建模数据样本;所述建模数据样本文件包含影响变量和目标变量;B)按照设定的比例将所述建模数据样本划分为训练样本和测试样本;C)采取众数的方法对所述训练样本和测试样本进行缺失值补全;D)对所述训练样本中的连续型的影响变量做离散化处理;E)计算离散化处理后的每个影响变量中各属性的信息熵,并对缺失值补全后的数据进行替换,并存储替换规则;F)采用二元逻辑回归的方法固定所述建模数据样本文件的最后一列为目标变量,其他为自变量,利用所述训练样本训练所述大数据精准营销模型;G)利用所述测试样本对所述大数据精准营销模型进行测试,并输出测试结果,利用AUC值来判断所述大数据精准营销模型的好坏;H)读取目标数据样本文件并输入目标数据样本;所述目标数据样本文件包含影响变量;I)利用统计的方法对所述目标数据样本进行缺失值补全;J)对所述目标数据样本中连续型的影响变量按照所述建模数据样本的规则做离散化替换,替换成离散型数据;K)按照所述替换规则对所述离散型数据做离散化替换;L)计算所述目标数据样本中每一个目标数据的概率值;M)输出概率列表。...

【技术特征摘要】
1.一种大数据精准营销模型的构建方法,其特征在于,包括如下步骤:A)读取建模数据样本文件并输入建模数据样本;所述建模数据样本文件包含影响变量和目标变量;B)按照设定的比例将所述建模数据样本划分为训练样本和测试样本;C)采取众数的方法对所述训练样本和测试样本进行缺失值补全;D)对所述训练样本中的连续型的影响变量做离散化处理;E)计算离散化处理后的每个影响变量中各属性的信息熵,并对缺失值补全后的数据进行替换,并存储替换规则;F)采用二元逻辑回归的方法固定所述建模数据样本文件的最后一列为目标变量,其他为自变量,利用所述训练样本训练所述大数据精准营销模型;G)利用所述测试样本对所述大数据精准营销模型进行测试,并输出测试结果,利用AUC值来判断所述大数据精准营销模型的好坏;H)读取目标数据样本文件并输入目标数据样本;所述目标数据样本文件包含影响变量;I)利用统计的方法对所述目标数据样本进行缺失值补全;J)对所述目标数据样本中连续型的影响变量按照所述建模数据样本的规则做离散化替换,替换成离散型数据;K)按照所述替换规则对所述离散型数据做离散化替换;L)计算所述目标数据样本中每一个目标数据的概率值;M)输出概率列表。2.根据权利要求1所述的大数据精准营销模型的构建方法,其特征在于,所述步骤A)进一步包括:A1)读取建模数据样本文件,并判断是否找到所述建模数据样本文件,如是,执行步骤A2);否则,退出;A2)校验写入的所述建模数据样本是否具有所述目标变量且所述目标变量为二元变量,如是,执行步骤B);否则,报错后返回步骤A1)。3.根据权利要求1或2所述的大数据精准营销模型的构建方法,其特征在于,所述步骤H)进一步包括:H1)读取所述目标数据样本文件,并判断是否找到所述建模数据样本文件,如是,执行步骤H2);否则,退出;H2)校验所述目标数据样本文件中的字段与所述建模数据样本是否一致,如是,执行步骤I);否则,报错后返回步骤H1)。4.根据权利要求1所述的大数据精准营销模型的构建方法,其特征在于,所述设定的比例为7:3。5.根据权利要求1所述的大数据精准营销模型的构建方法,其特征在于,当所述AUC值小于0.6时,确定所述大数据精准营销模型的测试结果不好。6.一种实现如权利要求1所述的大数据精准营销模型的构建方法的装置,其特征在于,包括:建模数据样本输入单元:用于读取建模数据样本文件并输入建模数据样本;所述建模数据样本文件包含影响变量和目标变量;样本划分单元:用于按照设定的比例将所述建模数据样本划分为训练样本和测试...

【专利技术属性】
技术研发人员:江颖黄仕玲吴国斌张馨钟山
申请(专利权)人:广州帷策智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1