基于多维度数据的彩票用户流失预测方法及其系统技术方案

技术编号:15911037 阅读:56 留言:0更新日期:2017-08-01 22:36
本发明专利技术公开了一种基于多维度数据的彩票用户流失预测方法,包括:采集原始用户数据,对原始用户数据进行抽取和转换后,以指定格式分类加载至数据库;对进行预处理后的多维度用户数据进行迭代测试,提取与用户流失相关的潜在特征,获得特征集;基于时间维度将特征集划分为训练集、验证集和测试集;基于训练集进行逻辑回归建模,获得多组预测模型;将验证集分别输入至所述预测模型中,将准确度最高的一组预测模型作为最终的用户流失评估模型;将所述测试集输入至用户流失评估模型中,对用户流失情况进行预测。本发明专利技术还提供了一种基于多维度数据的彩票用户流失预测系统。实施本发明专利技术提供的技术方案,可以降低预测的难度和提高预测的准确率。

Lottery user churn prediction method and system based on multidimensional data

The invention discloses a prediction method of multi dimension data loss based on lottery users includes: collect the original user data extraction and conversion of the original user data in the specified format, classification is loaded into the database; the multi-dimensional user data after preprocessing in the iteration test, extraction and user characteristics related to potential loss the obtained feature set; based on the time dimension of the feature set into validation set and test set for the training set and training set; logistic regression modeling based on multi group prediction model; the validation set were input to the prediction model, a set of prediction model with the highest accuracy as the end user loss assessment model; the loss of user input to the test set in the evaluation model, to predict the loss of users. The invention also provides a lottery user churn prediction system based on multi-dimensional data. The technical proposal provided by the invention can reduce the difficulty of prediction and improve the accuracy of prediction.

【技术实现步骤摘要】
基于多维度数据的彩票用户流失预测方法及其系统
本专利技术涉及数据挖掘
,尤其涉及一种基于多维度数据的彩票用户流失预测方法及其系统。
技术介绍
在我国以及其他一些国家,彩票作为政府运作的合法化游戏的一种形式,通常基于由彩民从预定的号码范围内选择一些号码组成的组合,所选的号码组合结合具体游戏选择的号码的总数确定该游戏的中奖率。彩民可以通过填诸如博彩纸票这样的形式的上的相应空格表明用户的号码选择,或由彩票销售设备随机选择等。博彩纸票上的号码选择然后通过由彩票销售设备读出,然后通常由随机抽奖确定这局彩票游戏的中奖号码。由于这类与彩票相关的企业的效益直接与用户数量以及用户在该企业中的消费直接相关,而根据数据统计,留住一个用户所需的成本几乎是争取一个新用户成本的1/5,尤其是对用户体量很大的彩票游戏行业来说,减少用户流失,意味着成本的降低和利润流失的减少,因此,各个行业的用户尤其是彩票行业的用户流失预测正逐步得到重视。目前,彩票行业的用户存在着基数大、用户活跃度参差不齐的特点,不同于传统的游戏产业的用户特点。现有的用户流失预测技术方案主要集在使用于手游、页游、WEB服务等互联网应用场景,用户流失的定义中使用的主要指标为:用户上次访问的时间间隔。即,根据事先设定的流失时间(如15天),在流失时间期限内完全没有发生登录访问行为的用户,即定义为流失用户。但是,这种单一的基于时间间隔的流失用户的定义对彩票游戏相关的多维度的数据用户并不适用。现有的用于预测用户流失的模型主要有基于经验和统计的规则模型,这样的模型在面对海量、多样、复杂的数据时很难提取出准确的规则来预测用户的流失。而且在彩票游戏行业中,需要基于给定的时间段、用户投入情况和用户产出情况等多个维度来实现用户流失的定义。例如,在给定的时间段T内,所有参与彩票抽奖游戏的用户中,将投入成本同比增长率最低的20%用户,定义为流失用户。在现有技术中,回归分析被广泛应用于用户流失预测,但其对训练数据的质量要求较高,需排除自变量中的共线性问题以及合理地处理异常值和缺省值,而游戏用户数据来源广泛而复杂,往往存在异常值和缺省,简单的回归分析并不能得到良好的流失预测结果。神经网络也是目前常用的预测模型,它采用一组连接的输入/输出单元,其中每个连接都分配有一个加权值。神经网络的分类知识体现在网络连接上,被隐式地存储在连接的权值中。神经网络的学习过程是通过跌代运算对权值不断进行调整的过程,学习的目标就是通过权值的调整使输入元组被正确的标号。相比其它常用的数据挖掘技术,神经网络用于流失用户的预测有着良好的预测能力,但是其缺点也不容忽视,比如本身的黑盒化,不易解释,以及对计算能力要求高等。
技术实现思路
本专利技术所要解决的技术问题是,提供一种基于多维度数据的彩票用户流失预测技术方案,实现对来源广泛而复杂的用户流失预测,降低预测的难度和提高预测的准确率。为解决以上技术问题,一方面,本专利技术实施例提供一种基于多维度数据的彩票用户流失预测方法,包括:采集原始用户数据,对所述原始用户数据进行抽取和转换后,以指定格式分类加载至数据库;对所述原始用户数据进行预处理,包括:检测数据的一致性和剔除异常值;对数据库中存储的数据进行除重处理,过滤重复数据;对所述原始用户数据进行聚集和规范化变换,获得多维度用户数据;所述多维度用户数据包括用户个人信息,历史投入信息和历史产出信息;对进行预处理后的多维度用户数据进行迭代测试,提取与用户流失相关的潜在特征,并对所述潜在特征进行调整、筛选和组合,获得与用户流失相关的特征集;基于时间维度,将所述特征集划分为训练集、验证集和测试集;基于所述训练集进行逻辑回归建模,获得多组预测模型;将所述验证集分别输入至所述多组预测模型中,比较各组预测模型的准确度,并将准确度最高的一组预测模型作为最终的用户流失评估模型;将所述测试集输入至所述用户流失评估模型中,对用户流失情况进行预测。进一步地,所述采集原始用户数据,对所述原始用户数据进行抽取和转换后,以指定格式分类加载至数据库,包括:根据数据类别和时间范围,对采集获得的原始用户数据进行归类;采用关键表和关键字段将原始用户数据转换为多个数据表;所述数据表包括可持续添加的历史记录表和待全表替换的信息引用表;将新增的数据表周期性地加载至指定路径中,以进行预测模型的更新。进一步地,基于所述训练集进行逻辑回归建模,获得多组预测模型,包括:采用LogisticRegression算法进行特征建模;采用网格搜索法为所述LogisticRegression算法选取不同的多组建模参数,根据所述多组建模参数,组建一一对应的预测模型。优选地,将所述测试集输入至所述用户流失评估模型中,对用户流失情况进行预测,包括:利用所述用户流失评估模型,计算每个用户在未来指定时间段内的流失概率;基于获得的流失概率对用户进行正序或倒序排序,并以WEB表的形式对排序结果进行展示。进一步地,所述的基于多维度数据的彩票用户流失预测方法,还包括:在获得实际的用户流失结果后,根据所述实际的用户流失结果验证所述用户流失评估模型对用户流失预测的准确率;根据验证结果对所述用户流失评估模型进行校正。另一方面,本专利技术实施例还提供了一种基于多维度数据的彩票用户流失预测系统,包括:数据加载模块,用于采集原始用户数据,对所述原始用户数据进行抽取和转换后,以指定格式分类加载至数据库;数据预处理模块,用于对所述原始用户数据进行预处理,包括:检测数据的一致性和剔除异常值;对数据库中存储的数据进行除重处理,过滤重复数据;对所述原始用户数据进行聚集和规范化变换,获得多维度用户数据;所述多维度用户数据包括用户个人信息,历史投入信息和历史产出信息;特征提取模块,用于对进行预处理后的多维度用户数据进行迭代测试,提取与用户流失相关的潜在特征,并对所述潜在特征进行调整、筛选和组合,获得与用户流失相关的特征集;特征划分模块,用于基于时间维度,将所述特征集划分为训练集、验证集和测试集;模型训练模块,用于基于所述训练集进行逻辑回归建模,获得多组预测模型;并且,将所述验证集分别输入至所述多组预测模型中,比较各组预测模型的准确度,并将准确度最高的一组预测模型作为最终的用户流失评估模型;用户预测模块,用于将所述测试集输入至所述用户流失评估模型中,对用户流失情况进行预测。优选地,所述数据加载模块,包括:归类模块,用于根据数据类别和时间范围,对采集获得的原始用户数据进行归类;转换模块,用于采用关键表和关键字段将原始用户数据转换为多个数据表;所述数据表包括可持续添加的历史记录表和待全表替换的信息引用表;加载模块,用于将新增的数据表周期性地加载至指定路径中,以进行预测模型的更新。优选地,所述模型训练模块,包括:逻辑模块,用于采用LogisticRegression算法进行特征建模;搜索模块,用于采用网格搜索法为所述LogisticRegression算法选取不同的多组建模参数;建模模块,用于根据所述多组建模参数,组建一一对应的预测模型。优选地,所述用户预测模块,包括:概率计算模块,用于利用所述用户流失评估模型,计算每个用户在未来指定时间段内的流失概率;排序模块,用于基于获得的流失概率对用户进行正序或倒序排序,并以WEB表的形式对排序结果本文档来自技高网
...
基于多维度数据的彩票用户流失预测方法及其系统

【技术保护点】
一种基于多维度数据的彩票用户流失预测方法,其特征在于,包括:采集原始用户数据,对所述原始用户数据进行抽取和转换后,以指定格式分类加载至数据库;对所述原始用户数据进行预处理,包括:检测数据的一致性和剔除异常值;对数据库中存储的数据进行除重处理,过滤重复数据;对所述原始用户数据进行聚集和规范化变换,获得多维度用户数据;所述多维度用户数据包括用户个人信息,历史投入信息和历史产出信息;对进行预处理后的多维度用户数据进行迭代测试,提取与用户流失相关的潜在特征,并对所述潜在特征进行调整、筛选和组合,获得与用户流失相关的特征集;基于时间维度,将所述特征集划分为训练集、验证集和测试集;基于所述训练集进行逻辑回归建模,获得多组预测模型;将所述验证集分别输入至所述多组预测模型中,比较各组预测模型的准确度,并将准确度最高的一组预测模型作为最终的用户流失评估模型;将所述测试集输入至所述用户流失评估模型中,对用户流失情况进行预测。

【技术特征摘要】
1.一种基于多维度数据的彩票用户流失预测方法,其特征在于,包括:采集原始用户数据,对所述原始用户数据进行抽取和转换后,以指定格式分类加载至数据库;对所述原始用户数据进行预处理,包括:检测数据的一致性和剔除异常值;对数据库中存储的数据进行除重处理,过滤重复数据;对所述原始用户数据进行聚集和规范化变换,获得多维度用户数据;所述多维度用户数据包括用户个人信息,历史投入信息和历史产出信息;对进行预处理后的多维度用户数据进行迭代测试,提取与用户流失相关的潜在特征,并对所述潜在特征进行调整、筛选和组合,获得与用户流失相关的特征集;基于时间维度,将所述特征集划分为训练集、验证集和测试集;基于所述训练集进行逻辑回归建模,获得多组预测模型;将所述验证集分别输入至所述多组预测模型中,比较各组预测模型的准确度,并将准确度最高的一组预测模型作为最终的用户流失评估模型;将所述测试集输入至所述用户流失评估模型中,对用户流失情况进行预测。2.如权利要求1所述的基于多维度数据的彩票用户流失预测方法,其特征在于,所述采集原始用户数据,对所述原始用户数据进行抽取和转换后,以指定格式分类加载至数据库,包括:根据数据类别和时间范围,对采集获得的原始用户数据进行归类;采用关键表和关键字段将原始用户数据转换为多个数据表;所述数据表包括可持续添加的历史记录表和待全表替换的信息引用表;将新增的数据表周期性地加载至指定路径中,以进行预测模型的更新。3.如权利要求1所述的基于多维度数据的彩票用户流失预测方法,其特征在于,基于所述训练集进行逻辑回归建模,获得多组预测模型,包括:采用LogisticRegression算法进行特征建模;采用网格搜索法为所述LogisticRegression算法选取不同的多组建模参数,根据所述多组建模参数,组建一一对应的预测模型。4.如权利要求1所述的基于多维度数据的彩票用户流失预测方法,其特征在于,将所述测试集输入至所述用户流失评估模型中,对用户流失情况进行预测,包括:利用所述用户流失评估模型,计算每个用户在未来指定时间段内的流失概率;基于获得的流失概率对用户进行正序或倒序排序,并以WEB表的形式对排序结果进行展示。5.如权利要求1所述的基于多维度数据的彩票用户流失预测方法,其特征在于,所述方法还包括:在获得实际的用户流失结果后,根据所述实际的用户流失结果验证所述用户流失评估模型对用户流失预测的准确率;根据验证结果对所述用户流失评估模型进行校正。6.一种基于多维度数据的彩票用户流失预测系统,其特征在于,...

【专利技术属性】
技术研发人员:谭浩宇韩旭宋骁程
申请(专利权)人:云数信息科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1