The invention discloses a prediction method of multi dimension data loss based on lottery users includes: collect the original user data extraction and conversion of the original user data in the specified format, classification is loaded into the database; the multi-dimensional user data after preprocessing in the iteration test, extraction and user characteristics related to potential loss the obtained feature set; based on the time dimension of the feature set into validation set and test set for the training set and training set; logistic regression modeling based on multi group prediction model; the validation set were input to the prediction model, a set of prediction model with the highest accuracy as the end user loss assessment model; the loss of user input to the test set in the evaluation model, to predict the loss of users. The invention also provides a lottery user churn prediction system based on multi-dimensional data. The technical proposal provided by the invention can reduce the difficulty of prediction and improve the accuracy of prediction.
【技术实现步骤摘要】
基于多维度数据的彩票用户流失预测方法及其系统
本专利技术涉及数据挖掘
,尤其涉及一种基于多维度数据的彩票用户流失预测方法及其系统。
技术介绍
在我国以及其他一些国家,彩票作为政府运作的合法化游戏的一种形式,通常基于由彩民从预定的号码范围内选择一些号码组成的组合,所选的号码组合结合具体游戏选择的号码的总数确定该游戏的中奖率。彩民可以通过填诸如博彩纸票这样的形式的上的相应空格表明用户的号码选择,或由彩票销售设备随机选择等。博彩纸票上的号码选择然后通过由彩票销售设备读出,然后通常由随机抽奖确定这局彩票游戏的中奖号码。由于这类与彩票相关的企业的效益直接与用户数量以及用户在该企业中的消费直接相关,而根据数据统计,留住一个用户所需的成本几乎是争取一个新用户成本的1/5,尤其是对用户体量很大的彩票游戏行业来说,减少用户流失,意味着成本的降低和利润流失的减少,因此,各个行业的用户尤其是彩票行业的用户流失预测正逐步得到重视。目前,彩票行业的用户存在着基数大、用户活跃度参差不齐的特点,不同于传统的游戏产业的用户特点。现有的用户流失预测技术方案主要集在使用于手游、页游、WEB服务等互联网应用场景,用户流失的定义中使用的主要指标为:用户上次访问的时间间隔。即,根据事先设定的流失时间(如15天),在流失时间期限内完全没有发生登录访问行为的用户,即定义为流失用户。但是,这种单一的基于时间间隔的流失用户的定义对彩票游戏相关的多维度的数据用户并不适用。现有的用于预测用户流失的模型主要有基于经验和统计的规则模型,这样的模型在面对海量、多样、复杂的数据时很难提取出准确的规则来预测用户的 ...
【技术保护点】
一种基于多维度数据的彩票用户流失预测方法,其特征在于,包括:采集原始用户数据,对所述原始用户数据进行抽取和转换后,以指定格式分类加载至数据库;对所述原始用户数据进行预处理,包括:检测数据的一致性和剔除异常值;对数据库中存储的数据进行除重处理,过滤重复数据;对所述原始用户数据进行聚集和规范化变换,获得多维度用户数据;所述多维度用户数据包括用户个人信息,历史投入信息和历史产出信息;对进行预处理后的多维度用户数据进行迭代测试,提取与用户流失相关的潜在特征,并对所述潜在特征进行调整、筛选和组合,获得与用户流失相关的特征集;基于时间维度,将所述特征集划分为训练集、验证集和测试集;基于所述训练集进行逻辑回归建模,获得多组预测模型;将所述验证集分别输入至所述多组预测模型中,比较各组预测模型的准确度,并将准确度最高的一组预测模型作为最终的用户流失评估模型;将所述测试集输入至所述用户流失评估模型中,对用户流失情况进行预测。
【技术特征摘要】
1.一种基于多维度数据的彩票用户流失预测方法,其特征在于,包括:采集原始用户数据,对所述原始用户数据进行抽取和转换后,以指定格式分类加载至数据库;对所述原始用户数据进行预处理,包括:检测数据的一致性和剔除异常值;对数据库中存储的数据进行除重处理,过滤重复数据;对所述原始用户数据进行聚集和规范化变换,获得多维度用户数据;所述多维度用户数据包括用户个人信息,历史投入信息和历史产出信息;对进行预处理后的多维度用户数据进行迭代测试,提取与用户流失相关的潜在特征,并对所述潜在特征进行调整、筛选和组合,获得与用户流失相关的特征集;基于时间维度,将所述特征集划分为训练集、验证集和测试集;基于所述训练集进行逻辑回归建模,获得多组预测模型;将所述验证集分别输入至所述多组预测模型中,比较各组预测模型的准确度,并将准确度最高的一组预测模型作为最终的用户流失评估模型;将所述测试集输入至所述用户流失评估模型中,对用户流失情况进行预测。2.如权利要求1所述的基于多维度数据的彩票用户流失预测方法,其特征在于,所述采集原始用户数据,对所述原始用户数据进行抽取和转换后,以指定格式分类加载至数据库,包括:根据数据类别和时间范围,对采集获得的原始用户数据进行归类;采用关键表和关键字段将原始用户数据转换为多个数据表;所述数据表包括可持续添加的历史记录表和待全表替换的信息引用表;将新增的数据表周期性地加载至指定路径中,以进行预测模型的更新。3.如权利要求1所述的基于多维度数据的彩票用户流失预测方法,其特征在于,基于所述训练集进行逻辑回归建模,获得多组预测模型,包括:采用LogisticRegression算法进行特征建模;采用网格搜索法为所述LogisticRegression算法选取不同的多组建模参数,根据所述多组建模参数,组建一一对应的预测模型。4.如权利要求1所述的基于多维度数据的彩票用户流失预测方法,其特征在于,将所述测试集输入至所述用户流失评估模型中,对用户流失情况进行预测,包括:利用所述用户流失评估模型,计算每个用户在未来指定时间段内的流失概率;基于获得的流失概率对用户进行正序或倒序排序,并以WEB表的形式对排序结果进行展示。5.如权利要求1所述的基于多维度数据的彩票用户流失预测方法,其特征在于,所述方法还包括:在获得实际的用户流失结果后,根据所述实际的用户流失结果验证所述用户流失评估模型对用户流失预测的准确率;根据验证结果对所述用户流失评估模型进行校正。6.一种基于多维度数据的彩票用户流失预测系统,其特征在于,...
【专利技术属性】
技术研发人员:谭浩宇,韩旭,宋骁程,
申请(专利权)人:云数信息科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。