一种消费金融场景下的用户购买行为大数据预测方法技术

技术编号:20655691 阅读:23 留言:0更新日期:2019-03-23 07:15
本发明专利技术请求保护一种消费金融场景下的用户购买行为大数据预测方法,包括:101对用户的APP操作行为日志数据进行预处理操作;102对用户的APP操作行为日志数据进行特征工程操作;103对构建特征完成的样本集进行特征选择;104建立2个机器学习模型,并进行模型融合操作;105通过建立的模型,根据用户个人属性及其历史APP操作行为日志数据对用户在未来一个周是否购买APP上的优惠券进行预测。本发明专利技术为商家广告精准投放,个性化优惠信息推荐提供有力的决策支持。

A Large Data Prediction Method for User Purchase Behavior in Consumer Finance Scenario

The invention requests to protect a method for predicting large data of user purchasing behavior in consumer finance scenario, including 101 pre-processing operation of user's APP operation behavior log data, 102 feature engineering operation of user's APP operation behavior log data, 103 feature selection of sample set completed by constructing features, 1042 machine learning models and model fusion. Operation; 105 Predicts whether the user will buy the coupon on APP in the next week according to the user's personal attributes and the history of APP operation behavior log data. The invention provides strong decision support for precise placement of commercial advertisements and personalized preferential information recommendation.

【技术实现步骤摘要】
一种消费金融场景下的用户购买行为大数据预测方法
本专利技术属于机器学习、自然语言处理、大数据分析与处理
,尤其基于多模型融合消费金融场景下用户购买预测。
技术介绍
当前网络购物的兴起催生出了许多的生活服务类APP,在消费金融场景下其往往提供了手机商城、饭票影票、在线客服、基金理财、办卡开卡、额度管理、消费信贷、账单管理等全方位功能,同时实现了LBS查询服务和手机远程支付,全面满足并提升了持卡人对金融和日常生活需求的消费体验。发卡银行在不断拓展业务与场景的同时,也希望通过数据积累与数据驱动,主动捕捉用户价值信息与消费需求,发挥数据价值,给用户提供更加精准的服务。以购物为例,相比于传统的实体店铺和传统电商平台,在消费金融场景下更能将用户线下的资产情况,以及线上的网络消费行为进行资料整合,来进行综合分析,以便为用户提供更好的服务体验,为金融机构以及平台商家提供更为精准的决策服务。随着人工智能和大数据等技术不断渗透,依靠金融科技主动收集、分析、整理各类金融数据,为用户提供更优质的服务以及为平台商家提供决策支持,并且进行精准营销,成为解决消费金融场景下主动捕捉用户信息与消费需求,发挥数据价值的有效途径。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种为商家广告精准投放,个性化优惠信息推荐提供有力的决策支持的消费金融场景下的用户购买行为大数据预测方法。本专利技术的技术方案如下:一种消费金融场景下的用户购买行为大数据预测方法,其包括以下步骤:101.对用户的APP操作行为日志数据进行包括对OCC_TIM字段进行切割在内的预处理操作;102.根据对用户历史APP操作行为日志数据的分析,对训练集和测试集进行特征工程构建,所述对特征工程进行构建是指得到用户历史APP操作行为日志数据构建离散特征、基础统计特征、时序特征、词袋模型特征和词向量模型特征;103.通过特征选择法对步骤101得到的特征进行降维;104.建立2个机器学习模型,分别是.xgboost模型和lightgbm模型,.xgboost模型用于预测出结果1,lightgbm模型用于预测出结果2,并将两个机器学习模型基于模型相关性约束排名的融合操作;105.通过融合操作建立的模型,根据用户个人属性及其历史APP操作行为日志数据对用户在未来一个周是否购买APP上的优惠券进行预测。进一步的,所述步骤101对用户的APP操作行为日志数据进行预处理操作具体步骤为:针对于训练集和测试集中的OCC_TIM字段,该字段表示用户行为发生的具体时间,需要事先将它切割为三列分别是:年、月、日。进一步的,所述步骤102构建离散特征、基础统计特征、时序特征、词袋模型特征和词向量模型特征,具体包括:1021.离散特征:对于EVT_LBL点击模块字段,对其进行拆分,分为一级模块、二级模块、三级模块,再分别对其离散,每一个模块拥有一列值,这些值是统计了用户对于该模块的点击量;对于TCH_TYP事件类型字段,也做同样的处理,以反映出用户喜好使用的设备类型;1022.基础统计特征:用户总的点击次数、用户点击天数、用户每天平均点击量、用户各种行为类型次数对用户总次数的占比、用户在一周各天对用户总次数的占比、用户在各个小时对用户总次数的占比;1023.时序特征:用户点击的时间间隔、用户最大连续点击天数、用户最后一次点击距离最后一天的间隔;对于最后一天的统计包括:总点击,各用户对各一级模块,各用户对二级模块,各用户对三级模块,用户在各小时,用户对各事件类型;对于最后二天的统计包括:总点击,各用户对各一级模块,各用户对二级模块,各用户对三级模块,用户在各小时,用户对各事件类型;在最后一天用户的各种行为类型的占比、在最后二天用户的各种行为类型的占比;前十天,中间十天,最后十天分别统计:用户总次数,用户对各一级模块,用户对各二级模块,用户对各三级模块,用户在各个小时的统计,用户对各个事件的统;分别统计4个区间的用户出现总次数、用户对各个事件的点击总次数,然后再用后一个区间的统计值减去前一个区间的统计值;1024.词袋模型特征:每个用户在每个一级模块出现的次数、每个用户在每个二级模块出现的次数、每个用户在每个三级模块出现的次数;1025.词向量模型特征:通过word2vec,得到所有模块的词向量,然后计算每个用户点击过模块的均值向量作为特征;统计一个事先指定窗口大小为5的word共现次数,以word周边的共现词的次数作为当前word的向量,得到一个共现矩阵,然后再对该共现矩阵使用SVD奇异值分解进行降维以及降低稀疏性,得到矩阵U,最后对U进行归一化得到一个稠密矩阵作为词向量特征。进一步的,所述步骤103对构建特征完成的样本集进行特征选择,具体步骤为:首先计算出每一个特征的方差,然后将方差低于阈值0.5的特征删除;然后将剩余特征分别输入算法xgboost、lightgbm、catboost、GBDT、RF、SVM,输出每个特征的特征重要性,以这些输出的特征重要性为基础构建相关矩阵A,再利用PCA将矩阵A降至指定维度500,完成特征选择。进一步的,所述步骤104建立2个机器学习模型,并进行模型融合操作具体步骤为:1041.xgboost模型:主要设置以下参数'max_depth':3、'objective':'rank:pairwise'、'scale_pos_weight':0.7、'eta':0.02、'min_child_weight':18、'colsample_bytree':0.8、'subsample':0.8;1042.lightgbm模型:主要设置以下参数'boosting_type':'gbdt'、'num_leaves':31、'learning_rate':0.01、'feature_fraction':0.8、'bagging_fraction':0.8;1043.多模型融合:采用基于模型相关性约束的排名融合方法,首先通过两个模型输出的特征重要性,将这两组特征重要性看做两组向量,计算其皮尔逊相关系数h;然后在排名融合的机制中加入这一系数,用于约束模型权重对融合结果的影响,当h越大,即两个模型越相关时,权重系数的影响就会增大,当h越小,即两个模型越不相关,权重系数的影响就会减小,其遵循公式:∑|0.5*(1-h)-(weighti*h)|/ranki公式(1)其中weighti为第i个单模型根据验证表现得出的权重系数,它根据各个模型验证得分的比例来计算得到,ranki为样本在第i个模型中的预测值排名,即该样本的预测为正的概率值在整个数据集下的升序排名。进一步的,所述步骤105通过建立的模型,根据用户个人属性及其历史APP操作行为日志数据对用户在未来一个周是否购买APP上的优惠券进行预测具体步骤为:融合方式采用基于模型相关性约束的排名融合,其中ranki为第i个模型的rank排序,weighti为第i个模型AUC值所占权重,为了让每个将进行融合的模型都起到一定作用,而不受个别效果突出模型影响过大,首先对的值取对数进行平滑,再将各模型求和得到的score用于计算AUC得分:当score大于0.9的时候,说明该条测试数据对应的用户很大可能会在未来一周购买APP上的优惠券。本专利技术本文档来自技高网...

【技术保护点】
1.一种消费金融场景下的用户购买行为大数据预测方法,其特征在于,包括以下步骤:101.对用户的APP操作行为日志数据进行包括对OCC_TIM字段进行切割在内的预处理操作;102.根据对用户历史APP操作行为日志数据的分析,对训练集和测试集进行特征工程构建,所述对特征工程进行构建是指得到用户历史APP操作行为日志数据构建离散特征、基础统计特征、时序特征、词袋模型特征和词向量模型特征;103.通过特征选择法对步骤101得到的特征进行降维;104.建立2个机器学习模型,分别是.xgboost模型和lightgbm模型,.xgboost模型用于预测出结果1,lightgbm模型用于预测出结果2,并将两个机器学习模型基于模型相关性约束排名的融合操作;105.通过融合操作建立的模型,根据用户个人属性及其历史APP操作行为日志数据对用户在未来一个周是否购买APP上的优惠券进行预测。

【技术特征摘要】
1.一种消费金融场景下的用户购买行为大数据预测方法,其特征在于,包括以下步骤:101.对用户的APP操作行为日志数据进行包括对OCC_TIM字段进行切割在内的预处理操作;102.根据对用户历史APP操作行为日志数据的分析,对训练集和测试集进行特征工程构建,所述对特征工程进行构建是指得到用户历史APP操作行为日志数据构建离散特征、基础统计特征、时序特征、词袋模型特征和词向量模型特征;103.通过特征选择法对步骤101得到的特征进行降维;104.建立2个机器学习模型,分别是.xgboost模型和lightgbm模型,.xgboost模型用于预测出结果1,lightgbm模型用于预测出结果2,并将两个机器学习模型基于模型相关性约束排名的融合操作;105.通过融合操作建立的模型,根据用户个人属性及其历史APP操作行为日志数据对用户在未来一个周是否购买APP上的优惠券进行预测。2.根据权利要求1所述的消费金融场景下的用户购买行为大数据预测方法,其特征在于,所述步骤101对用户的APP操作行为日志数据进行预处理操作具体步骤为:针对于训练集和测试集中的OCC_TIM字段,该字段表示用户行为发生的具体时间,需要事先将它切割为三列分别是:年、月、日。3.根据权利要求1所述的消费金融场景下的用户购买行为大数据预测方法,其特征在于,所述步骤102构建离散特征、基础统计特征、时序特征、词袋模型特征和词向量模型特征,具体包括:1021.离散特征:对于EVT_LBL点击模块字段,对其进行拆分,分为一级模块、二级模块、三级模块,再分别对其离散,每一个模块拥有一列值,这些值是统计了用户对于该模块的点击量;对于TCH_TYP事件类型字段,也做同样的处理,以反映出用户喜好使用的设备类型;1022.基础统计特征:用户总的点击次数、用户点击天数、用户每天平均点击量、用户各种行为类型次数对用户总次数的占比、用户在一周各天对用户总次数的占比、用户在各个小时对用户总次数的占比;1023.时序特征:用户点击的时间间隔、用户最大连续点击天数、用户最后一次点击距离最后一天的间隔;对于最后一天的统计包括:总点击,各用户对各一级模块,各用户对二级模块,各用户对三级模块,用户在各小时,用户对各事件类型;对于最后二天的统计包括:总点击,各用户对各一级模块,各用户对二级模块,各用户对三级模块,用户在各小时,用户对各事件类型;在最后一天用户的各种行为类型的占比、在最后二天用户的各种行为类型的占比;前十天,中间十天,最后十天分别统计:用户总次数,用户对各一级模块,用户对各二级模块,用户对各三级模块,用户在各个小时的统计,用户对各个事件的统;分别统计4个区间的用户出现总次数、用户对各个事件的点击总次数,然后再用后一个区间的统计值减去前一个区间的统计值;1024.词袋模型特征:每个用户在每个一级模块出现的次数、每个用户在每个二级模块出现的次数、每个用户在每个三级模块出现的次数;1025.词向量模型特征:通过word2vec,得到所有模块的词向量,然后计算每个用户点击过模块的均值向量作为特征;统计一个事先指定窗口大小为5的wor...

【专利技术属性】
技术研发人员:王进陈瑀许景益欧阳卫华孙开伟刘彬
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1