The invention belongs to the field of intelligent distribution technology, and relates to a method and system for distributing O2 O coupons based on large data analysis. Firstly, the data acquired in a certain period of time are segmented and the corresponding verification set data are established respectively. Then, according to the declared or defined features, the data are abstracted and extracted. Then, the features are merged to remove the identical features. The data is normalized; the other feature sets besides the corresponding feature sets of the test set are labeled, and the extracted feature sets are connected to form a total feature set to construct a feature matrix that meets the requirements of the XGBoost model; then the XGBoost model is used to predict, and the prediction results are set to a critical value, and the tips are distributed according to the set critical values. To achieve the distribution of coupons; its data cover a wider range, reduce the marketing costs of merchants, optimize the user's consumption experience, and make the transaction optimization.
【技术实现步骤摘要】
一种基于大数据分析的O2O优惠券分发方法及系统
:本专利技术属于智能分发
,涉及一种优惠券的分发方法及系统,特别涉及一种基于大数据分析的O2O优惠券分发方法及系统。
技术介绍
:O2O(OnlineToOffline)是指商家兼备网上商城及线下实体店,将线下的商务机会与在线网络营销相结合,实现线上线下一体化的会员营销系统。以优惠券盘活老用户、吸引新客户是O2O系统及互联网经济的一种重要营销方式。将“对的券”分发给“对的人”,即实现基于用户个性化需求的精准分发,是提高优惠券核销率的重要技术。开发这样一个优惠券个性化分发辅助系统,可以让具有一定偏好的消费者得到真正的实惠,同时赋予商家更强的营销能力。为了实现优惠券的精准分发,专利技术人分别对国内外优惠券的分发情况、核销情况、已有优惠券的分发辅助工具进行了充分的调研。根据Statista的统计数据,2011年至2016年在美国地区每年的优惠券的投放量均超过3000亿,但是2011至2016的优惠券核销率分别是1.12%、0.92%、0.85%、0.84%、0.72%、0.72%。国内部分采用范本调查,以有调旗舰店(天猫男鞋店铺)为例,2018年5月份被领取优惠券2636张,其中被消费499张,核销率18.93%,在2018年5月31日当日被领取优惠券58张,其中被使用5张,核销率8.62%。大量调查数据显示尽管近年来国内电商蓬勃发展,交易量节节攀高,但是优惠券的分发策略并没有多大进步,平均核销率不足10%。商家优惠券的投放基本是一厢情愿,要么在店铺页面广发,要么通过短信狂轰滥炸,一方面用户收到很多不需要的投 ...
【技术保护点】
1.一种基于大数据分析的O2O优惠券分发系统,其特征在于包括数据收集模块、服务器后台管理模块和前端用户使用模块,其中数据收集模块用于收集并管理线上用户商家和优惠券数据、线下用户商家和优惠券数据以及待预测的数据三种数据文件,数据收集模块和服务器后台管理模块通过网络进行连接,前端用户使用模块与服务器后台管理模块的数据库连接,服务器后台管理模块保存用户上传的数据文件,并将数据提交到数据处理模块进行数据分析后返至数据库,将数据库数据进行可视化呈现;前端用户使用模块显示数据库数据的各项属性并提供数据分析的结果,对优惠券使用概率进行分类,给出分发建议,提供一键分发按钮,通过各大购物平台和商家提供的接口实现优惠券的分发。
【技术特征摘要】
1.一种基于大数据分析的O2O优惠券分发系统,其特征在于包括数据收集模块、服务器后台管理模块和前端用户使用模块,其中数据收集模块用于收集并管理线上用户商家和优惠券数据、线下用户商家和优惠券数据以及待预测的数据三种数据文件,数据收集模块和服务器后台管理模块通过网络进行连接,前端用户使用模块与服务器后台管理模块的数据库连接,服务器后台管理模块保存用户上传的数据文件,并将数据提交到数据处理模块进行数据分析后返至数据库,将数据库数据进行可视化呈现;前端用户使用模块显示数据库数据的各项属性并提供数据分析的结果,对优惠券使用概率进行分类,给出分发建议,提供一键分发按钮,通过各大购物平台和商家提供的接口实现优惠券的分发。2.根据权利要求1所述基于大数据分析的O2O优惠券分发系统,其特征在于所述线下用户商家和优惠券数据包括用户名称、商户名称、优惠券名称、优惠券优惠率、用户经常活动地点距线下门店的距离、领取优惠券日期、消费日期,线上用户商家和优惠券数据包括用户名称、商户名称、线上购买行为、优惠券名称、优惠券优惠率、领券日期、消费日期,待预测的数据包括用户名称、商户名称、优惠券名称、优惠券优惠率、用户经常活动地点距线下门店的距离、领取优惠券日期。3.根据权利要求2所述基于大数据分析的O2O优惠券分发系统,其特征在于所述服务器后台管理模块中使用了大数据分析的机器学习算法,对于上传的线下用户商家和优惠券数据以及线上用户商家和优惠券数据进行特征的抽象和提取,并将两大数据使用线性累和模型进行融合计算,即将线上和线下的消费行为进行分析和融合,从而适应O2O环境下的消费行为分析,其中大数据分析的机器学习算法为陈天奇博士在KDD会议上提出的报告名称为XGBoost:AScalableTreeBoostingSystem的改进算法,KDD’16,August13-17,2016,SanFrancisco,CA,USA;线性累和模型是将相同的数据进行加减或比较替换。4.根据权利要求3所述基于大数据分析的O2O优惠券分发系统,其特征在于所述前端用户使用模块中的分发建议是根据大数据分析的机器学习算法预测的使用概率并由开发者设定的临界值确定的,能设置不同文字或者不同颜色给用户提示和辅助参考,下发按钮接入购物平台接口,实现优惠券的直接分发。5.根据权利要求4所述基于大数据分析的O2O优惠券分发系统,其特征在于所述平台接口为电子商务交易平台提供的平台优惠券分发接口,或个人商户购物网站提供的优惠券分发接口。6.一种采用如权利要求5所述系统实现优惠券分发的方法,其特征在于具体过程包括以下步骤:步骤一:对于获取的一定时间段内的线上用户商家和优惠券数据、线下用户商家和优惠券数据利用滑窗算法进行数据集的分割,得到分割的时间段;步骤二:对于分隔的多个时间段,分别建立对应时间段的验证集数据,并把验证集数据读取进XGBoost算法程序;步骤三:根据已经声明或定义的特征,进行优惠券相关特征、商户相关特征、用户相关特征、用户——商户交互特征的抽象和提取;步骤四:将分别提取的特征合并为一个数据帧,然后将一个数据帧中的各类特征合并,然后去除完全相同的数据并进行数据的规范化处理,将空值设置为程序可读的空值表示;步骤五:给除了测试集对应的特征集之外的其他特征集加上标签,其中标签的含义是该券是否在规定时间内被核销;步骤六:将步骤五中提取出来的特征集连接,形成一个总的特征集合,构建符合XGBoost模型要求的特征矩阵,然后使用XGBoost模型进行预测;其中特征矩阵形式符合XGBoost的规范传入形式,内容为训练集合提取的特征集;步骤七:对于步骤六的预测结果设定临界值,根据设定的临界值进行分发提示,实现优惠券的分发。7.根据权利要求6所述优惠券分发的方法,其特征在于步骤三所述特征提取包括文件的读取和数据集的划分、优惠券相关特征的提取、商户相关特征的提取、用户相关特征的提取、用户——商户相关特征的提取以及生成训练集和测试集,具体为:(一)文件的读取和数据集的划分:先从用户线下消费和优惠券领取行为文件、用户线上点击/消费和优惠券领取行为文件以及用户O2O线下优惠券使用预测样本文件中读取数据,三个文件分别记为原始文件一、原始文件二以及原始文件三;原始文件一、二中的记录从直观上分为三类,包括用户领取优惠券的记录、用户不用券消费的记录、用户使用优惠券消费的记录,每条记录有优惠券领取日期、消费日期以及相关的其他信息,用户不用券消费的记录中优惠券领取日期一项为空,用户领取优惠券的记录中消费日期一项为空,而用户用券消费的记录中两者都不为空;原始文件三只有用户领取优惠券的记录,为要求预测的数据;将从三个原始文件中读取出来的数据集合分别命名为off_train、on_train和off_test,其中off_train为线下数据集合,on_train为线上数据集合,off_test为需要预测的数据集合,然后将off_train和off_test中的数据按照时间划分为两类集合,包括dataset和feature,其中dataset为要求预测的记录和调参训练时用的记录,feature为用于提取特征的集合,这两类都有k个集合,k为整数;dataset类的集合中有一个集合直接等于off_test中的全部数据,其他的dataset类集合是off_train中的优惠券领取日期不为空的记录,不同的dataset集合是优惠券领取日期在不同日期区间内的记录,由于程序只检查领券日期是否在要求的日期区间内,并没有过滤消费日期和领券日期两项都不空的记录,因此dataset中包括用户领券记录和用户用券消费记录;feature是off_train中用户的消费日期或优惠券领取日期在不同日期区间内的数据;在为feature挑取数据时先检查消费日期是否在某个feature要求的日期区间内,如果消费日期为空,就检查优惠券领取日期是否在要求的日期区间,feature类的集合中均含有用券消费记录、不用券消费记录、领券记录三类数据;(二)其他类特征的提取:这部分特征从dataset中提取,对于不同的dataset分别提取,提取完后得到k个DataFrame,其他类特征包括:(1)用户在该dataset的日期区间内收到券的总数(2)用户在该日期区间内收到的某种优惠券的总数(3)用户在某一天内收到的券的数量(4)用户在某一天内收到某种优惠券的数量(5)这条记录是不是这个时间区间内收到相同优惠券的第一张、(6)这条记录是不是这个时间区间内收到相同优惠券的最后一张、(7)收到上一张相同的券距此条记录的间隔(8)收到下一张相同的券距此条记录的间隔前四个特征都是数量类的特征,提取的思路相同,先把要用到的若干列数据提取出来,用另外的DataFrame存放,再在每条记录后都加上一项,所有记录的这一项都是1,并将这列命名为该特征的名字,然后根据某一列用Python编程语言中pandas函数库中的groupby()函数分组;再统计每组中“1”的个数,即得到关于数量的特征;提取特征(5)(6)时,先提取用户ID、优惠券ID和领券日期三项,再根据用户ID和优惠券ID分组,即用户ID和优惠券ID都相同的记录分为一组,并求出每组中的最大领券日期和最小领券日期,然后把每条记录的领取日期和最大或最小日期比较,即得出这条记录是不是该日期区间内同种优惠券的的第一张或最后一张,即特征(5)、(6);提取特征(7)、(8)时使用提取特征(5)、(6)时得到的分组后的领取日期,然后将每条记录的领取日期和除了自己以外的其他日期做日期之间的相减,得到若干个天数差,取最小的差,得到的上一张或下一张领取相同的券的天数间隔;以上每项特征分别提取,提取完所有其他特征后,将所有其他特征合并为一个DataFrame;(三)优惠券相关特征的提取:优惠券相关特征是在dataset中提取的,优惠券相关特征包括:(...
【专利技术属性】
技术研发人员:王金程,孙英华,邱树浩,李丹,徐浩然,
申请(专利权)人:青岛大学,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。