基于梯度提升决策树的用户旅游出行意向及类型预测方法技术

技术编号:21773425 阅读:27 留言:0更新日期:2019-08-03 22:03
一种基于梯度提升决策树的用户旅游出行意向及类型预测方法,包括以下步骤:步骤1、采集移动运营商提供的用户基本信息、业务使用、亲情网亲密度和出行行为数据表,并进行脱敏;步骤2、对数据表进行数据预处理;步骤3、根据样本数据中出行类别的数量,构造向量表示对应的类别;步骤4、对样本数据中每个可能的类别都训练一个分类回归树;步骤5、计算得到每个特征在各个特征值上的损失函数值,取损失函数值最小的情况构造预测函数;步骤6、生成待预测的用户在各个特征上的详细数据,使用预测函数进行预测。本发明专利技术使用梯度提升决策树算法预测用户的旅游出行意向以及目的地的类型,具有较高的准确性。

User Travel Intention and Type Prediction Method Based on Gradient Lifting Decision Tree

【技术实现步骤摘要】
基于梯度提升决策树的用户旅游出行意向及类型预测方法
本专利技术涉及到一种基于梯度提升决策树的用户旅游出行意向及类型预测方法。技术背景随着经济和科技的发展,交通设施的完善和互联网的普及使得人们的出行变得更加方便,外出旅游的人越来越多,人们出游的目的地也是多种类型的,有些人喜欢省内短途游,有些人喜欢省外游,也有些人则选择去国外或境外的景点旅游。大多数人在出游前会通过询问亲朋好友或上网查找了解旅游目的地的情况,做好攻略,合理安排旅游行程。因此,可以通过人们日常的通话或上网行为预测其是否有旅游出行意向以及目的地的类型,帮助旅游从业者预测人们的出行需求,从而有针对性的做好营销工作。目前,旅游从业者一般通过电话或问卷抽样调查来判断用户的旅游出行意向以及目的地的类型,调查结果具有较大的偏差。
技术实现思路
为了克服现有的人工电话或问卷抽样调查方式的准确性较差的不足,本专利技术使用移动运营商提供的用户基本信息、业务使用、亲情网亲密度和出行行为等数据,经过数据预处理后使用梯度提升决策树算法预测用户的旅游出行意向以及目的地的类型,具有较高的准确性。为了解决上述技术问题,本专利技术所采用的技术方案是:一种基于梯度提升决策树的用户旅游出行意向及类型预测方法,所述用户旅游出行意向及类型预测方法包括以下步骤:步骤1、采集移动运营商提供的用户基本信息、业务使用、亲情网亲密度和出行行为数据表,并进行脱敏;所述的脱敏是对数据表中的某些信息按一定规则进行变形,实现敏感隐私数据的可靠保护,个人隐私信息都需要进行数据脱敏,所述个人隐私信息包括身份证号、手机号、卡号和客户号,脱敏后的真实数据集可以在开发、测试和其它非生产环境以及外包环境中安全地使用。步骤2、对用户基本信息、业务使用、亲情网亲密度和出行行为数据表进行数据预处理;所述数据预处理的实现过程为:(2.1)对于缺失数据的处理:如果某用户的所有特征数据缺失60%以上的信息,则将该用户的相关数据删除;否则,如果缺失数据是数值型的数据,取该特征的平均值填补;如果是非数值型的数据,则用空值填补;(2.2)以用户业务使用数据表作为基础,在其上进行一定程度的数据合并,例如求平均值等操作,再将其他数据表中关联度较高的特征整合进来;(2.3)对整合后的数据表进行特征选择:对于值为连续型变量的特征,计算Pearson相关系数,筛选出相关系数大于10%的特征;对于定序变量或不满足正态分布假设的等间隔数据,计算Spearman相关系数,筛选出相关系数大于10%的特征;(2.4)对筛选出来的所有特征按用户ID分组合并,得到最终用于训练的样本数据;步骤3、根据样本数据中出行类别的数量,构造向量表示对应的类别;所述构造向量表示对应类别的实现过程为:假设出行类别有n个,则用n维向量表示对应的类别,如类别1用n维度向量(1,0,0,…,0)表示,类别n用n维度向量(0,0,0,…,1)表示;步骤4、对样本数据中每个出行类别都训练一个分类回归树,即训练n个CART树,假设我们目前总共有M个特征,每一个CART树由M颗树组成。进一步,所述用户旅游出行意向及类型预测方法还包括以下步骤:步骤5、计算得到每个特征在各个特征值上的损失函数值,取损失函数值最小的情况构造预测函数。步骤6、生成待预测的用户在各个特征上的详细数据,使用预测函数进行预测。再进一步,所述步骤4中,分类回归树的实现过程为:①从样本数据的M个特征中选择出一个特征j,作为二叉树的第一个节点。②然后对特征j的值选择一个切分点m。一个样本的特征j的值如果小于m,则分为一类,如果大于m,则分为另外一类。③循环执行步骤①、②,直到完成CART树的构建。优选的,所述步骤4中,在每轮迭代的时候,选择特征j,以及选择特征j的切分点m的过程为:①遍历样本数据中的每个特征;②对每个特征遍历它所有可能的切分点,找到最优特征m的最优切分点j。所述步骤(2.3)中,所述两个变量的Pearson相关系数计算如下:所述的Spearman相关系数被定义成等级变量之间的Pearson相关系数,原始数据依据其在总体数据中平均的降序位置,被分配了一个相应的等级。本专利技术的技术构思为:在移动运营商提供的用户近期通话和上网数据的基础上,进行数据预处理和特征筛选,计算得出与决定用户是否出行以及目的地的类型关联度较高的特征,然后对特征和出行类别进行训练,生成预测模型,用于预测其他用户在未来一个月内是否有意向出行以及具体的目的地类型。本专利技术的有益效果主要表现在:在对用户数据进行特征筛选时运用统计学中的相关系数排除一些无关特征;在此基础上,使用梯度提升决策树来生成预测模型,提升预测的准确率。附图说明图1为本专利技术实现基于梯度提升决策树的用户旅游出行意向及类型预测方法的流程图。图2为用户年龄特征的节点分裂示意图。图3为用户在网时长特征的节点分裂示意图。具体实施方式下面结合附图对本专利技术做进一步描述。参照图1~图3,一种基于梯度提升决策树的用户旅游出行意向及类型预测方法:根据用户近期(1-3个月)的通话和上网行为数据,预测该用户在未来一个月内是否有意向出行以及具体的目的地类型。所述用户旅游出行意向及类型预测方法包括以下步骤:步骤1、采集移动运营商提供的用户基本信息、业务使用、亲情网亲密度和出行行为等数据表,并进行脱敏;所述的脱敏是对数据表中的某些信息按一定规则进行变形,实现敏感隐私数据的可靠保护,个人隐私信息都需要进行数据脱敏,所述个人隐私信息包括身份证号、手机号、卡号和客户号,脱敏后的真实数据集可以在开发、测试和其它非生产环境以及外包环境中安全地使用。以下为对各个数据表的描述:表1为对用户基本信息的描述:表1表2为对用户业务使用数据的描述:表2表3为对用户亲情网亲密度数据的描述:表3表4为对用户出行行为数据的描述:表4步骤2、对用户基本信息、业务使用、亲情网亲密度和出行行为等数据表进行数据预处理;所述数据预处理的实现过程为:(2.1)对于缺失数据的处理:表5为用户亲情网亲密度数据表的一部分数据样本。可以看到,其中第一条样本数据除用户唯一标识以外其余均为空值的情况,对于这样的数据,该用户所有特征数据中缺失60%以上的信息,故将其删除。表5(2.2)以用户业务使用数据表作为基础,在其上进行一定程度的数据合并,根据本月通话次数、上月通话次数以及上上月通话次数求平均值得到用户的平均通话次数。同理,求平均值得到用户三个月的平均通话时长、平均发送短信条数以及平均移动上网流量。同时,根据用户本月通话次数、本月省内漫游通话次数、本月省际漫游通话次数、本月国际漫游语音通话次数、国际漫游语音通话次数、用户当月港澳台漫游语音通话次数得到用户本月本地通话次数。相对于通话次数与通话时长,在本月省内漫游、本月省际漫游、本月国内漫游、本月国际漫游、本月港澳台通话方面只考虑次数,忽略时长。再将用户基本信息表中与旅游出行关联度较高的用户年龄、在网时长以及归属地市等特征整合到其中。至此得到的用于预测用户出行及类型的特征包括:用户年龄、在网时长、归属地市、平均通话次数、平均通话时长、平均移动数据上网流量、平均短信次数、近30天短信次数、本月本地通话次数、本月省内漫游通话次数、本月省际漫游通话次数、本月国内漫游通话次数、本月国际漫游语音通话次数和本月港澳本文档来自技高网...

【技术保护点】
1.一种基于梯度提升决策树的用户旅游出行意向及类型预测方法,其特征在于,所述用户旅游出行意向及类型预测方法包括以下步骤:步骤1、采集移动运营商提供的用户基本信息、业务使用、亲情网亲密度和出行行为数据表,并进行脱敏;所述的脱敏是对数据表中的某些信息按一定规则进行变形,实现敏感隐私数据的可靠保护,个人隐私信息都需要进行数据脱敏,所述个人隐私信息包括身份证号、手机号、卡号和客户号,脱敏后的真实数据集可以在开发、测试和其它非生产环境以及外包环境中安全地使用。步骤2、对用户基本信息、业务使用、亲情网亲密度和出行行为数据表进行数据预处理;所述数据预处理的实现过程为:(2.1)对于缺失数据的处理:如果某用户的所有特征数据缺失60%以上的信息,则将该用户的相关数据删除;否则,如果缺失数据是数值型的数据,取该特征的平均值填补;如果是非数值型的数据,则用空值填补;(2.2)以用户业务使用数据表作为基础,在其上进行一定程度的数据合并,例如求平均值等操作,再将其他数据表中关联度较高的特征整合进来;(2.3)对整合后的数据表进行特征选择:对于值为连续型变量的特征,计算Pearson相关系数,筛选出相关系数大于10%的特征;对于定序变量或不满足正态分布假设的等间隔数据,计算Spearman相关系数,筛选出相关系数大于10%的特征;(2.4)对筛选出来的所有特征按用户ID分组合并,得到最终用于训练的样本数据;步骤3、根据样本数据中出行类别的数量,构造向量表示对应的类别;所述构造向量表示对应类别的实现过程为:假设出行类别有n个,则用n维向量表示对应的类别,如类别1用n维度向量(1,0,0,…,0)表示,类别n用n维度向量(0,0,0,…,1)表示;步骤4、对样本数据中每个出行类别都训练一个分类回归树,即训练n个CART树,假设我们目前总共有M个特征,每一个CART树由M颗树组成。...

【技术特征摘要】
1.一种基于梯度提升决策树的用户旅游出行意向及类型预测方法,其特征在于,所述用户旅游出行意向及类型预测方法包括以下步骤:步骤1、采集移动运营商提供的用户基本信息、业务使用、亲情网亲密度和出行行为数据表,并进行脱敏;所述的脱敏是对数据表中的某些信息按一定规则进行变形,实现敏感隐私数据的可靠保护,个人隐私信息都需要进行数据脱敏,所述个人隐私信息包括身份证号、手机号、卡号和客户号,脱敏后的真实数据集可以在开发、测试和其它非生产环境以及外包环境中安全地使用。步骤2、对用户基本信息、业务使用、亲情网亲密度和出行行为数据表进行数据预处理;所述数据预处理的实现过程为:(2.1)对于缺失数据的处理:如果某用户的所有特征数据缺失60%以上的信息,则将该用户的相关数据删除;否则,如果缺失数据是数值型的数据,取该特征的平均值填补;如果是非数值型的数据,则用空值填补;(2.2)以用户业务使用数据表作为基础,在其上进行一定程度的数据合并,例如求平均值等操作,再将其他数据表中关联度较高的特征整合进来;(2.3)对整合后的数据表进行特征选择:对于值为连续型变量的特征,计算Pearson相关系数,筛选出相关系数大于10%的特征;对于定序变量或不满足正态分布假设的等间隔数据,计算Spearman相关系数,筛选出相关系数大于10%的特征;(2.4)对筛选出来的所有特征按用户ID分组合并,得到最终用于训练的样本数据;步骤3、根据样本数据中出行类别的数量,构造向量表示对应的类别;所述构造向量表示对应类别的实现过程为:假设出行类别有n个,则用n维向量表示对应的类别,如类别1用n维度向量(1,0,0,…,0)...

【专利技术属性】
技术研发人员:潘建奚家字汤绍雄吴攀峰赵焕东
申请(专利权)人:浙江工业大学之江学院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1