【技术实现步骤摘要】
一种基于移动大数据的预出境用户识别方法
本专利技术属于数据挖掘应用领域,涉及基于移动大数据的预出境用户识别方法。
技术介绍
移动设备的高普及率带来了移动数据的爆发式增长,移动大数据具有数据采样全面、实时性好等优点,在趋势性分析和潜在用户挖掘领域相当具有权威性,为行业用户挖掘提供良好的便利条件。随着出境人数逐年递增,出境服务市场迎来良好的发展机遇。用户出境行为准确的预测,对于出境服务产品的定制、精准投放以及出入境管理起到关键性作用。传统关于出境领域的研究主要是对出国留学人数年变化趋势进行预测,对出国旅游人员进行画像和行为分析,研究数据来源主要是统计调查数据、旅游网站数据等。研究方法主要是基于灰色模型、时间序列分析法、统计分析方法等传统方法。但传统方法研究存在样本量小,预测结果偏差较大、数据真实性和时效性无法保证等诸多问题,并且缺乏对用户出境前的行为研究。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基于移动大数据的预出境用户识别方法,能够有效解决传统方法数据获取成本高,数据真实性无法 ...
【技术保护点】
1.一种基于移动大数据的预出境用户识别方法,其特征在于,该方法具体包括以下步骤:/nS1:采集出境服务机构的通信基站位置数据、出境服务通话端口数据和出境服务APP的域名关键词数据,利用所采集数据建立维表数据库;/nS2:基于维表数据库与移动大数据,分别提取用户的通话行为特征、上网行为特征、出行行为特征和静态特征;/nS3:将用户的行为特征和静态特征进行聚合关联,构建特征宽表;/nS4:设计特征选择算法,从特征宽表中筛选与类别强相关的特征子集;/nS5:借助逻辑回归分类器构建预出境用户识别模型,完成模型的训练、评估与调参;/nS6:将待测试数据输入识别模型,识别预出境用户。/n
【技术特征摘要】
1.一种基于移动大数据的预出境用户识别方法,其特征在于,该方法具体包括以下步骤:
S1:采集出境服务机构的通信基站位置数据、出境服务通话端口数据和出境服务APP的域名关键词数据,利用所采集数据建立维表数据库;
S2:基于维表数据库与移动大数据,分别提取用户的通话行为特征、上网行为特征、出行行为特征和静态特征;
S3:将用户的行为特征和静态特征进行聚合关联,构建特征宽表;
S4:设计特征选择算法,从特征宽表中筛选与类别强相关的特征子集;
S5:借助逻辑回归分类器构建预出境用户识别模型,完成模型的训练、评估与调参;
S6:将待测试数据输入识别模型,识别预出境用户。
2.根据权利要求1所述的一种基于移动大数据的预出境用户识别方法,其特征在于,步骤S1中,所述维表数据库包括基站维表、APP维表和通话维表,具体构建方法为:
1)采集出境服务机构归属通信基站信息,依据出境服务机构与归属通信基站的一对多映射关系,构建基站维表;
2)采集出境服务APP的详细网络封包信息,撷取APP的域名和关键词,依据APP与域名、关键词的一对多映射关系,构建APP维表;
3)采集出境服务机构的服务通话端口信息,验证通话端口有效性,依据出境服务机构与通话端口的一对多映射关系,构建通话维表。
3.根据权利要求1所述的一种基于移动大数据的预出境用户识别方法,其特征在于,步骤S2中,
1)所述通话行为特征包括国际通话行为特征和国内通话行为特征,其中:
A、国际通话行为特征提取步骤包括:从CDR话单中提取有国际通话记录的用户信息;统计用户在数据周期内的总通话时长T1、总通话频次F1和总的通话端口数N1;设定通话频次阈值Fy1;剔除通话频次超过Fy1的用户数据;最后得出用户与每个端口的月均通话时长Tv1和通话频次Fv1;
B、国内通话行为特征提取步骤包括:从CDR话单中提取与目标通话端口产生通话记录的用户信息;设定单次通话时长阈值Ty1;剔除单次通话时长Teach小于Ty1的用户数据;统计用户在数据周期内与各通话端口的总通话时长T2、总通话频次F2和各类型的通话端口数N2;最后得出用户和各类型端口的月均通话时长Tv2和通话频次Fv2;
2)所述上网行为特征的提取步骤包括:从上网日志中提取可能使用目标APP的用户信息;设定上网流量阈值Fy2;剔除上网流量Feach小于Fy2的用户数据;统计用户在数据周期内使用的各APP的总上网流量F3、总上网频次F4和各类型的APP数量N3;最后得出用户使用各类型APP的月均流量Fa1和月均频次Fa2;
3)所述出行行为特征的提取步骤包括:从用户轨迹数据中提取在目标地理位置驻留过的用户信息;计算用户每次在目标地理位置的驻留时长T3;设定单次驻留时长阈值Ty2;剔除单次驻留时长T3小于Ty2的用户数据;剔除居住或工作在目标地理位置的用户数据;统计用户每日在目标地理位置的总驻留时长T4、日出行频次F5和去往各类型目标地理位置的数量N4;最后得出用户在各类型目标地理位置的日均驻留时长...
【专利技术属性】
技术研发人员:许国良,张轩,徐千淞,李万林,王超,雒江涛,易燕,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。