基于Hadoop和RAPIDS的多源特征转换基站下APP使用预测方法及系统技术方案

技术编号:33152052 阅读:25 留言:0更新日期:2022-04-22 14:06
本发明专利技术提供了一种基于Hadoop和RAPIDS的多源特征转换基站下APP使用预测方法及系统,所述方法用hadoop大数据框架对数据预处理,对基站下的上网用户的上网数据进行特征提取,计算不同时间窗下在某个基站的用户的多源数据构建用户多维画像,基于flink在不同时间窗口内进行用户画像特征到基站画像特征的映射计算,得到不同时间窗下的基站特征画像及其相邻基站的基站特征画像;采用Attention

【技术实现步骤摘要】
基于Hadoop和RAPIDS的多源特征转换基站下APP使用预测方法及系统


[0001]本专利技术属于信息
,具体涉及一种基于Hadoop和RAPIDS的多源特征转换基站下APP使用预测方法及系统。

技术介绍

[0002]随着移动互联网的发展,智能手机已经成为我们生活中不可或缺的个人设备,几乎涵盖了我们生活的方方面面,根据中国信通院披露的数据,2019年12月国内智能手机出货量2893.1万部,同比下降13.7%,其中5G手机541.4万部。2019年全年,国内智能手机出货量3.72亿部,同比下降4.7%,其中5G手机1376.9万部,从市场及企业角度来看,虽然智能手机的普及率越来越高,但是市场还没有饱和,仍旧可以快速发展。广阔的手机市场驱动华为、苹果、小米等手机制造商提供和开发更好的手机平台,于是在智能手机技术、平台的巨大进步,以及个人开发者的热情的驱动下,大量的移动应用程序(APP)被创造出来,服务于广泛的使用厂家,使我们的日常生活更加方便,使用这些APP对我们的生活带来了极大的便利。但是从互联网服务提供商角度来看,飞速增长的手机市场本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于Hadoop和RAPIDS的多源特征转换基站下APP使用预测方法,其特征在于,包括以下步骤:获取当前基站的历史数据,存入Hadoop集群,并采用MapReduce/Spark计算引擎对数据进行预处理,包括数据异常值清洗、数据格式统一以及数据类型转换的方式对数据集进行清洗重构,并按照时间进行排序;对清洗和排序以后的数据进行时间窗划分,并对时间窗口内的特征进行特征过滤和混合采样,并采用滑动时间窗的方式构建数据集;对时间窗下平衡以后的数据集进行分类,分类前使用已有的APP类别的使用特性,将APP按照适用场景分为低延迟、高带宽以及多连接三类,采用基于Attention

LSTM模型的投票机制预测出下一个时间窗最可能使用的APP类别;所述Attention

LSTM模型优化过程如下:获取用户连接基站的上网数据,所述上网数据包括用户个体数据及上网数据;基于用户上网数据获取所用APP名称及上网URL,并根据APP名称及上网URL与APP种类的对应关系映射为APP所属种类,采用时间和流量双重加权的方式得到当前时间窗下基站使用最多的APP种类;针对当前时间窗下基站使用最多的APP种类的数据构建当前基站下用户的基础特征,再基于所述基础特征构建用户的多维画像;基于所述用户的多维画像,基于flink在不同时间窗口内进行用户画像特征到基站画像特征的映射计算,得到不同时间窗下的基站特征画像及其相邻基站的基站特征画像;对时间窗口内的特征进行特征过滤和混合采样,并采用滑动时间窗的方式构建数据集,对Attention

LSTM模型进行训练和预测,在训练过程中基于RAPIDS进行多GPU加速,得到优化后的Attention

LSTM模型。2.根据权利要求1所述的基于Hadoop和RAPIDS的多源特征转换基站下APP使用预测方法,其特征在于,获取用户连接基站的上网数据具体为:从基站数据中提取用于训练模型的用户上网数据,用户上网数据包含url、请求开始时间、请求结束时间、上行流量,下行流量、用户个人数据以及基站位置。3.根据权利要求1所述的基于Hadoop和RAPIDS的多源特征转换基站下APP使用预测方法,其特征在于,使用flink构建一个固定步长的滑动时间窗口,并在时间窗口内进行第二次数据清洗、转换以及异常值处理,对时间窗口内的数据进行滑动处理,计算基站和用户特征画像,得到固定时间步长下的用户在基站下的上网数据,并使用APP类别对照表,根据上网请求的url解析出用户使用的APP名称,再根据APP名称及上网URL与APP种类的对应关系和APP的使用特性,将用户使用的APP分为低延迟、高带宽和多连接三类;基于使用的APP种类,按照使用时间和流量进行APP加权,计算出权重最大的APP类别,作为当前基站下使用最多的APP种类;加权计算公式为:其中:W
j
表示APP j在当前基站下的权重大小,t
ij
表示第i个人使用APP j的时间,d
ij

示APP j在当前基站下的下行流量,up
ij
表示APP j在当前基站下的上行流量大小,SUM(t)表示当前基站下所有APP的使用时长和,SUM(d)和SUM(up)分别表示当前基站下所有APP的上行流量和下行流量之和,a、b、c为加权系数。4.根据权利要求1所述的基于Hadoop和RAPIDS的多源特征转换基站下APP使用预测方法,其特征在于,使用多个固定时间窗内的用户滑动上网数据,提取固定时间窗内用户的用户统计学特征、上网特征和用户移动数据,包括用户统计学特征包括年龄和性别;用户移动数据特征包括移动距离、停留点个数、停留点时长、回转半径和平均移动速度;上网特征:上网时长和上网时间段,其中a.活动范围的计算公式为:计算用户位置点集合的最小外接圆,每小时的活动范围就是外接圆的面积,计算公式为:f(a,b,r)=max(Dis(p
i,j
,p
a,b
))≤r其中,f(a,b)表示以经纬度为(a,b)圆心,r为半径的圆,Dis(p
i,j
,p
a,b
)表示(a,b)和(i,j)之间的直线距离,其中p
i,j
∈R,R是用户的位置点集合,为计算用户位置点集合R的外接圆表达式;b.回转半径计算公式为:r=max(Dis(Dis(p
i,j
,p
a,b
)))c.新地点的出现次数:c=Count(p
i,j
)其中,count()代表计算数目,p
i,j
∈R

,R

是用户的这一时间段与上一时间段位置点的差集...

【专利技术属性】
技术研发人员:邹建华付梁毓赵玺黄呈昊陶敬
申请(专利权)人:广东顺德西安交通大学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1