当前位置: 首页 > 专利查询>南京大学专利>正文

一种针对用户时空数据行为检测的Adaboost方法技术

技术编号:23672271 阅读:66 留言:0更新日期:2020-04-04 17:46
本发明专利技术公开了一种针对用户时空数据行为检测的Adaboost方法,根据用户的时空数据,空间数据用于经纬度的表示,根据时间序将这些空间点有序的连接起来形成一个轨迹图。轨迹图可以将用户的常驻点作为一个核心点将整个轨迹划分成多个环。利用空间上经纬度之间的距离计算以及时间节点上的差值计算,可以从图中得到多条特征。根据计算所得,将简单的用户时空数据转化成了更多维度的特征向量,送入机器学习的分类模型当中对用户行为分析进行预测。本发明专利技术通过图上的轨迹挖掘出用户更为丰富的潜在信息,基于机器学习Adaboost的预测方法,可以更加显著地提高预测的准确率。

AdaBoost method for user spatiotemporal data behavior detection

【技术实现步骤摘要】
一种针对用户时空数据行为检测的Adaboost方法
本专利技术主要涉及一种针对用户时空数据行为检测的Adaboost方法,属于数据分析

技术介绍
近年来,随着空间数据采集技术的发展,基于位置信息的用户行为轨迹分析及其应用的研究引起了广泛的关注,并已经展现了良好的商业前景。时空轨迹聚集模式是指一组时空移动对象在一定时间内一起移动形成的行为模式.作为一种重要的时空轨迹模式,聚集模式的应用涉及了人类行为、交通物流、应急疏散管理、动物习性和市场营销等诸多方面.通过对时空轨迹数据进行挖掘,可以从中提取出有意义的聚集模式,从而帮助我们监控和预测一些不寻常的群体事件。在数据表示上采用图结构,因为图论是数学的一个分支,它以图为研究对象,研究节点和边组成的图形的数学理论和方法。图论中的图是由若干给定的点及连接两点的边所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点的边表示相应两个事物间具有这种关系。通过图结构的表示,能更清晰展示用户的轨迹,也更加方便利用图相关算法从图中挖掘出更丰富的语义。在分类方面本文档来自技高网...

【技术保护点】
1.一种针对用户时空数据行为检测的Adaboost方法,其特征在于包括以下步骤:/n步骤1,数据预处理:采集检索对象的用户时空数据,作为原始数据,用户时空数据包括用户所在地点的经度和维度以及对应所在这个地点的时间;将原始数据存储在数据库中,每行五列,包含主键、用户身份证号、时间、经度、维度;优先根据用户身份证号排序,再根据时间排序;原始数据中的训练数据还收集其中一部分用户的用户行为类别用于训练模型;/n步骤2,从数据库中读取用户时空数据,构建每一位用户的时间轨迹图;/n步骤3,基于常驻点作为环的起始/终止点,将每一位用户的时间轨迹图切分成多个环;/n步骤3中切分成多个环的方法包括以下步骤:/n...

【技术特征摘要】
1.一种针对用户时空数据行为检测的Adaboost方法,其特征在于包括以下步骤:
步骤1,数据预处理:采集检索对象的用户时空数据,作为原始数据,用户时空数据包括用户所在地点的经度和维度以及对应所在这个地点的时间;将原始数据存储在数据库中,每行五列,包含主键、用户身份证号、时间、经度、维度;优先根据用户身份证号排序,再根据时间排序;原始数据中的训练数据还收集其中一部分用户的用户行为类别用于训练模型;
步骤2,从数据库中读取用户时空数据,构建每一位用户的时间轨迹图;
步骤3,基于常驻点作为环的起始/终止点,将每一位用户的时间轨迹图切分成多个环;
步骤3中切分成多个环的方法包括以下步骤:
步骤3a),从数据库表或者直接利用身份证信息上的住址,读取用户的常驻点base,base点经纬度为(base_lng,base_lat);
步骤3b),如果所收集数据终止点不是base,在终止处添加一个base点,时间设定与终止处相同,保证最后结尾能成环;
步骤3c),数据预处理阶段结束,创建一个记录环中点集的列表cycle,以及一个记录所有环信息的二维数组cycles,里面每一个元素都是一个cycle的点集;
for循环从头到尾遍历所有点,将该点加入cycle中,如果点的经纬度与base点相同,说明已经成环此时cycle中的点是一个完整的环了,那么将该cycle复制一份添加到cycles当中并且清空当前cycle进入下一轮;如果cycle中是连续的两个base点,那么也就是说明cycle中只包含一个base点,那么这是一个无意义的cycle,不必加入cycles当中,直接清空进入下一轮即可;
步骤4,根据经纬度距离度量从每一位用户的时间轨迹图以及环上提取出用户特征信息;
步骤5,将训练数据中用户行为类别和根据训练数据提取的用户特征信息放入adaboost分类器进行训练,得到训练好的模型M;
步骤6,将根据待分类用户的用户时空数据中提取到的用户特征信息传入训练好的模型M中得到预测结果M(x)。


2.根据权利要求1所述针对用户时空数据行为检测的Adaboost方法,其特征在于:步骤1中收集的数据分为两种数据,第一种原始数据格式为{‘id’,‘身份证号’,‘时间’,‘经度’,‘纬度’},id表示样本编号作为主键,身份证号用于标识一个用户的信息,同时作为外键与另一张表相连;第二种原始数据格式为{‘身份证号’,‘行为分类’},第二种原始数据是将包含在其中的用户作为训练数据,这里给出的行为分类用于训练分类模型。


3.根据权利要求2所述针对用户时空数据行为检测的Adaboost方法,其特征在于:将用户时空数据表示为一个时间轨迹图的方法如下:根据用户数据优先根据用户身份证号,其次根据时间从小到大排序,那么得到连续的每一段都是一个用户根据时间先后到达的不同地点,表示为{(lng1,lat1,time1),(lng2,lat2,time2),…,(l...

【专利技术属性】
技术研发人员:张雷淦珺曾成罗向阳
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1