【技术实现步骤摘要】
一种基于大数据挖掘的群体发现算法模型及分析模块
本专利技术涉及大数据挖掘领域,更具体地说,是一种基于大数据挖掘的群体发现算法模型。
技术介绍
社团发现已经有很长的研究历史,并且在不同的学科有不同的形式。它与图论和计算机学科中的图分割和社会网络中的层次聚类的思想联系密切。图分割是并行计算领域研究的重要问题。假设有n个能够通信的计算处理器(处理区并不是要与其他所有的处理器相互通信)。据此可以建立一个网络,其中节点代表处理器,节点之间的边把相互通信的两个节点链接在一起。并行计算要解决的问题是为每个节点分配数量相同的任务,并且使得节点之间的通信最少,也就是使边数数量尽可能少的问题。分层聚类是寻找社会网络中的社团结构的一类传统算法,这种算法是社会科学家在研究社会网络时提出的发现社会网络中社团结构的方法。它是基于各个节点之间连接的相似性或者强度,把网络自然的分为若干个子群。根据向网络中新增边还是删减边,该算法又分为两类:凝聚算法(agglomerativemethod)和分裂算法(divisivemethod)。Giran和Newman提出了一种新的基于边移除的算法称为GN算法。GN算法寻找处于社团之间的边,然后移除这些边,从而找出网络中的社团。上述的GN算法,每移除一条边后都要重新计算边的介,这就使得此算法的复杂度较高。为此,出现了很多基于GN算法的优化。这些算法很多都是从改进边的度量以高算法的执行速度。例如Tyler算法和Radicchi算法。并且还引出了一类优化模块度Q的算法。除了上 ...
【技术保护点】
1.一种基于大数据挖掘的群体发现算法模型,其特征在于,包括以下步骤:/nS1:获取目标的每一条轨迹数据,并作预处理;/nS2:以目标的每一条有效轨迹数据为起点,以定长δ(指定的时间跨度,比如5min)截取预处理后的轨迹数据;记录所截得的切片中其他人出现的次数(去重);/nS3:利用这些切片,初步确定同行的人;/nS4:获取目标和同行的人的时间序列轨迹数据并预作处理;/nS5:以每一条有效足迹为起点,以已知定长δ/2截取该时间序列轨迹数据;计算所有目标和同行的人出现的次数;/nS6:在S5的基础上对切片后的数据进行二次切片,形成一组关于目标和同行足迹的有序事务;/nS7:在S6的基础上,利用相关系数计算2-群体,并进一步推导出3-群/n体…直到n-群体;并对最终的结果进行反向删除。/n
【技术特征摘要】
1.一种基于大数据挖掘的群体发现算法模型,其特征在于,包括以下步骤:
S1:获取目标的每一条轨迹数据,并作预处理;
S2:以目标的每一条有效轨迹数据为起点,以定长δ(指定的时间跨度,比如5min)截取预处理后的轨迹数据;记录所截得的切片中其他人出现的次数(去重);
S3:利用这些切片,初步确定同行的人;
S4:获取目标和同行的人的时间序列轨迹数据并预作处理;
S5:以每一条有效足迹为起点,以已知定长δ/2截取该时间序列轨迹数据;计算所有目标和同行的人出现的次数;
S6:在S5的基础上对切片后的数据进行二次切片,形成一组关于目标和同行足迹的有序事务;
S7:在S6的基础上,利用相关系数计算2-群体,并进一步推导出3-群
体…直到n-群体;并对最终的结果进行反向删除。
2.根据权利要求1所述的基于大数据挖掘的群体发现算法模型,其特征在于,所述步骤S1中,获取目标的每一条轨迹数据,并且按站点分组,各组按时间排序后,以定长interval(指定时长,比如3min)对分组后的数据进行去重,即如果一个人在某个站点短时间(interval)内连续出现多次,只保留第一条记录。
3.根据权利要求1所述的基于大数据挖掘的群体发现算法模型,其特征在于,所述步骤S2中,以目标的每一条有效轨迹数据为中心,以指定时长δ截取预处理后的轨迹数据,记录所截得的切片中其他人出现的次数,如果目标的同一个切片中出现多次某个人的记录,只记1次。
4.根据权利要求1所述的基于大数据挖掘的群体发现算法模型,其特征在于,所述步骤S3中,利用Apriori关联分析中支持度的思想,初步确定目标的同行:对于目标A,如果在S2中找到的所有的以A为中心的切片中出现的所有人的集合为X,则对于任意一个不是目标的人B∈(X-A),如果B在所有以A为中心的切片中累计出现的次数count(B)>阈值S,则认为B是A同行。
5.根据权利要求1所述的基于大数据挖掘的群体发现算法模型,其特征在于,所述步骤S4中,在初步确定同行的范围后,获取目标和同行的人的时间序列轨迹数据,按地点分组,各组按时间排序后;对同一个人的连续重复数据做去重。
6.根据权利要求1所述的基于大数据挖掘的群体发现算法模型,其特征在于,所述步骤S5中,以目标和所有同行的人的每一条有效足迹为起点,以已知定长δ/2截取该时间序列轨迹数据;计算目标和所有同行的人各自出现的次数。
7.根据权利要求1所述的基于大数据挖掘的群体发现算法模型,其特征在于,所述步骤S6中,在S5的基础上对切片后的数据进行二次切片,形成一组关于目标和同行足迹的有序事务。
8.根据权利要求1所述的基于大数据挖掘的群体发现算法模型,其特征在于,所述步骤S7中,依...
【专利技术属性】
技术研发人员:薛岭,王倩,徐熙豪,
申请(专利权)人:南京柏跃软件有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。