【技术实现步骤摘要】
一种基于社交网络的数据采集与分析系统
[0001]本专利技术涉及大数据分析
,具体涉及一种基于社交网络的数据采集与分析系统。
技术介绍
[0002]随着网络应用与移动设备的发展,社交网络的普及率与使用率日益提高。相比传统网络应用形式,社交网络具有用户主体性强、网络特征多样、数据内容丰富、群体交互密切、信息传播迅速等特点。中国互联网用户数量已经跃居全球首位,互联网用户在社交网站或者各大门户网站平台每天产生大量的网络行为数据。特别是微信、微博、手环等即时通讯、自媒体工具以及个人状态感应设备的使用,更使得每个用户随时都可以产生数据,整个社会深度跨入“社交网络大数据”时代。信息技术的迅速发展,大幅度地提高了科研人员的计算能力,各类型的硬件存储设备也不断升级,逐步满足数据的存储要求。在软件层面,算法、架构和编程语言也层出不穷。软硬件技术的发展,更给大数据挖掘提供了可能。
[0003]对社交网络大数据进行挖掘,能获得反映真实世界及其中的人的各种宝贵信息。但同时,社会媒体中的数据也存在多源异构、个体间关系繁杂、信息传播突发等 ...
【技术保护点】
【技术特征摘要】
1.一种基于社交网络的数据采集与分析系统,其特征在于,至少包括处理器(10),处理器(10)配置为:获取社交网络的至少包括中心节点、边缘节点和/或间接节点的拓扑结构;随机选取至少两个中心节点为数据采集的起始,并基于每个中心节点建立包括间接节点和/或边缘节点的第一存储空间;基于第一存储空间寻找连接至少两个中心节点的间接节点/边缘节点,并以朝向该间接节点/边缘节点为方向进行数据采集。2.根据权利要求1所述的数据采集与分析系统,其特征在于,处理器(10)配置为:基于中心节点获取包含间接节点和/或边缘节点的多个页面链接URL;对页面链接URL解析将间接节点和/或边缘节点分为关于用户名的第一类节点、关于问答的第二类节点和关于文章的第三类节点。3.根据权利要求1或2任一所述的数据采集与分析系统,其特征在于,在第一存储空间没有相同间接节点和/或边缘节点的情况下,处理器(10)配置为:基于选取的第一存储空间内的节点进行解析分别获取关于该节点的所包含的第一类节点、第二类节点和第三类节点;将该节点所包含的第一类节点、第二类节点和第三类节点存储于第二存储空间;基于第二存储空间寻找连接至少两个中心节点的间接节点/边缘节点,并以朝向该间接节点/边缘节点为方向进行数据采集。4.根据前述权利要求任一所述的数据采集与分析系统,其特征在于,在第一存储空间内间接节点和/或边缘节点的个数小于第一阈值的情况下,处理器(10)配置为基于等概率的方式随机选取第一存储空间内的所有节点。5.根据前述权利要求任一所述的数据采集与分析系统,其...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。