舆情大数据处理方法技术

技术编号:16427940 阅读:52 留言:0更新日期:2017-10-21 22:52
本发明专利技术提供了一种舆情大数据处理方法,该方法包括:控制节点协调多个爬取节点的爬取事务;爬取节点分别进行网页爬取,将获取的舆情数据存储在云文件系统中。本发明专利技术提出了一种舆情大数据处理方法,实现了并行网页爬取,提高采集和存储效率,广泛适用于大规模的社交网络。

Big data processing method of public opinion

The present invention provides a kind of public opinion in the data processing method, the method comprises: a control node coordinate multiple node crawling crawling transaction; crawling nodes respectively for web crawling, will store the acquired data in the cloud file system in public opinion. The invention provides a method for processing public opinion big data, realizes parallel web crawling, improves collection and storage efficiency, and is widely applicable to large-scale social networks.

【技术实现步骤摘要】
舆情大数据处理方法
本专利技术涉及大数据,特别涉及一种舆情大数据处理方法。
技术介绍
社交网络中用户是信息的发布者,用户如果对某方面的信息感兴趣,该用户需要做的是同发布这方面信息的用户建立社会网址,构建自己的社交网络,实时的相关信息就会通过社交网络传播到该用户那里。社交网络中传播的信息,例如,在微博中,用户的转发行为引发了微博信息在网络中传播,用于市场营销、广告投放和谣言控制等多个方面。由此可见,信息在社交网络中的传播对帮助用户获取信息起着至关重要的作用。现有技术中的信息传播跟踪方法通常只考虑了比较单一的影响信息传播的因素,方法中虚拟的参数通常是任意指定的,不具备预测信息传播的能力。此外,当给定一个社交网络后,对于如何在社交网络上选取一个指定规模的节点集合以达到影响力最大化的效果方面,已有方法只适用于小型网络,对于大规模的社交网络,只能得到近似的较优结果。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种舆情大数据处理方法,包括:控制节点协调多个爬取节点的爬取事务;爬取节点分别进行网页爬取,将获取的舆情数据存储在云文件系统中。优选地,所述控制节点启动各个爬取节点、事务的分发、管理爬取节点状态、管理URL以及爬取节点。优选地,所述控制节点根据自身的配置信息获取已部署爬取节点的数量,以远程登录的方式启动爬取节点。优选地,所述控制节点初始化事务分发时,向各个爬取节点发送爬取事务,控制节点首先探测各个爬取节点的连通性;将物理上无法连通的主机的信息从数据库中删除,然后进入事务分发阶段;当爬取节点返回URL时,控制节点再给请求的爬取节点发送事务;爬取过程中对于从爬取的网页抽取的URL则返回给控制节点,由控制节点统一调度;控制节点以固定个数的URL不断向请求事务的爬取节点发送事务。优选地,所述爬取节点启动后向控制节点发送一个就绪状态信息,表明该爬取节点已经做好准备,可以接受爬取事务;控制节点收到爬取节点的就绪信息后,生成一个初始事务,即封装待爬取的网页的URL,并以文件的形式发送到爬取节点某个特定的路径下;如果控制节点发现当前数据库中无数据而且系统中还有爬取节点在爬取,则向该爬取节点发送等待信息,爬取节点根据收到运行信息,到相应的路径下,装载待爬取URL到爬取队列,在当前爬取完之后继续爬取下一次事务;爬取节点若收到等待信息,爬完当前事务后,保持等待状态,直到控制节点将其唤醒;在爬取网页的过程中,抽取出的URL达到预定量后,封装成一个数据文件,爬取节点将其发送到控制节点的特定路径下,控制节点到指定路径下装载数据至数据库中;当爬取节点即将完成本次爬取事务的时候,同样向控制节点发送就绪状态信息。本专利技术相比现有技术,具有以下优点:本专利技术提出了一种舆情大数据处理方法,实现了并行网页爬取,提高采集和存储效率,广泛适用于大规模的社交网络。附图说明图1是根据本专利技术实施例的舆情大数据处理方法的流程图。具体实施方式下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本专利技术的范围仅由权利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。本专利技术的一方面提供了一种舆情大数据处理方法。图1是根据本专利技术实施例的舆情大数据处理方法流程图。分布式爬取整体架构包括爬取节点、控制节点以及云文件系统三部分。控制节点负责协调爬取节点之间的爬取,爬取节点负责爬取网页,爬取的网页存储在云文件系统中。控制节点启动各个爬取节点、事务的分发、管理爬取节点状态、管理URL以及爬取节点是否终止。控制节点根据自身的配置信息获取已部署多少个爬取节点,由控制节点远程登录的方式启动爬取节点;爬取节点启动后向控制节点发送一个就绪状态信息,表明该爬取节点已经做好准备,可以接受爬取事务了;控制节点收到爬取节点的就绪信息后,生成一个初始事务,即封装了一些待爬取的网页的URL,并以文件的形式发送到爬取节点某个特定的路径下。如果控制节点发现当前数据库中无数据而且系统中还有爬取节点在爬取,它就会向该爬取节点发送等待信息,爬取节点根据收到运行信息,到相应的路径下,装载待爬取URL到爬取队列,在当前爬取完之后继续爬取下一次事务。爬取节点若收到等待信息,爬完当前事务后,保持等待状态,直到控制节点将其唤醒;在爬取网页的过程中,抽取出的URL达到预定量后,封装成一个数据文件,爬取节点将其发送到控制节点的特定路径下,控制节点到指定路径下装载数据至数据库中;当爬取节点即将完成本次爬取事务的时候,同样向控制节点发送就绪状态信息。控制节点包括状态管理器、数据装载器、过滤器、事务管理器、数据库。状态管理器负责判断爬取节点发送的状态类型,如果状态是数据爬取,则状态管理器将其提交数据装载器;如果是事务请求状态,则将其交给事务管理器。数据装载器到指定的路径下以文件的形式读取爬取节点发送的URL,然后将这些数据交给过滤器。过滤器对数据进行去重,将经过处理的数据存储至数据库中。数据库存储待爬取的URL以及爬取节点的管理信息。事务管理器生成、发送爬取事务以及爬取节点控制信息,并将爬取事务和控制信息发送给请求的爬取节点。对于数据去重处理,通过MD5算法来生成散列函数:首先构造一个bit数组,大小为224,用于保存已经处理过URL的历史记录;构成散列函数构造分成两部分,即全局散列和局部散列,具体构造过程如下:获得一个关于URL的MD5值的字符串形式,将字符串转换成一个128位的byte值,并对224求余,使之映射到0~224的范围内;将这128位的MD5值去掉其中的高8位,剩下其余的120位;这120位每24位分成一组,形成五组。每一组值的取值范围为再对这五组散列值进行如下转化,使它们映射到相应区间:前两个散列函数对224/3求余,映射区间为0~224/3;接下来的两个函数,同样对224/3求余,映射范围为而后分别加上224/3,使之映射区间为最后一个函数,同样对224/3求余,映射范围为0~224/3,而后将它的值加224/3,使之映射区间为224/3~224。进行URL去重的过程为:首先初始化224的位数组,每个位置为0。当有URL输入时,计算该URL的散列值,得出一个关于当前URL的一个128位的字符串表示,将此字符串按上述散列过程分别得到全局散列值和局部散列值;依次检测所有散列值为是否都为1,如果有一个不为1,则通过该过滤器过滤。判别URL结束之后,将所有散列值对应的位置为1。控制节点初始化事务分发时,向各个爬取节点发送爬取事务。控制节点首先探测各个爬取节点的连通性。将物理上无法连通的主机的信息从数据库中删除,然后进入事务分发阶段。当爬取节点返回URL时,控制节点再给请求的爬取节点发送事务。爬取过程中对于从爬取的网页抽取的URL则返回给控制节点,由控制节点统一调度。控制节点以固定个数的URL不断向请求事务的爬取节点发送事务。爬取节点中的待爬取队列暂存本次控制节点发送的爬取事务,即待爬取的URL。预取单元从待爬取队列中获取一个URL,获取之后对该URL进行预处理,处理之后交本文档来自技高网...
舆情大数据处理方法

【技术保护点】
一种舆情大数据处理方法,用于在分布式数据采集架构中对网络舆情数据进行爬取,其特征在于,包括:控制节点协调多个爬取节点的爬取事务;爬取节点分别进行网页爬取,将获取的舆情数据存储在云文件系统中。

【技术特征摘要】
1.一种舆情大数据处理方法,用于在分布式数据采集架构中对网络舆情数据进行爬取,其特征在于,包括:控制节点协调多个爬取节点的爬取事务;爬取节点分别进行网页爬取,将获取的舆情数据存储在云文件系统中。2.根据权利要求1所述的方法,其特征在于,所述控制节点启动各个爬取节点、事务的分发、管理爬取节点状态、管理URL以及爬取节点。3.根据权利要求1所述的方法,其特征在于,所述控制节点根据自身的配置信息获取已部署爬取节点的数量,以远程登录的方式启动爬取节点。4.根据权利要求1所述的方法,其特征在于,所述控制节点初始化事务分发时,向各个爬取节点发送爬取事务,控制节点首先探测各个爬取节点的连通性;将物理上无法连通的主机的信息从数据库中删除,然后进入事务分发阶段;当爬取节点返回URL时,控制节点再给请求的爬取节点发送事务;爬取过程中对于从爬取的网页抽取的URL则返回给控制节点,由控制节点统一调度;控制节点以固定...

【专利技术属性】
技术研发人员:张鹏
申请(专利权)人:成都布林特信息技术有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1