一种专门针对微博数据采集方式的方法技术

技术编号:10982772 阅读:62 留言:0更新日期:2015-01-30 19:50
本发明专利技术是一种专门针对微博数据采集方式的方法,首先,模拟用户登陆到微博账号中,并且记录下登陆信息,然后进行抓取微博中的数据,其中:1)把抓取用户的微博页面作为入口点,爬取起始页面上的微博信息,并且组成有效的结构化数据;2)将用户的UID和当前页面的URL组成新的URL,存入到保存队列中,这样方便获取当前爬取页面内容的UID;3)将爬取到的数据放到本地的数据库中。设计并实现了对实时更新的微博数据的采集工作。能够有效的解决微博限制登录和微博数据实时更新的问题。在微博数据的采集中,由于微博数据量大,存储格式多,存储难度大等原因,造成了对微博数据采集难度很大,因此如何高效的采集微博数据成为一个非常重要的问题。

【技术实现步骤摘要】

本专利技术涉及通信
,具体地说是。本专利涉及数据抓取,模拟登陆,数据采集,数据库,非结构化数据。
技术介绍
在微博数据的采集中,由于微博数据量大,存储格式多,存储难度大等原因,造成了对微博数据采集难度很大,因此如何高效的采集微博数据成为一个非常重要的问题。传统的互联网数据采集方式中,我们无法做到实时更新互联网数据,只能一次登录采集到少量的数据,无法满足我们的需求,缺少数据的完整性。
技术实现思路
本专利技术的目的是提供。 本专利技术的目的是按以下方式实现的,采用模拟登陆的方法,不间断的采集微博数据,实时更新采集到的数据,能极大地提高数据采集量,为以后做数据分析和处理提供了保障,非结构化数据是大数据数据多样化的的一个特点,而点击流中的数据是多样化数据的一部分,依托强大的网站分析工具,得到最细粒度的原始数据Raw Data,非结构化化数据包括文本、视频、文档、音频、甚至地理位置信息,击流中的非结构化数据的文本挖掘应用,是对这些非结构化数据如何更好的应用,针对传统的实时更新数据采集方式上面的问题,改进了传统的微博数据采集方式,这个过程分为两个步骤,首先,模拟用户登陆到微博账号中,并且记录下登陆信息,然后进行抓取微博中的数据,其中:1)把抓取用户的微博页面作为入口点,爬取起始页面上的微博信息,并且组成有效的结构化数据;2)将用户的UID和当前页面的URL组成新的URL,存入到保存队列中,这样方便获取当前爬取页面内容的WD ;3)将爬取到的数据放到本地的数据库中。 在组成新的URL过程分为四个步骤,1)人工初试化一个新的URL,设置为空;2)进行页面数据采集的过程中,读取采集页面的URL,将此URL放入到初始化的URL 中;3)微博会为每一个登录用户获取一个UID和微博的一些个人信息,将此内容页放到刚刚初试话的URL中;4)采用字符串连接的方式,组成新的URL模块,用户的信息结构包括:用户的UID和用户的个人信息组成的结构化数据。 本专利技术的有益效果是:在微博数据的采集中,由于微博数据量大,存储格式多,存储难度大等原因,造成了对微博数据采集难度很大,因此如何高效的采集微博数据成为一个非常重要的问题。设计并实现了对实时更新的微博数据的采集工作,能够有效的解决微博限制登录和微博数据实时更新的问题。 【附图说明】 图1是工作原理图。 【具体实施方式】 参照说明书附图对本专利技术的方法作以下详细地说明。 由于是针对多用户登陆,我们可以采取两种方式,一种人工确定登陆人,另外一种批量虚拟登陆,模拟虚拟地址。模拟登陆之后,我们可以开始对页面数据进行采集工作。将采集到的页面信息和初试的URL—一对应起来,获取到我们方便分析应用的结构化数据,存储到本地数据库之中。分步骤进行为:模拟登陆之后,把抓取用户的微博页面作为入口点,爬取起始页面上的微博信息,并且组成有效的结构化数据;将用户的UID和当前页面的URL组成新的URL,存入到保存队列中,这样可以方便获取当前爬取页面内容的WD。 实施例 改进了传统的微博数据采集方式,包括如下步骤,首先,模拟用户登陆到微博账号中,并且记录下登陆信息,然后进行抓取微博中的数据,其中:1)把抓取用户的微博页面作为入口点,爬取起始页面上的微博信息,并且组成有效的结构化数据;2)将用户的UID和当前页面的URL组成新的URL,存入到保存队列中,这样方便获取当前爬取页面内容的WD ;3)将爬取到的数据放到本地的数据库中。 在组成新的URL过程分为四个步骤,1)人工初试化一个新的URL,设置为空;2)进行页面数据采集的过程中,读取采集页面的URL,将此URL放入到初始化的URL 中;3)微博会为每一个登录用户获取一个UID和微博的一些个人信息,将此内容页放到刚刚初试话的URL中;4)采用字符串连接的方式,组成新的URL模块,用户的信息结构包括:用户的UID和用户的个人信息组成的结构化数据。 除说明书所述的技术特征外,均为本专业技术人员的已知技术。本文档来自技高网...

【技术保护点】
一种专门针对微博数据采集方式的方法, 其特征在于,采用模拟登陆的方法,不间断的采集微博数据,实时更新采集到的数据,能极大地提高数据采集量,为以后做数据分析和处理提供了保障,非结构化数据是大数据数据多样化的的一个特点,而点击流中的数据是多样化数据的一部分,依托强大的网站分析工具,得到最细粒度的原始数据Raw Data,非结构化化数据包括文本、视频、文档、音频、甚至地理位置信息,击流中的非结构化数据的文本挖掘应用,是对这些非结构化数据如何更好的应用,针对传统的实时更新数据采集方式上面的问题,改进了传统的微博数据采集方式,这个过程分为两个步骤,首先,模拟用户登陆到微博账号中,并且记录下登陆信息,然后进行抓取微博中的数据,其中:1)把抓取用户的微博页面作为入口点,爬取起始页面上的微博信息,并且组成有效的结构化数据;2)将用户的UID和当前页面的URL组成新的URL,存入到保存队列中,这样方便获取当前爬取页面内容的UID;3)将爬取到的数据放到本地的数据库中。

【技术特征摘要】
1.一种专门针对微博数据采集方式的方法,其特征在于,采用模拟登陆的方法,不间断的采集微博数据,实时更新采集到的数据,能极大地提高数据采集量,为以后做数据分析和处理提供了保障,非结构化数据是大数据数据多样化的的一个特点,而点击流中的数据是多样化数据的一部分,依托强大的网站分析工具,得到最细粒度的原始数据Raw Data,非结构化化数据包括文本、视频、文档、音频、甚至地理位置信息,击流中的非结构化数据的文本挖掘应用,是对这些非结构化数据如何更好的应用,针对传统的实时更新数据采集方式上面的问题,改进了传统的微博数据采集方式,这个过程分为两个步骤,首先,模拟用户登陆到微博账号中,并且记录下登陆信息,然后进行抓取微博中的数据,其中: 1)把抓取用户的微...

【专利技术属性】
技术研发人员:焦毓葳徐宏伟王传超
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1