一种专门针对微博数据采集方式的方法技术

技术编号：10982772 阅读：62 留言：0更新日期：2015-01-30 19:50

本发明专利技术是一种专门针对微博数据采集方式的方法，首先，模拟用户登陆到微博账号中，并且记录下登陆信息，然后进行抓取微博中的数据，其中：1）把抓取用户的微博页面作为入口点，爬取起始页面上的微博信息，并且组成有效的结构化数据；2）将用户的UID和当前页面的URL组成新的URL，存入到保存队列中，这样方便获取当前爬取页面内容的UID；3）将爬取到的数据放到本地的数据库中。设计并实现了对实时更新的微博数据的采集工作。能够有效的解决微博限制登录和微博数据实时更新的问题。在微博数据的采集中，由于微博数据量大，存储格式多，存储难度大等原因，造成了对微博数据采集难度很大，因此如何高效的采集微博数据成为一个非常重要的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及通信
，具体地说是。本专利涉及数据抓取，模拟登陆，数据采集，数据库，非结构化数据。
技术介绍
在微博数据的采集中，由于微博数据量大，存储格式多，存储难度大等原因，造成了对微博数据采集难度很大，因此如何高效的采集微博数据成为一个非常重要的问题。传统的互联网数据采集方式中，我们无法做到实时更新互联网数据，只能一次登录采集到少量的数据，无法满足我们的需求，缺少数据的完整性。
技术实现思路
本专利技术的目的是提供。本专利技术的目的是按以下方式实现的，采用模拟登陆的方法，不间断的采集微博数据，实时更新采集到的数据，能极大地提高数据采集量，为以后做数据分析和处理提供了保障，非结构化数据是大数据数据多样化的的一个特点，而点击流中的数据是多样化数据的一部分，依托强大的网站分析工具，得到最细粒度的原始数据Raw Data，非结构化化数据包括文本、视频、文档、音频、甚至地理位置信息，击流中的非结构化数据的文本挖掘应用，是对这些非结构化数据如何更好的应用，针对传统的实时更新数据采集方式上面的问题，改进了传统的微博数据采集方式，这个过程分为两个步骤，首先，模拟用户登陆到微博账号中，并且记录下登陆信息，然后进行抓取微博中的数据，其中:1)把抓取用户的微博页面作为入口点，爬取起始页面上的微博信息，并且组成有效的结构化数据；2)将用户的UID和当前页面的URL组成新的URL，存入到保存队列中，这样方便获取当前爬取页面内容的WD ；3)将爬取到的数据放到本地的数据库中。在组成新的URL过程分为四个步骤，1)人工初试化一个新...

【技术保护点】
一种专门针对微博数据采集方式的方法, 其特征在于,采用模拟登陆的方法，不间断的采集微博数据，实时更新采集到的数据，能极大地提高数据采集量，为以后做数据分析和处理提供了保障，非结构化数据是大数据数据多样化的的一个特点，而点击流中的数据是多样化数据的一部分，依托强大的网站分析工具，得到最细粒度的原始数据Raw Data，非结构化化数据包括文本、视频、文档、音频、甚至地理位置信息，击流中的非结构化数据的文本挖掘应用，是对这些非结构化数据如何更好的应用，针对传统的实时更新数据采集方式上面的问题，改进了传统的微博数据采集方式，这个过程分为两个步骤，首先，模拟用户登陆到微博账号中，并且记录下登陆信息，然后进行抓取微博中的数据，其中：1）把抓取用户的微博页面作为入口点，爬取起始页面上的微博信息，并且组成有效的结构化数据；2）将用户的UID和当前页面的URL组成新的URL，存入到保存队列中，这样方便获取当前爬取页面内容的UID；3）将爬取到的数据放到本地的数据库中。

【技术特征摘要】
1.一种专门针对微博数据采集方式的方法，其特征在于，采用模拟登陆的方法，不间断的采集微博数据，实时更新采集到的数据，能极大地提高数据采集量，为以后做数据分析和处理提供了保障，非结构化数据是大数据数据多样化的的一个特点，而点击流中的数据是多样化数据的一部分，依托强大的网站分析工具，得到最细粒度的原始数据Raw Data，非结构化化数据包括文本、视频、文档、音频、甚至地理位置信息，击流中的非结构化数据的文本挖掘应用，是对这些非结构化数据如何更好的应用，针对传统的实时更新数据采集方式上面的问题，改进了传统的微博数据采集方式，这个过程分为两个步骤，首先，模拟用户登陆到微博账号中，并且记录下登陆信息，然后进行抓取微博中的数据，其中: 1)把抓取用户的微...

【专利技术属性】
技术研发人员：焦毓葳，徐宏伟，王传超，
申请(专利权)人：浪潮软件集团有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人