【技术实现步骤摘要】
本专利技术涉及通信
,具体地说是。本专利涉及数据抓取,模拟登陆,数据采集,数据库,非结构化数据。
技术介绍
在微博数据的采集中,由于微博数据量大,存储格式多,存储难度大等原因,造成了对微博数据采集难度很大,因此如何高效的采集微博数据成为一个非常重要的问题。传统的互联网数据采集方式中,我们无法做到实时更新互联网数据,只能一次登录采集到少量的数据,无法满足我们的需求,缺少数据的完整性。
技术实现思路
本专利技术的目的是提供。 本专利技术的目的是按以下方式实现的,采用模拟登陆的方法,不间断的采集微博数据,实时更新采集到的数据,能极大地提高数据采集量,为以后做数据分析和处理提供了保障,非结构化数据是大数据数据多样化的的一个特点,而点击流中的数据是多样化数据的一部分,依托强大的网站分析工具,得到最细粒度的原始数据Raw Data,非结构化化数据包括文本、视频、文档、音频、甚至地理位置信息,击流中的非结构化数据的文本挖掘应用,是对这些非结构化数据如何更好的应用,针对传统的实时更新数据采集方式上面的问题,改进了传统的微博数据采集方式,这个过程分为两个步骤,首先,模拟用户登陆到微博账号中,并且记录下登陆信息,然后进行抓取微博中的数据,其中:1)把抓取用户的微博页面作为入口点,爬取起始页面上的微博信息,并且组成有效的结构化数据;2)将用户的UID和当前页面的URL组成新的URL,存入到保存队列中,这样方便获取当前爬取页面内容的WD ;3)将爬取到的数据放到本地的数据库中。 在组成新的URL过程分为四个步骤,1)人工初试化一个新 ...
【技术保护点】
一种专门针对微博数据采集方式的方法, 其特征在于,采用模拟登陆的方法,不间断的采集微博数据,实时更新采集到的数据,能极大地提高数据采集量,为以后做数据分析和处理提供了保障,非结构化数据是大数据数据多样化的的一个特点,而点击流中的数据是多样化数据的一部分,依托强大的网站分析工具,得到最细粒度的原始数据Raw Data,非结构化化数据包括文本、视频、文档、音频、甚至地理位置信息,击流中的非结构化数据的文本挖掘应用,是对这些非结构化数据如何更好的应用,针对传统的实时更新数据采集方式上面的问题,改进了传统的微博数据采集方式,这个过程分为两个步骤,首先,模拟用户登陆到微博账号中,并且记录下登陆信息,然后进行抓取微博中的数据,其中:1)把抓取用户的微博页面作为入口点,爬取起始页面上的微博信息,并且组成有效的结构化数据;2)将用户的UID和当前页面的URL组成新的URL,存入到保存队列中,这样方便获取当前爬取页面内容的UID;3)将爬取到的数据放到本地的数据库中。
【技术特征摘要】
1.一种专门针对微博数据采集方式的方法,其特征在于,采用模拟登陆的方法,不间断的采集微博数据,实时更新采集到的数据,能极大地提高数据采集量,为以后做数据分析和处理提供了保障,非结构化数据是大数据数据多样化的的一个特点,而点击流中的数据是多样化数据的一部分,依托强大的网站分析工具,得到最细粒度的原始数据Raw Data,非结构化化数据包括文本、视频、文档、音频、甚至地理位置信息,击流中的非结构化数据的文本挖掘应用,是对这些非结构化数据如何更好的应用,针对传统的实时更新数据采集方式上面的问题,改进了传统的微博数据采集方式,这个过程分为两个步骤,首先,模拟用户登陆到微博账号中,并且记录下登陆信息,然后进行抓取微博中的数据,其中: 1)把抓取用户的微...
【专利技术属性】
技术研发人员:焦毓葳,徐宏伟,王传超,
申请(专利权)人:浪潮软件集团有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。