一种微博数据采集方法与系统技术方案

技术编号:30142003 阅读:37 留言:0更新日期:2021-09-23 15:07
本发明专利技术提供了一种微博数据采集方法,首先登录微博,获取微博页面,对微博页面进行解析并获取目标数据;将目标数据输出到URL列表;检测URL列表从目标URL地址中获取目标字段;对目标字段进行数据清洗得到微博数据。本发明专利技术通过登陆微博并对微博页面进行解析,从目标URL地址中获取目标字段,并对目标字段进行数据清洗得到微博数据,可以大大提高微博数据的获取效率和质量。本发明专利技术还提供了一种微博数据采集系统。统。统。

【技术实现步骤摘要】
一种微博数据采集方法与系统


[0001]本专利技术属于网络水军检测
,更具体地说,是涉及一种微博数据采集方法与系统。

技术介绍

[0002]随着大数据时代的到来,社交网络的受欢迎程度已经不言而喻。在社交平台上用户可以各抒己见,但是真假难辨,舆情意见复杂多变,受干扰因素众多。比如网络水军利用恶意炒作将个体的需求转化为群体需求,将小范围事件转化为热点事件,从而混淆公众视听。倘若纵容水军恶意炒作,网民将难以信任网络媒体,网络基本体系的完整搭建也将更加困难。网络水军的出现对社会舆论的影响是巨大的,甚至可以推动社会舆论的走向,所以水军识别对于控制网络恶性行为、促进和谐发展具有重要的社会意义。然而,要想识别网络水军,势必要对微博信息进行采集。
[0003]现有对微博信息采集主要基于微博API(Application Programming Interface,应用程序编程接口)请求获取微博数据。在国内,用于微博研究和应用的中文微博数据大部分来源于腾讯微博、新浪微博等微博服务提供商。这些服务提供商在其各自的开放平台公布了一部分微博API,研发者本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种微博数据采集方法,其特征在于,包括以下步骤:步骤1:登录微博;步骤2:获取微博页面,对所述微博页面进行解析并获取目标数据;步骤3:将所述目标数据输出到URL列表;步骤4:检测所述URL列表从目标URL地址中获取目标字段;步骤5:对所述目标字段进行数据清洗得到微博数据;所述微博数据包括微博ID、点赞数、评论数、发布时间、文本内容、转发数和用户ID。2.如权利要求1所述的一种微博数据采集方法,其特征在于,所述步骤1:登录微博,包括:步骤1.1:对用户ID和密码进行Base64编码得到用户字符串;步骤1.2:向新浪服务器发送所述用户字符串得到服务器时间和服务器密匙;步骤1.3:利用SHA1加密算法对所述服务器时间和所述服务器密匙进行加密得到新浪服务器登录密串;步骤1.4:对所述新浪服务器发送用户字符串和所述新浪服务器登录密串得到服务器登录票据;步骤1.5:根据所述服务器登录票据使用GET方法向所述新浪服务器获取Cookie信息;步骤1.6:利用所述Cookie信息登录微博。3.如权利要求1所述的一种微博数据采集方法,其特征在于,所述步骤2:获取微博页面,对所述微博页面进行解析并获取目标数据,包括:步骤2.1:获取多个浏览器在访问微博时的HTTP请求信息;步骤2.2:根据所述HTTP请求信息得到各个浏览器的User

Agnet信息;步骤2.3:根据所述各个浏览器的User

Agnet信息将爬虫的HTTP请求随机替换为各个浏览器在访问微博时的HTTP请求信息。4.如权利要求1所述的一种微博数据采集方法,其特征在于,所述步骤5:对所述目标字段进行数据清洗得到微博数据,包括:步骤5.1:将所述目标字段进行划分得到训练目标字段和验证目标字段;步骤5.2:获取所述训练目标字段中各个微博ID的评论文本;步骤5.3:将所述评论文本划分为广告评论和正常评论;步骤5.4:对所述广告评论、所述正常评论和所述验证目标字段进行拼音文本转换得到广告评论拼音字符、正常评论拼音字符和所述验证目标字段拼音字符;步骤5.5:采用第一字符串相似度检测方法检测各个所述广告评论拼音字符与所述验证目标字段拼音字符的相似度得到第一相似度结果;步骤5.6:采用第二字符串相似度检测方法检测各个所述广告评论拼音字符与所述验证目标字段拼音字符的相似度得到第二相似度结果;步骤5.7:根据所述第一相似度结果和所述第二相似度结果对所述目标字段进行数据清洗得到微博数据。5.如权利要求4所述的一种微博数据采集方法,其特征在于,所述步骤5.5:采用第一字符串相似度检测方法检测各个所述广告评论拼音字符...

【专利技术属性】
技术研发人员:肖玉芝张伟冶忠林马生旺
申请(专利权)人:青海师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1