指定地域微博数据收集与处理方法技术

技术编号:10617418 阅读:175 留言:0更新日期:2014-11-06 11:46
本发明专利技术公开了一种指定地域微博数据收集与处理方法,首先进行GEO地理信息种子点选取,然后获取微博数据,最后对微博数据处理。本发明专利技术采用并行多用户调用方式增加数据搜集流量;采用多信息点覆盖搜集微博数据,能够满足指定地域下微博数据收集与处理的要求。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种,首先进行GEO地理信息种子点选取,然后获取微博数据,最后对微博数据处理。本专利技术采用并行多用户调用方式增加数据搜集流量;采用多信息点覆盖搜集微博数据,能够满足指定地域下微博数据收集与处理的要求。【专利说明】
本专利技术涉及微博数据处理方法领域,具体是一种。
技术介绍
随着微博的兴起,这种包含了大量微观点并带有情感倾向的短文本迅速富集,微博文本分析成为热门研究方向。 在微博数据搜集过程中,大量的微博数据搜集策略通常采用爬虫抓取方法,该方法抓取速度快、效率高,但是抓取的数据噪音大,虽然减少了数据搜集的时间,但是却成倍的增加了获得精确数据的预处理时间;且爬虫不稳定,常常面临被新浪封禁的危险。少量微博数据一般采用新浪微博第三方API进行调用搜集,该方法搜集的数据噪音少、区域明显,但是包含了大量的推送广告,又额外增加了无用数据比例。 无论是爬虫方法还是传统的新浪第三方API调用,都无法大量获得指定域下的微博数据,特别是指定地域下微博数据的处理,爬虫方法和新浪第三方API调用皆无法适用。
技术实现思路
本专利技术的目的是提供一种,以解决现有技术爬虫方法或第三方API调用无法大量获取指定地域下微博数据的问题。 为了达到上述目的,本专利技术所采用的技术方案为: ,其特征在于:包括以下步骤: (I)、GEO地理信息种子点选取: 设目标种子点数量为N,对指定城市区域使用矩形切割,确定城市边缘;做矩形区域对角线,以地图比例尺长度10公里间距做平行线,分割矩形区域;在各条分割平行线上,以地图比例尺长度5公里为半径做圆形区域依次覆盖矩形区域,各圆形区域不重叠;分隔线上不足5公里的区域按实际情况采用合适圆形区域覆盖;对于各圆形区域结合处,以比例尺半径为R公里的圆形区域覆盖该区域,R ^ 5,要求做到重叠区域不超过3% ;覆盖指定地域的各圆形区域的圆心即为候选GEO地理信息种子点,候选GEO地理信息种子点总数量记为N’,根据公式(I)确定最后种子点数量: r I /' ?Ν^ Ν'<Νπλ f =<, (I) [N, N<N 公式(I)中,f表示种子点数量,当候选GEO地理信息种子点数量N’小于目标种子点数量N时,取候选GEO地理信息种子点作为最终种子点;当候选GEO地理信息种子点数量N’大于目标种子点数量N时,调整候选GEO地理信息种子点圆形区域的位置及半径大小,使覆盖矩形区域的圆形区域数量为N以内的整数,此时选择调整后的圆形区域的为最终种子点区域; 根据上述获得的最终种子点,即f所代表的种子点,定位地图信息,导出经纬度数据,即可得到种子点的GEO地理信息; (2)、微博数据获取; 根据步骤(1)获取的种子点GEO地理信息数据,调用微博第三方API接口,获取指定区域内的微博数据;微博数据包括微博创建时间、微博信息内容、地理信息字段;获取的微博数据通过UTF-8格式的TXT文本文件保存在本地,记为D.; (3)、微博数据处理: 将步骤⑵中获取的微博文本文件D.按照微博创建时间及对应的地理信息成对提取出来,并以UTF_8格式的文本文件保存在本地,记为Dtxgra ;从微博文本文件D.中提取出微博信息内容,并本地以UTF-8格式的文本保存,记为D_t。 本专利技术改进了新浪第三方API,采用并行多用户调用方式增加数据搜集流量;采用多信息点覆盖搜集微博数据,以弥补微博接口获得数据精确度的不足,能够满足指定地域下微博数据收集与处理的要求。 【具体实施方式】 ,地域为存在微博使用者发布微博的区域,地域边界以行政边界划分;地域微博为出现在指定地域内的微博用户所发送的所有微博。包括以下步骤: (I)、GEO地理信息种子点选取: 设目标种子点数量为N,对指定城市区域使用矩形切割,确定城市边缘;做矩形区域对角线,以地图比例尺长度10公里间距做平行线,分割矩形区域;在各条分割平行线上,以地图比例尺长度5公里为半径做圆形区域依次覆盖矩形区域,各圆形区域不重叠;分隔线上不足5公里的区域按实际情况采用合适圆形区域覆盖;对于各圆形区域结合处,以比例尺半径为R公里的圆形区域覆盖该区域,R ^ 5,要求做到重叠区域不超过3% ;覆盖指定地域的各圆形区域的圆心即为候选GEO地理信息种子点,候选GEO地理信息种子点总数量记为N’,根据公式(I)确定最后种子点数量: 【权利要求】1.,其特征在于:包括以下步骤: (1)、GEO地理信息种子点选取: 设目标种子点数量为N,对指定城市区域使用矩形切割,确定城市边缘;做矩形区域对角线,以地图比例尺长度10公里间距做平行线,分割矩形区域;在各条分割平行线上,以地图比例尺长度5公里为半径做圆形区域依次覆盖矩形区域,各圆形区域不重叠;分隔线上不足5公里的区域按实际情况采用合适圆形区域覆盖;对于各圆形区域结合处,以比例尺半径为R公里的圆形区域覆盖该区域,R ^ 5,要求做到重叠区域不超过3% ;覆盖指定地域的各圆形区域的圆心即为候选GEO地理信息种子点,候选GEO地理信息种子点总数量记为N’,根据公式(I)确定最后种子点数量: [N', N'<N 謂’(1) 公式(I)中,f表示种子点数量,当候选GEO地理信息种子点数量N’小于目标种子点数量N时,取候选GEO地理信息种子点作为最终种子点;当候选GEO地理信息种子点数量N’大于目标种子点数量N时,调整候选GEO地理信息种子点圆形区域的位置及半径大小,使覆盖矩形区域的圆形区域数量为N以内的整数,此时选择调整后的圆形区域的为最终种子点区域; 根据上述获得的最终种子点,即f所代表的种子点,定位地图信息,导出经纬度数据,即可得到种子点的GEO地理信息; (2)、微博数据获取; 根据步骤(I)获取的种子点GEO地理信息数据,调用微博第三方API接口,获取指定区域内的微博数据;微博数据包括微博创建时间、微博信息内容、地理信息字段;获取的微博数据通过UTF-8格式的TXT文本文件保存在本地,记为D.; (3)、微博数据处理: 将步骤(2)中获取的微博文本文件D.按照微博创建时间及对应的地理信息成对提取出来,并以UTF_8格式的文本文件保存在本地,记为Dtxgra ;从微博文本文件Dero中提取出微博信息内容,并本地以UTF-8格式的文本保存,记为D_t。【文档编号】G06F17/30GK104133834SQ201410254030【公开日】2014年11月5日 申请日期:2014年6月9日 优先权日:2014年6月9日 【专利技术者】任福继, 刘宁, 全昌勤, 华磊 申请人:合肥工业大学本文档来自技高网...

【技术保护点】
指定地域微博数据收集与处理方法,其特征在于:包括以下步骤:(1)、GEO地理信息种子点选取:设目标种子点数量为N,对指定城市区域使用矩形切割,确定城市边缘;做矩形区域对角线,以地图比例尺长度10公里间距做平行线,分割矩形区域;在各条分割平行线上,以地图比例尺长度5公里为半径做圆形区域依次覆盖矩形区域,各圆形区域不重叠;分隔线上不足5公里的区域按实际情况采用合适圆形区域覆盖;对于各圆形区域结合处,以比例尺半径为R公里的圆形区域覆盖该区域,R≤5,要求做到重叠区域不超过3%;覆盖指定地域的各圆形区域的圆心即为候选GEO地理信息种子点,候选GEO地理信息种子点总数量记为N',根据公式(1)确定最后种子点数量:f=N′,N′<NN,N≤N′---(1)]]>公式(1)中,f表示种子点数量,当候选GEO地理信息种子点数量N'小于目标种子点数量N时,取候选GEO地理信息种子点作为最终种子点;当候选GEO地理信息种子点数量N'大于目标种子点数量N时,调整候选GEO地理信息种子点圆形区域的位置及半径大小,使覆盖矩形区域的圆形区域数量为N以内的整数,此时选择调整后的圆形区域的为最终种子点区域;根据上述获得的最终种子点,即f所代表的种子点,定位地图信息,导出经纬度数据,即可得到种子点的GEO地理信息;(2)、微博数据获取;根据步骤(1)获取的种子点GEO地理信息数据,调用微博第三方API接口,获取指定区域内的微博数据;微博数据包括微博创建时间、微博信息内容、地理信息字段;获取的微博数据通过UTF‑8格式的TXT文本文件保存在本地,记为DGEO;(3)、微博数据处理:将步骤(2)中获取的微博文本文件DGEO按照微博创建时间及对应的地理信息成对提取出来,并以UTF_8格式的文本文件保存在本地,记为Dt×geo;从微博文本文件DGEO中提取出微博信息内容,并本地以UTF‑8格式的文本保存,记为Dcont。...

【技术特征摘要】

【专利技术属性】
技术研发人员:任福继刘宁全昌勤华磊
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1