【技术实现步骤摘要】
一种微博信息抓取方法及装置
本专利技术涉及网络
,具体涉及一种微博信息抓取方法及装置。
技术介绍
随着微博的日趋普及,微博用户量也在不断的稳步上升,每天数以千万计的用户发布的微博所包含的信息量是不可小觑的。为了从用户发布的众多微博中提取出新闻热点,或者根据用户发布的微博分析用户的兴趣,进行微博营销,就需要及时全面的抓取用户所发布的微博信息。目前的信息抓取过程主要是调用微博平台API来实现,但是出于对微博平台的维护成本以及信息保留等方面的考虑,各大微博平台对信息抓取的次数以及频率都有所限制,即抓取资源有限。如何利用这有限的抓取资源快速获取到更多的有效微博信息,在实际应用中具有重要意义。
技术实现思路
本专利技术实施例的微博信息抓取方法及装置,实现了利用有限的抓取资源获取尽量多的有效微博信息的目的。为此,本专利技术实施例提供如下技术方案:一种微博信息抓取方法,所述方法包括:获取待抓取微博用户,并判断所述待抓取微博用户的类型;如果所述待抓取微博用户为活跃用户,则计算该待抓取微博用户的抓取周期,并根据所述抓取周期预测抓取时间点进行微博信息抓取;如果所述待抓取微博用户为非活跃用户,则获取该待抓取微博用户的抓取状态以及剩余抓取用户量,如果所述抓取状态表示能进行微博信息抓取,且所述剩余抓取用户量不为零,则对所述待抓取微博用户进行微博信息抓取。优选的,所述获取待抓取微博用户,包括:选取至少一个认证用户作为种子用户,并将所述种子用户作为未处理用户添加到用户列表;判断所述未处理用户是否具有下级用户:如果具有,则获取该未处理用户的下级用户,并将所述下级用户添加到所述用户列表, ...
【技术保护点】
一种微博信息抓取方法,其特征在于,所述方法包括:获取待抓取微博用户,并判断所述待抓取微博用户的类型;如果所述待抓取微博用户为活跃用户,则计算该待抓取微博用户的抓取周期,并根据所述抓取周期预测抓取时间点进行微博信息抓取;如果所述待抓取微博用户为非活跃用户,则获取该待抓取微博用户的抓取状态以及剩余抓取用户量,如果所述抓取状态表示能进行微博信息抓取,且所述剩余抓取用户量不为零,则对所述待抓取微博用户进行微博信息抓取。
【技术特征摘要】
1.一种微博信息抓取方法,其特征在于,所述方法包括:获取待抓取微博用户,并判断所述待抓取微博用户的类型;其中,所述判断所述待抓取微博用户的类型,包括:根据所述待抓取微博用户发布的微博计算用户的平均发帖间隔;从预设数据库中查找与所述平均发帖间隔相对应的活跃度;如果所述待抓取微博用户为活跃用户,则计算该待抓取微博用户的抓取周期,并根据所述抓取周期预测抓取时间点进行微博信息抓取;如果所述待抓取微博用户为非活跃用户,则获取该待抓取微博用户的抓取状态以及剩余抓取用户量,如果所述抓取状态表示能进行微博信息抓取,且所述剩余抓取用户量不为零,则对所述待抓取微博用户进行微博信息抓取;其中,所述获取待抓取微博用户,包括:选取至少一个认证用户作为种子用户,并将所述种子用户作为未处理用户添加到用户列表;判断所述未处理用户是否具有下级用户:如果具有,则获取该未处理用户的下级用户,并将所述下级用户添加到所述用户列表,设置所述未处理用户的状态为已处理;将所述下级用户作为未处理用户,继续执行所述判断未处理用户是否具有下级用户的步骤;如果不具有,则设置该未处理用户的状态为已处理;其中,所述如果所述待抓取微博用户为非活跃用户,则获取该待抓取微博用户的抓取状态以及剩余抓取用户量,如果所述抓取状态表示能进行微博信息抓取,且所述剩余抓取用户量不为零,则对所述待抓取微博用户进行微博信息抓取包括:设置表示非活跃用户当前的抓取状态的抓取间隔,在抓取间隔期间用户的抓取状态为不进行抓取,在抓取间隔达到时用户的抓取状态为可进行抓取;根据API权限设置限定每天的抓取上限的抓取用户量;判断待抓取微博用户的抓取状态是否为可进行抓取,如果是,则继续判断当前剩余的抓取用户量是否为零,如果否,则判定可对待抓取微博用户进行信息抓取,在进行信息抓取的同时,还应将剩余抓取用户量减1;其中,对所述待抓取微博用户设置不同的抓取间隔或抓取起始点,使得将非活跃用户错开处理。2.根据权利要求1所述的方法,其特征在于,所述获取该未处理用户的下级用户,包括:通过所述未处理用户的用户关系网获取所述下级用户;或者,抓取评论和/或转发所述未处理用户发布的微博的用户作为所述下级用户。3.根据权利要求1所述的方法,其特征在于,所述判断所述待抓取微博用户的类型,包括:根据所述待抓取微博用户发布微博的频率确定用户活跃度;根据预设活跃值与所述用户活跃度判断所述待抓取微博用户的类型,如果所述用户活跃度不小于所述预设活跃值,则判定所述待抓取微博用户为活跃用户;否则判定所述待抓取微博用户为非活跃用户。4.一种微博信息抓取装置,其特征在于,所述装置包括:第一获取单元,用于获取待抓取微博用户;第一判断单元,用于判断所述第一获取单元获取的待抓取微博用户的类型;计算单元,...
【专利技术属性】
技术研发人员:韩中腾,崔世起,
申请(专利权)人:人民搜索网络股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。