一种微博信息抓取方法及装置制造方法及图纸

技术编号:9276576 阅读:152 留言:0更新日期:2013-10-24 23:32
一种微博信息抓取方法及装置,所述方法包括:获取待抓取微博用户,并判断所述待抓取微博用户的类型;如果所述待抓取微博用户为活跃用户,则计算该待抓取微博用户的抓取周期,并根据所述抓取周期预测抓取时间点进行微博信息抓取;如果所述待抓取微博用户为非活跃用户,则获取该待抓取微博用户的抓取状态以及剩余抓取用户量,如果所述抓取状态表示能进行微博信息抓取,且所述剩余抓取用户量不为零,则对所述待抓取微博用户进行微博信息抓取。本发明专利技术通过对不同类型的用户进行区别处理的方式,实现了抓取资源的合理分配与使用,提高了资源利用率,同时还能保证每次抓取过程均能抓取到较多的微博信息,提高了信息抓取效率。

【技术实现步骤摘要】
一种微博信息抓取方法及装置
本专利技术涉及网络
,具体涉及一种微博信息抓取方法及装置。
技术介绍
随着微博的日趋普及,微博用户量也在不断的稳步上升,每天数以千万计的用户发布的微博所包含的信息量是不可小觑的。为了从用户发布的众多微博中提取出新闻热点,或者根据用户发布的微博分析用户的兴趣,进行微博营销,就需要及时全面的抓取用户所发布的微博信息。目前的信息抓取过程主要是调用微博平台API来实现,但是出于对微博平台的维护成本以及信息保留等方面的考虑,各大微博平台对信息抓取的次数以及频率都有所限制,即抓取资源有限。如何利用这有限的抓取资源快速获取到更多的有效微博信息,在实际应用中具有重要意义。
技术实现思路
本专利技术实施例的微博信息抓取方法及装置,实现了利用有限的抓取资源获取尽量多的有效微博信息的目的。为此,本专利技术实施例提供如下技术方案:一种微博信息抓取方法,所述方法包括:获取待抓取微博用户,并判断所述待抓取微博用户的类型;如果所述待抓取微博用户为活跃用户,则计算该待抓取微博用户的抓取周期,并根据所述抓取周期预测抓取时间点进行微博信息抓取;如果所述待抓取微博用户为非活跃用户,则获取该待抓取微博用户的抓取状态以及剩余抓取用户量,如果所述抓取状态表示能进行微博信息抓取,且所述剩余抓取用户量不为零,则对所述待抓取微博用户进行微博信息抓取。优选的,所述获取待抓取微博用户,包括:选取至少一个认证用户作为种子用户,并将所述种子用户作为未处理用户添加到用户列表;判断所述未处理用户是否具有下级用户:如果具有,则获取该未处理用户的下级用户,并将所述下级用户添加到所述用户列表,设置所述未处理用户的状态为已处理;将所述下级用户作为未处理用户,继续执行所述判断未处理用户是否具有下级用户的步骤;如果不具有,则设置该未处理用户的状态为已处理。优选的,所述获取该未处理用户的下级用户,包括:通过所述未处理用户的用户关系网获取所述下级用户;或者,抓取评论和/或转发所述未处理用户发布的微博的用户作为所述下级用户。优选的,所述判断所述待抓取微博用户的类型,包括:根据所述待抓取微博用户发布微博的频率确定用户活跃度;根据预设活跃值与所述用户活跃度判断所述待抓取微博用户的类型,如果所述用户活跃度不小于所述预设活跃值,则判定所述待抓取微博用户为活跃用户;否则判定所述待抓取微博用户为非活跃用户。优选的,所述根据所述待抓取微博用户发布微博的频率确定用户活跃度,包括:根据所述待抓取微博用户发布的微博计算用户的平均发帖间隔;从预设数据库中查找与所述平均发帖间隔相对应的活跃度。一种微博信息抓取装置,所述装置包括:第一获取单元,用于获取待抓取微博用户;第一判断单元,用于判断所述第一获取单元获取的待抓取微博用户的类型;计算单元,用于在所述第一判断单元判定所述待抓取微博用户为活跃用户时,计算该待抓取微博用户的抓取周期;抓取单元,用于根据所述抓取周期预测抓取时间点进行微博信息抓取;第二获取单元,用户在所述第一判断单元判定所述待抓取微博用户为非活跃用户时,获取该待抓取微博用户的抓取状态以及剩余抓取用户量;所述抓取单元,还用于在所述抓取状态表示能进行微博信息抓取,且所述剩余抓取用户量不为零时,对所述待抓取微博用户进行微博信息抓取。优选的,所述第一获取单元包括:选取单元,用于选取至少一个认证用户作为种子用户,并将所述种子用户作为未处理用户添加到用户列表;第二判断单元,用于判断所述未处理用户是否具有下级用户:第三获取单元,用于在所述第二判断单元判定所述未处理用户具有下级用户时,获取该未处理用户的下级用户,添加单元,用于将所述下级用户添加到所述用户列表,设置所述未处理用户的状态为已处理;将所述下级用户作为未处理用户,通知所述第二判断单元继续判断未处理用户是否具有下级用户;设置单元,用于在所述第二判断单元判定所述未处理用户不具有下级用户时,则设置该未处理用户的状态为已处理。优选的,所述第三获取单元,具体用于通过所述未处理用户的用户关系网获取所述下级用户;或者,所述第三获取单元,具体用于抓取评论和/或转发所述未处理用户发布的微博的用户作为所述下级用户。优选的,所述第一判断单元包括:确定单元,用于根据所述待抓取微博用户发布微博的频率确定用户活跃度;判断子单元,用于根据预设活跃值与所述用户活跃度判断所述待抓取微博用户的类型,如果所述用户活跃度不小于所述预设活跃值,则判定所述待抓取微博用户为活跃用户;否则判定所述待抓取微博用户为非活跃用户。优选的,所述计算单元包括:计算子单元,用于根据所述待抓取微博用户发布的微博计算用户的平均发帖间隔;查找单元,用于从预设数据库中查找与所述平均发帖间隔相对应的活跃度。本专利技术实施的微博信息抓取方法及装置,首先挖掘出尽量多的待抓取微博用户作为本专利技术的处理对象,然后根据这些处理对象的活跃度对其进行分类处理:如果处理对象为活跃用户,则统计分析其发布微博的行为特性,并根据其行为特性设置抓取周期,从而可以利用抓取周期预测抓取时间点,进行有针对性的信息抓取;如果处理对象为非活跃用户,则根据其当前的抓取状态以及当前剩余抓取用户量判断是否对其进行信息抓取。本专利技术通过对不同类型的用户进行区别处理的方式,实现了抓取资源的合理分配与使用,提高了资源利用率,同时还能保证每次抓取过程均能抓取到较多的微博信息,提高了信息抓取效率。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其它的附图。图1是本专利技术微博信息抓取方法的流程图;图2是本专利技术中获取待抓取微博用户的流程图;图3是本专利技术中确定用户类型的流程图;图4是本专利技术中确定用户活跃度的流程图;图5是本专利技术微博信息抓取装置的示意图;图6是本专利技术中第一获取单元的示意图;图7是本专利技术中第一判断单元的示意图;图8是本专利技术中计算单元的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面结合附图和实施方式对本专利技术实施例作进一步的详细说明。为了提取新闻热点或分析用户兴趣,应及时全面的抓取用户发布的微博信息,考虑到现有技术中各大微博平台对信息抓取的次数以及频率的限制,若针对不同类型的微博用户采用相同方式进行信息抓取,如针对每天都会有微博发布、转发、评论等行为的活跃用户,以及较少登录微博的非活跃用户而言,采用相同方式进行信息抓取显然会导致抓取资源的不合理分配与使用,致使微博信息抓取效率低下。为了提高信息抓取效率,充分利用有限的抓取资源快速准确的获取到更多的有效微博信息,提出了本专利技术的微博信息抓取方案。本专利技术方案中,分析待抓取微博用户的类型,针对不同类型的用户进行区别处理。下面对本专利技术的具体实现过程进行解释说明。参见图1,示出了本专利技术微博信息抓取方法的流程图,可包括:步骤101,获取待抓取微博用户,并判断所述待抓取微博用户的类型。考虑到各大微博平台每天对信息抓取资源的限制,若想利用这有限的抓取资源,抓取到更多的有效微博信息,就应该针对不同类型的用户制定不同的抓取方案。首先要获取待抓取的微博用户,也即先进行微博用户挖掘,确定出尽量多的信息抓取对象。作为本步骤获本文档来自技高网
...
一种微博信息抓取方法及装置

【技术保护点】
一种微博信息抓取方法,其特征在于,所述方法包括:获取待抓取微博用户,并判断所述待抓取微博用户的类型;如果所述待抓取微博用户为活跃用户,则计算该待抓取微博用户的抓取周期,并根据所述抓取周期预测抓取时间点进行微博信息抓取;如果所述待抓取微博用户为非活跃用户,则获取该待抓取微博用户的抓取状态以及剩余抓取用户量,如果所述抓取状态表示能进行微博信息抓取,且所述剩余抓取用户量不为零,则对所述待抓取微博用户进行微博信息抓取。

【技术特征摘要】
1.一种微博信息抓取方法,其特征在于,所述方法包括:获取待抓取微博用户,并判断所述待抓取微博用户的类型;其中,所述判断所述待抓取微博用户的类型,包括:根据所述待抓取微博用户发布的微博计算用户的平均发帖间隔;从预设数据库中查找与所述平均发帖间隔相对应的活跃度;如果所述待抓取微博用户为活跃用户,则计算该待抓取微博用户的抓取周期,并根据所述抓取周期预测抓取时间点进行微博信息抓取;如果所述待抓取微博用户为非活跃用户,则获取该待抓取微博用户的抓取状态以及剩余抓取用户量,如果所述抓取状态表示能进行微博信息抓取,且所述剩余抓取用户量不为零,则对所述待抓取微博用户进行微博信息抓取;其中,所述获取待抓取微博用户,包括:选取至少一个认证用户作为种子用户,并将所述种子用户作为未处理用户添加到用户列表;判断所述未处理用户是否具有下级用户:如果具有,则获取该未处理用户的下级用户,并将所述下级用户添加到所述用户列表,设置所述未处理用户的状态为已处理;将所述下级用户作为未处理用户,继续执行所述判断未处理用户是否具有下级用户的步骤;如果不具有,则设置该未处理用户的状态为已处理;其中,所述如果所述待抓取微博用户为非活跃用户,则获取该待抓取微博用户的抓取状态以及剩余抓取用户量,如果所述抓取状态表示能进行微博信息抓取,且所述剩余抓取用户量不为零,则对所述待抓取微博用户进行微博信息抓取包括:设置表示非活跃用户当前的抓取状态的抓取间隔,在抓取间隔期间用户的抓取状态为不进行抓取,在抓取间隔达到时用户的抓取状态为可进行抓取;根据API权限设置限定每天的抓取上限的抓取用户量;判断待抓取微博用户的抓取状态是否为可进行抓取,如果是,则继续判断当前剩余的抓取用户量是否为零,如果否,则判定可对待抓取微博用户进行信息抓取,在进行信息抓取的同时,还应将剩余抓取用户量减1;其中,对所述待抓取微博用户设置不同的抓取间隔或抓取起始点,使得将非活跃用户错开处理。2.根据权利要求1所述的方法,其特征在于,所述获取该未处理用户的下级用户,包括:通过所述未处理用户的用户关系网获取所述下级用户;或者,抓取评论和/或转发所述未处理用户发布的微博的用户作为所述下级用户。3.根据权利要求1所述的方法,其特征在于,所述判断所述待抓取微博用户的类型,包括:根据所述待抓取微博用户发布微博的频率确定用户活跃度;根据预设活跃值与所述用户活跃度判断所述待抓取微博用户的类型,如果所述用户活跃度不小于所述预设活跃值,则判定所述待抓取微博用户为活跃用户;否则判定所述待抓取微博用户为非活跃用户。4.一种微博信息抓取装置,其特征在于,所述装置包括:第一获取单元,用于获取待抓取微博用户;第一判断单元,用于判断所述第一获取单元获取的待抓取微博用户的类型;计算单元,...

【专利技术属性】
技术研发人员:韩中腾崔世起
申请(专利权)人:人民搜索网络股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1