信息抓取装置和方法制造方法及图纸

技术编号:9967627 阅读:129 留言:0更新日期:2014-04-25 08:28
本发明专利技术提供一种信息抓取装置和方法,涉及互联网领域。信息抓取装置包括:抓取模块和执行模块,其中,抓取模块包括:识别单元,用于识别执行模块的类型;抓取单元,用于根据执行模块的类型抓取对应的信息,其中,抓取单元中预存了执行模块和所需抓取的信息之间的对应关系;执行模块分别与识别单元和抓取单元连接,用于获取抓取单元抓取的信息,并通过信息执行预设的任务。通过本发明专利技术的实施方式,能够减少信息抓取时所需的系统资源。

【技术实现步骤摘要】
信息抓取装置和方法
本专利技术涉及互联网领域,特别涉及一种信息抓取装置和方法。
技术介绍
当前的一些计算机/手机应用需要从互联网的海量信息中针对性地抓取和展示特定信息,抓取信息一般通过网络爬虫(简称爬虫)实现。现有技术中,一个爬虫只能服务于一个应用,例如A应用需抓取视频信息,B应用需抓取音频信息,C应用需抓取文本信息,那么A应用、B应用和C应用需要调用不同的爬虫进行信息的抓取,从而导致了一定的应用冗余和资源浪费。
技术实现思路
本专利技术实施例提供一种信息抓取装置和方法,以减少信息抓取时所需的系统资源。本专利技术为了实现上述目的,提供一种信息抓取装置,该装置包括抓取模块和执行模块,其中,抓取模块包括:识别单元,用于识别执行模块的类型;抓取单元,用于根据执行模块的类型抓取对应的信息,其中,抓取单元中预存了执行模块和所需抓取的信息之间的对应关系;执行模块分别与识别单元和抓取单元连接,用于获取抓取单元抓取的信息,并通过信息执行预设的任务。在一个实施例中,抓取单元包括:多个抓取模板,用于提供抓取策略,通过不同的抓取策略能够抓取不同的信息。在一个实施例中,抓取模块还包括:控制单元,用于触发抓取单元,使抓取单元抓取执行模块所需的信息。在一个实施例中,控制单元用于按先后顺序触发抓取单元。在一个实施例中,控制单元还用于调用处于空闲状态的抓取单元。本专利技术为了实现上述目的,还提供一种信息抓取方法,该方法包括:识别单元识别执行模块的类型;抓取单元根据执行模块的类型抓取对应的信息,其中,抓取单元中预存了执行模块和所需抓取的信息之间的对应关系;执行模块获取抓取单元抓取的信息,并通过信息执行预设的任务。在一个实施例中,通过抓取模板抓取信息,其中,抓取模板用于提供抓取策略,通过不同的抓取策略能够抓取不同的信息。在一个实施例中,在根据信息调用者的类型抓取对应的信息之前,上述方法包括:触发抓取单元,使抓取单元抓取执行模块所需的信息。在一个实施例中,按先后顺序触发抓取单元。在一个实施例中,调用处于空闲状态的抓取单元。通过本专利技术,在识别执行模块后,对不同的执行模块抓取不同的信息,避免了一种抓取模块对应一种执行模块所造成的浪费,节省了系统的资源。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,并不构成对本专利技术的限定。在附图中:图1A示出了本专利技术实施例中的一种信息抓取装置100的结构框图;图1B示出了本专利技术实施例中的另一种信息抓取装置100’的结构框图;图2示出了本专利技术优选实施例中的信息抓取装置的结构框图;图3示出了本专利技术实施例中的信息抓取方法300的流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例作进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。现在将参考附图进一步详细描述本专利技术。本专利技术可以许多不同的形式来实现,不应该被理解为仅限于此处所阐述的实施例。这些实施例只作为示例提供,以便为本领域技术人员提供对本专利技术的完全理解。本专利技术实施例提供了一种信息抓取装置,图1A示出了本专利技术实施例中的一种信息抓取装置100的结构框图。如图1所示,该信息抓取装置包括抓取模块110和执行模块120。抓取模块110可以从互联网或数据库抓取所需的信息,执行模块120可以根据抓取的信息执行相应的任务,不同的执行模块120所需不同的信息,执行不同的任务。具体的,抓取模块110包括:识别单元111用于识别执行模块120的类型。执行模块120的类型可以通过所需信息的来源以及所需信息的数据类型来确定,例如通过执行模块120的projectname属性确定信息的来源,通过执行模块120的datatype属性来确定信息的数据类型。projectname是执行模块120要处理的信息的来源名称,datatype要处理的信息的数据类型,每个“projectname+datatype”对应唯一的执行模块120的类型。抓取单元112用于根据执行模块120的类型抓取对应的信息。抓取单元112中预存了执行模块120和所需抓取的信息之间的对应关系。执行模块120分别与识别单元111和抓取单元112连接,用于获取抓取单元112抓取的信息,并通过该信息执行预设的任务。例如抓取模块110可以从互联网抓取视频、音频、文本或游戏等信息,执行模块120可以将抓取到的信息按点击量或发布时间等条件进行排序,然后推送给互联网用户。图1B示出了本专利技术实施例中的另一种信息抓取装置100’的结构框图,在信息抓取装置100’中,与信息抓取装置100中附图标记相同的模块,有相同或相似的功能。具体地,为了使信息抓取装置100’能够有序地进行大量抓取,抓取模块110中还包括控制单元113,该控制单元113用于触发抓取单元112’,使抓取单元112’抓取执行模块120所需的信息。抓取单元112’是抓取单元112的一种优选形式,具体地,抓取单元112’中可以包括多种抓取模板112-1,112-2,…,112-K(K为自然数,且K大于等于1)。实践中,K的数量根据实际需求设定,各抓取单元均能按照不同的抓取模板的格式抓取对应的信息,例如通过抓取模块112-1可以抓取视频,通过抓取模块112-2可以抓取游戏等。抓取单元112’中预存了执行模块120和所需抓取的信息之间的对应关系例如,“projectname=x1,datatype=y1”的执行模块120对应模板112-1;“projectname=x2,datatype=y2”的执行模块120对应模板112-2。由于抓取单元112’和执行模块120均有可能为多个,因此可以通过控制单元113来管理各个抓取单元112’的秩序。例如,该控制单元113可以按先后顺序触发各抓取单元112’,具体地,控制单元113可以通过队列的方式触发抓取单元112’。为了合理高效地利用各抓取单元112’,优选地,控制单元113可以用于确定抓取单元112’是否处于空闲状态,进一步地,控制单元113还用于选择处于空闲状态的抓取单元112’抓取执行模块120所需的信息。图2示出了本专利技术优选实施例中的信息抓取装置的结构框图,如图2所示,该装置包括爬虫服务器210、控制中心220和应用平台230。本实施例中的爬虫服务器210相当于图1A所示实施例中的抓取单元112或图1B所示实施例中的抓取单元112’(虚线框所示),控制中心220相当于图1A或图1B所示实施例中的识别单元111(虚线框所示),爬虫服务器210和控制中心220共同实现图1A或图1B所示实施例中抓取模块110的功能,应用平台230与各应用(231-1,231-2,…231-K)共同实现图1A或图1B所示实施例中执行模块120(虚线框所示)的功能。本实施例作为图1A和图1B所示实施例的进一步优化,在控制中心220中设置了控制中心API221以对各应用进行识别,并在该爬虫服务器210中设置了存储单元211,以存储个应用于所需的信息之间的对应关系,爬虫服务器210中包括多个爬虫211-1,211-2,…,211-K,各爬虫均可以单独实现抓取单元112’的功能,每个爬虫的结构都如图1B中的抓取单元112’所示,可以通过不同的抓取模板112-1,112-2,本文档来自技高网...
信息抓取装置和方法

【技术保护点】
一种信息抓取装置,其特征在于,包括抓取模块和执行模块,其中,所述抓取模块包括:识别单元,用于识别所述执行模块的类型;抓取单元,用于根据所述执行模块的类型抓取对应的信息,其中,所述抓取单元中预存了所述执行模块和所需抓取的信息之间的对应关系;所述执行模块分别与所述识别单元和所述抓取单元连接,用于获取所述抓取单元抓取的信息,并通过所述信息执行预设的任务。

【技术特征摘要】
1.一种信息抓取装置,其特征在于,包括抓取模块和执行模块,其中,所述抓取模块包括:识别单元,用于识别所述执行模块的类型;抓取单元,用于根据所述执行模块的类型抓取对应的信息,其中,所述抓取单元中预存了单个所述执行模块和所需抓取的信息之间的对应关系;所述执行模块分别与所述识别单元和所述抓取单元连接,用于获取所述抓取单元抓取的信息,并通过所述信息执行预设的任务。2.根据权利要求1所述的装置,其特征在于,所述抓取单元包括:多个抓取模板,用于提供抓取策略,通过不同的所述抓取策略能够抓取不同的信息。3.根据权利要求1所述的装置,其特征在于,所述抓取模块还包括:控制单元,用于触发所述抓取单元,使所述抓取单元抓取所述执行模块所需的信息。4.根据权利要求3所述的装置,其特征在于,所述控制单元用于按先后顺序触发所述抓取单元。5.根据权利要求3所述的装置,其特征在于...

【专利技术属性】
技术研发人员:邓涛
申请(专利权)人:北界创想北京软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1