一种信息爬取方法和装置、电子设备制造方法及图纸

技术编号:17110217 阅读:79 留言:0更新日期:2018-01-24 22:34
本发明专利技术公开了一种信息处理方法和装置、电子设备,方法包括:接收第一爬取目标;其中,所述第一爬取目标包括目标网址以及第一关键信息;基于所述第一爬取目标,利用预先建立的目标数据库对所述第一爬取目标进行扩展,获得包含所述第一爬取目标的第二爬取目标;其中,所述第二爬取目标包括爬取网址集合以及第二关键信息;基于所述第二爬取目标,进行爬取操作;本申请能够在减小人工参与的基础上提高信息爬取的针对性。

An information crawling method and device, electronic equipment

The present invention discloses includes an information processing method and device, electronic equipment, method of receiving a first crawling target; among them, the first crawling objectives include the destination URL and the first key information; the first crawling target based on the pre established target data base on the first crawling target expansion get, including the first goal of the second crawling crawling target; among them, the second goals include crawling crawling web site set and second key information; the second crawling target based on crawling operation; this application can reduce the artificial participation based on improved targeted information crawling.

【技术实现步骤摘要】
一种信息爬取方法和装置、电子设备
本专利技术涉及信息爬取
,更具体的说是涉及一种信息爬取方法和装置、电子设备。
技术介绍
随着互联网技术和服务技术发展,互联网信息量的庞大,为了便捷的从网络信息中获取符合要求的内容,出现了信息爬取技术。目前在人工智能领域中,信息爬取方法可以分为宽度优先方法和深度优先方法,其中,深度优先方法具体为:沿着预先定义的爬取路径进行信息爬取,逐层深入爬取与目标有关的信息,这种爬取方法需要借助事先的分析配置爬取路径,因此需要大量的人工分析配置工作,而且由于爬取对象的网站风格和网页结构并不是一成不变的,所以需要人工定期维护更新。而宽度优先方法具体为:从种子链接出发,不断从当前访问的页面中抽取新的链接加入到种子链接列表中,以扩充待抽取的种子链接集合,逐步扩大抓取的范围,从而抓取全网信息,这种爬取方法的爬取目标为全网,因此,需要大量的资源和时间,另一方面也无法从中筛选出真正对于用户有用的信息。综上,如何在尽可能的减少人工参与的基础上提高信息爬取的针对性成为本领域亟待解决的技术问题。
技术实现思路
有鉴于此,本专利技术提供一种信息爬取方法和装置、电子设备,以在尽可能的减少人工参与的基础上提高信息爬取的针对性。为实现上述目的,本专利技术提供如下技术方案:一种信息处理方法,包括:接收第一爬取目标;其中,所述第一爬取目标包括目标网址以及第一关键信息;基于所述第一爬取目标,利用预先建立的目标数据库对所述第一爬取目标进行扩展,获得包含所述第一爬取目标的第二爬取目标;其中,所述第二爬取目标包括爬取网址集合以及第二关键信息;基于所述第二爬取目标,进行爬取操作。优选的,所述基于所述第一爬取目标,利用预先建立的目标数据库对所述第一爬取目标进行扩展,获得包含所述第一爬取目标的第二爬取目标,包括:利用预先建立的目标数据库对所述目标网址进行扩展,获取包含所述目标网址的爬取网址集合;其中,所述目标数据库包括网址集合、不同类别下的网址集合、具有关联关系的网址集合中的至少一种。优选的,所述第一关键信息包括目标网址类型、关键词、目标信息类型中的至少一个;当所述第一关键信息包括目标网址类型时,所述基于所述第一爬取目标,利用预先建立的目标数据库对所述第一爬取目标进行扩展,获得包含所述第一爬取目标的第二爬取目标,包括:基于所述目标网址类型,在所述目标数据库中确定与所述目标网址类型同类的网址,生成包含所述目标网址以及所确定的网址的爬取网址集合;其中,所述目标数据包括不同类别下的网址集合;当所述第一关键信息包括关键词时,所述基于所述第一爬取目标,利用预先建立的目标数据库对所述第一爬取目标进行扩展,获得包含所述第一爬取目标的第二爬取目标包括:基于所述关键词,在所述目标数据库中确定与所述关键词相关联的其他关键词,生成包含所述关键词以及所确定的其他关键词的第二关键信息;当所述第一关键信息包括目标信息类型时,所述基于所述第一爬取目标,利用预先建立的目标数据库对所述第一爬取目标进行扩展,获得包含所述第一爬取目标的第二爬取目标包括:基于所述目标信息类型,在所述目标数据中确定与所述目标信息类型相关联的其他信息,生成包含所述目标信息类型以及所确定的其他信息的第二关键信息。优选的,还包括:访问所述爬取网址集合中的网址,确定对应网页中与所述第二关键信息匹配的第一位置;在所述第一位置抽取目标信息。优选的,还包括:确定对应网页中是否存在与所述第二关键信息匹配的内容;如不存在,访问所述爬取网址集合中的下一个网址。优选的,所述第二关键信息包括关键词、目标信息类型中的至少一个,所述确定对应网页中是否存在与所述第二爬取目标匹配的内容,包括:确定对应网页中是否包括关键词;和/或,确定对应网页是否和目标信息类型匹配。一种信息处理装置,包括:第一接收单元,用于接收第一爬取目标;其中,所述第一爬取目标包括目标网址以及第一关键信息;第一扩展单元,用于基于所述第一爬取目标,利用预先建立的目标数据库对所述第一爬取目标进行扩展,获得包含所述第一爬取目标的第二爬取目标;其中,所述第二爬取目标包括爬取网址集合以及第二关键信息;第一爬取单元,用于基于所述第二爬取目标,进行爬取操作。优选的,所述第一扩展单元具体用于利用预先建立的目标数据库对所述目标网址进行扩展,获取包含所述目标网址的爬取网址集合;其中,所述目标数据库网址集合、不同类别下的网址集合、具有关联关系的网址集合中的至少一种。一种电子设备,包括:存储器,用于存储目标数据库;处理器,用于接收第一爬取目标,基于所述第一爬取目标,利用预先建立的目标数据库对所述第一爬取目标进行扩展,获得包含所述第一爬取目标的第二爬取目标,基于所述第二爬取目标,进行爬取操作;其中,所述第一爬取目标包括目标网址以及第一关键信息,所述第二爬取目标包括爬取网址集合以及第二关键信息。优选的,所述处理器具体用于利用预先建立的目标数据库对所述目标网址进行扩展,获取包含所述目标网址的爬取网址集合;其中,所述目标数据库包括网址集合、不同类别下的网址集合、具有关联关系的网址集合中的至少一种。经由上述的技术方案可知,与现有技术相比,本专利技术实施例提供了一种信息处理方法,包括:接收第一爬取目标;其中,所述第一爬取目标包括目标网址以及第一关键信息;基于所述第一爬取目标,利用预先建立的目标数据库对所述第一爬取目标进行扩展,获得包含所述第一爬取目标的第二爬取目标;其中,所述第二爬取目标包括爬取网址集合以及第二关键信息;基于所述第二爬取目标,进行爬取操作。由此可见,本申请能够通过目标数据库对第一爬取目标进行扩展,从而对扩展后的第二爬取目标进行爬取操作,由于该扩展是自动实现的,因此无需人工定期维度更新,并且第二爬取目标包括的是爬取网址集合,相当于现有技术中的爬取方法的爬取目标为全网而言,也提高了爬取效率,也就是说,本申请能够在减小人工参与的基础上提高信息爬取的针对性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术一个实施例公开的一种信息爬取方法的流程示意图;图2为本专利技术另一实施例公开的一种信息爬取方法的流程示意图;图3为本专利技术又一实施例公开的一种信息爬取方法的流程示意图;图4为本专利技术又一实施例公开的一种信息爬取方法的流程示意图;图5为本专利技术一个实施例公开的一种信息爬取装置的结构示意图;图6为本专利技术另一实施例公开的一种信息爬取装置的结构示意图;图7为本专利技术又一实施例公开的一种信息爬取装置的结构示意图;图8为本专利技术一个实施例公开的一种信息爬取装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术一个实施例公开了一种信息处理方法,如图1所示,该方法包括以下步骤:步骤101:接收第一爬取目标;其中,第一爬取目标包括目标网址以及第一本文档来自技高网...
一种信息爬取方法和装置、电子设备

【技术保护点】
一种信息处理方法,其特征在于,包括:接收第一爬取目标;其中,所述第一爬取目标包括目标网址以及第一关键信息;基于所述第一爬取目标,利用预先建立的目标数据库对所述第一爬取目标进行扩展,获得包含所述第一爬取目标的第二爬取目标;其中,所述第二爬取目标包括爬取网址集合以及第二关键信息;基于所述第二爬取目标,进行爬取操作。

【技术特征摘要】
1.一种信息处理方法,其特征在于,包括:接收第一爬取目标;其中,所述第一爬取目标包括目标网址以及第一关键信息;基于所述第一爬取目标,利用预先建立的目标数据库对所述第一爬取目标进行扩展,获得包含所述第一爬取目标的第二爬取目标;其中,所述第二爬取目标包括爬取网址集合以及第二关键信息;基于所述第二爬取目标,进行爬取操作。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一爬取目标,利用预先建立的目标数据库对所述第一爬取目标进行扩展,获得包含所述第一爬取目标的第二爬取目标,包括:利用预先建立的目标数据库对所述目标网址进行扩展,获取包含所述目标网址的爬取网址集合;其中,所述目标数据库包括网址集合、不同类别下的网址集合、具有关联关系的网址集合中的至少一种。3.根据权利要求1所述的方法,其特征在于,所述第一关键信息包括目标网址类型、关键词、目标信息类型中的至少一个;当所述第一关键信息包括目标网址类型时,所述基于所述第一爬取目标,利用预先建立的目标数据库对所述第一爬取目标进行扩展,获得包含所述第一爬取目标的第二爬取目标,包括:基于所述目标网址类型,在所述目标数据库中确定与所述目标网址类型同类的网址,生成包含所述目标网址以及所确定的网址的爬取网址集合;其中,所述目标数据包括不同类别下的网址集合;当所述第一关键信息包括关键词时,所述基于所述第一爬取目标,利用预先建立的目标数据库对所述第一爬取目标进行扩展,获得包含所述第一爬取目标的第二爬取目标包括:基于所述关键词,在所述目标数据库中确定与所述关键词相关联的其他关键词,生成包含所述关键词以及所确定的其他关键词的第二关键信息;当所述第一关键信息包括目标信息类型时,所述基于所述第一爬取目标,利用预先建立的目标数据库对所述第一爬取目标进行扩展,获得包含所述第一爬取目标的第二爬取目标包括:基于所述目标信息类型,在所述目标数据中确定与所述目标信息类型相关联的其他信息,生成包含所述目标信息类型以及所确定的其他信息的第二关键信息。4.根据权利要求1所述的方...

【专利技术属性】
技术研发人员:卓雷杨奇川胡长健
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1