The present invention discloses includes an information processing method and device, electronic equipment, method of receiving a first crawling target; among them, the first crawling objectives include the destination URL and the first key information; the first crawling target based on the pre established target data base on the first crawling target expansion get, including the first goal of the second crawling crawling target; among them, the second goals include crawling crawling web site set and second key information; the second crawling target based on crawling operation; this application can reduce the artificial participation based on improved targeted information crawling.
【技术实现步骤摘要】
一种信息爬取方法和装置、电子设备
本专利技术涉及信息爬取
,更具体的说是涉及一种信息爬取方法和装置、电子设备。
技术介绍
随着互联网技术和服务技术发展,互联网信息量的庞大,为了便捷的从网络信息中获取符合要求的内容,出现了信息爬取技术。目前在人工智能领域中,信息爬取方法可以分为宽度优先方法和深度优先方法,其中,深度优先方法具体为:沿着预先定义的爬取路径进行信息爬取,逐层深入爬取与目标有关的信息,这种爬取方法需要借助事先的分析配置爬取路径,因此需要大量的人工分析配置工作,而且由于爬取对象的网站风格和网页结构并不是一成不变的,所以需要人工定期维护更新。而宽度优先方法具体为:从种子链接出发,不断从当前访问的页面中抽取新的链接加入到种子链接列表中,以扩充待抽取的种子链接集合,逐步扩大抓取的范围,从而抓取全网信息,这种爬取方法的爬取目标为全网,因此,需要大量的资源和时间,另一方面也无法从中筛选出真正对于用户有用的信息。综上,如何在尽可能的减少人工参与的基础上提高信息爬取的针对性成为本领域亟待解决的技术问题。
技术实现思路
有鉴于此,本专利技术提供一种信息爬取方法和装置、电子设备,以在尽可能的减少人工参与的基础上提高信息爬取的针对性。为实现上述目的,本专利技术提供如下技术方案:一种信息处理方法,包括:接收第一爬取目标;其中,所述第一爬取目标包括目标网址以及第一关键信息;基于所述第一爬取目标,利用预先建立的目标数据库对所述第一爬取目标进行扩展,获得包含所述第一爬取目标的第二爬取目标;其中,所述第二爬取目标包括爬取网址集合以及第二关键信息;基于所述第二爬取目标,进行爬取操 ...
【技术保护点】
一种信息处理方法,其特征在于,包括:接收第一爬取目标;其中,所述第一爬取目标包括目标网址以及第一关键信息;基于所述第一爬取目标,利用预先建立的目标数据库对所述第一爬取目标进行扩展,获得包含所述第一爬取目标的第二爬取目标;其中,所述第二爬取目标包括爬取网址集合以及第二关键信息;基于所述第二爬取目标,进行爬取操作。
【技术特征摘要】
1.一种信息处理方法,其特征在于,包括:接收第一爬取目标;其中,所述第一爬取目标包括目标网址以及第一关键信息;基于所述第一爬取目标,利用预先建立的目标数据库对所述第一爬取目标进行扩展,获得包含所述第一爬取目标的第二爬取目标;其中,所述第二爬取目标包括爬取网址集合以及第二关键信息;基于所述第二爬取目标,进行爬取操作。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一爬取目标,利用预先建立的目标数据库对所述第一爬取目标进行扩展,获得包含所述第一爬取目标的第二爬取目标,包括:利用预先建立的目标数据库对所述目标网址进行扩展,获取包含所述目标网址的爬取网址集合;其中,所述目标数据库包括网址集合、不同类别下的网址集合、具有关联关系的网址集合中的至少一种。3.根据权利要求1所述的方法,其特征在于,所述第一关键信息包括目标网址类型、关键词、目标信息类型中的至少一个;当所述第一关键信息包括目标网址类型时,所述基于所述第一爬取目标,利用预先建立的目标数据库对所述第一爬取目标进行扩展,获得包含所述第一爬取目标的第二爬取目标,包括:基于所述目标网址类型,在所述目标数据库中确定与所述目标网址类型同类的网址,生成包含所述目标网址以及所确定的网址的爬取网址集合;其中,所述目标数据包括不同类别下的网址集合;当所述第一关键信息包括关键词时,所述基于所述第一爬取目标,利用预先建立的目标数据库对所述第一爬取目标进行扩展,获得包含所述第一爬取目标的第二爬取目标包括:基于所述关键词,在所述目标数据库中确定与所述关键词相关联的其他关键词,生成包含所述关键词以及所确定的其他关键词的第二关键信息;当所述第一关键信息包括目标信息类型时,所述基于所述第一爬取目标,利用预先建立的目标数据库对所述第一爬取目标进行扩展,获得包含所述第一爬取目标的第二爬取目标包括:基于所述目标信息类型,在所述目标数据中确定与所述目标信息类型相关联的其他信息,生成包含所述目标信息类型以及所确定的其他信息的第二关键信息。4.根据权利要求1所述的方...
【专利技术属性】
技术研发人员:卓雷,杨奇川,胡长健,
申请(专利权)人:联想北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。