网站资源的爬取方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:22219110 阅读:14 留言:0更新日期:2019-09-30 01:20
本发明专利技术公开了一种网站资源的爬取方法、装置、计算机设备和存储介质。其中,方法包括:确定用户设计的流程图;其中,流程图中包括多个节点和节点间的连接关系,每个节点对应一个控件;基于流程图中的节点所对应的控件和流程图中的节点间的连接关系,生成针对目标网站的爬取配置规则;根据爬取配置规则对目标网站中相应资源进行爬取,以得到对应的爬取结果信息。该方法可以使得用户根据自身需求设计对应流程图,基于流程图将配置爬虫规则的过程流程化,提高了配置的灵活性、有效性和爬取的准确性,能够有效的节省人力成本和时间成本。

Crawling methods, devices, computer equipment and storage media of website resources

【技术实现步骤摘要】
网站资源的爬取方法、装置、计算机设备和存储介质
本专利技术涉及计算机应用领域,尤其涉及一种网站资源的爬取方法、装置、计算机设备和存储介质。
技术介绍
随着互联网技术的快速发展,互联网上存在海量的数据。搜索引擎为了方便为用户提供搜索功能服务,经常需要在互联网海量的数据中搜索并分析,爬虫技术的出现有效提高了搜索效率。爬虫技术主要通过对特定的资源进行标识、爬取以及清理等措施,将有效信息进行提取。随着时代的发展,爬虫技术也将得到飞速的发展,应用到更多的应用领域,提高数据的利用率,促进社会的发展。相关技术中,主要通过人工采用查看网页源码,进行人工配置相关的爬取规则,,如xpath、css或者正则表达式等,来标识爬取网页上的资源。但是存在的问题是,在少量数据源方面研发人员还能进行配置,而对于较大的数据需求时,进行机械的重复活动也会降低研发人员的积极性,并且这种开发方式费时费力,严重降低了研发人员的开发效率。
技术实现思路
本专利技术的目的旨在至少在一定程度上解决上述的技术问题之一。为此,本专利技术的第一个目的在于提出一种网站资源的爬取方法。该方法可以提高配置的灵活性、有效性和提高爬取的准确性,能够有效的节省人力成本和时间成本。本专利技术的第二个目的在于提出一种网站资源的爬取装置。本专利技术的第三个目的在于提出一种计算机设备。本专利技术的第四个目的在于提出一种计算机可读存储介质。为达到上述目的,本专利技术第一方面实施例提出的网站资源的爬取方法,包括:确定用户设计的流程图;其中,所述流程图中包括多个节点和节点间的连接关系,每个所述节点对应一个控件;基于所述流程图中的节点所对应的控件,生成针对目标网站的爬取配置规则;根据所述爬取配置规则对所述目标网站中的相应资源进行爬取,以得到对应的爬取结果信息。根据本专利技术的一个实施例,所述确定用户设计的流程图,包括:提供流程设计界面,其中,所述流程设计界面具有多个可用控件;接收所述用户从所述多个可用控件中选择的控件;接收所述用户输入的针对所述选择的控件间的连接关系;根据所述用户选择的控件和所述连接关系,生成所述用户设计的流程图。根据本专利技术的一个实施例,所述多个可用控件包括开始控件、选择控件、删除控件和保存控件;其中,所述开始控件,用于进行待爬取网站的URL地址的输入;所述选择控件,用于粗粒度选取待爬取区域;所述删除控件,用于删除所述待爬取网站页面中的干扰因素;所述保存控件,用于细粒度的对待爬取信息的爬虫规则进行配置。根据本专利技术的一个实施例,所述基于所述流程图中的节点所对应的控件,生成针对目标网站的爬取配置规则,包括:获取所述用户对所述流程图中各节点所对应的控件的配置信息;根据所述流程图中各节点所对应的控件的配置信息和节点顺序,生成针对所述目标网站的爬取配置规则。根据本专利技术的一个实施例,所述获取所述用户对所述流程图中各节点所对应的控件的配置信息,包括:提供配置界面;基于所述配置界面,接收所述用户对所述流程图中各节点所对应的控件的配置信息;其中,所述流程图中的根节点所对应的控件为所述开始控件,所述流程图中的叶子节点所对应的控件为所述保存控件。根据本专利技术的一个实施例,当所述流程图中的根节点与叶子节点之间存在选择控件节点时,确定所述选择控件节点的父节点所对应的第一网站资源信息;将所述第一网站资源信息提供给所述用户,以使所述用户在所述第一网站资源信息上选择待爬取区域;在所述配置界面上显示所述用户选择的所述待爬取区域所对应的标识规则,并根据所述用户选择的所述待爬取区域所对应的标识规则确定所述选择控件节点的配置信息;当所述流程图中的根节点与叶子节点之间存在删除控件节点时,确定所述删除控件节点的父节点所对应的第二网站资源信息;将所述第二网站资源信息提供给所述用户,以使所述用户在所述第二网站资源信息上选择待删除区域;在所述配置界面上显示所述用户选择的所述待删除区域所对应的标识规则,并根据所述用户选择的所述待删除区域所对应的标识规则确定所述删除控件节点的配置信息。根据本专利技术的一个实施例,所述根据所述流程图中各节点所对应的控件的配置信息和节点顺序,生成针对所述目标网站的爬取配置规则,包括:确定所述流程图中的根节点和叶子节点;根据所述流程图中的根节点、叶子节点、各节点间连接关系、和所述各节点所对应的控件的配置信息,生成针对所述目标网站的爬取配置规则。根据本专利技术的一个实施例,所述方法还包括:将所述爬取结果信息提供给所述用户。根据本专利技术的一个实施例,所述方法还包括:将所述流程图提供给所述用户;接收所述用户针对所述流程图中节点的选择操作;确定所述用户选择的节点所对应的控件,并从所述爬取配置规则中确定出所述用户选择的节点控件所对应的配置信息;根据所述用户选择的节点控件所对应的配置信息,从所述目标网站中爬取对应内容,并将爬取到的内容提供给所述用户。为达到上述目的,本专利技术第二方面实施例提出的网站资源的爬取装置,包括:流程图确定模块,用于确定用户设计的流程图;其中,所述流程图中包括多个节点和节点间的连接关系,每个所述节点对应一个控件;爬取配置规则生成模块,用于基于所述流程图中的节点所对应的控件,生成针对目标网站的爬取配置规则;爬取模块,用于根据所述爬取配置规则对所述目标网站中的相应资源进行爬取,以得到对应的爬取结果信息。根据本专利技术的一个实施例,所述流程图确定模块具体用于:提供流程设计界面,其中,所述流程设计界面具有多个可用控件;接收所述用户从所述多个可用控件中选择的控件;接收所述用户输入的针对所述选择的控件间的连接关系;根据所述用户选择的控件和所述连接关系,生成所述用户设计的流程图。根据本专利技术的一个实施例,所述多个可用控件包括开始控件、选择控件、删除控件和保存控件;其中,所述开始控件,用于进行待爬取网站的URL地址的输入;所述选择控件,用于粗粒度选取待爬取区域;所述删除控件,用于删除所述待爬取网站页面中的干扰因素;所述保存控件,用于细粒度的对待爬取信息的爬虫规则进行配置。根据本专利技术的一个实施例,所述爬取配置规则生成模块包括:获取单元,用于获取所述用户对所述流程图中各节点所对应的控件的配置信息;生成单元,用于根据所述流程图中各节点所对应的控件的配置信息和节点顺序,生成针对所述目标网站的爬取配置规则。根据本专利技术的一个实施例,所述获取单元具体用于:提供配置界面;基于所述配置界面,接收所述用户对所述流程图中各节点所对应的控件的配置信息;其中,所述流程图中的根节点所对应的控件为所述开始控件,所述流程图中的叶子节点所对应的控件为所述保存控件。根据本专利技术的一个实施例,所述生成单元具体用于:确定所述流程图中的根节点和叶子节点;根据所述流程图中的根节点、叶子节点、各节点间连接关系、和所述各节点所对应的控件的配置信息,生成针对所述目标网站的爬取配置规则。根据本专利技术的一个实施例,所述装置还包括:预览模块,用于将所述爬取结果信息提供给所述用户。根据本专利技术的一个实施例,所述装置还包括:流程图提供模块,用于将所述流程图提供给所述用户;解析模块,用于接收所述用户针对所述流程图中节点的选择操作,并确定所述用户选择的节点所对应的控件,并从所述爬取配置规则中确定出所述用户选择的节点控件所对应的配置信息;其中,所述爬取模块,还用于根据所述用户选择的节点控件所对应的配置信息,从本文档来自技高网...

【技术保护点】
1.一种网站资源的爬取方法,其特征在于,包括以下步骤:确定用户设计的流程图;其中,所述流程图中包括多个节点和节点间的连接关系,每个所述节点对应一个控件;基于所述流程图中的节点所对应的控件,生成针对目标网站的爬取配置规则;根据所述爬取配置规则对所述目标网站中的相应资源进行爬取,以得到对应的爬取结果信息。

【技术特征摘要】
1.一种网站资源的爬取方法,其特征在于,包括以下步骤:确定用户设计的流程图;其中,所述流程图中包括多个节点和节点间的连接关系,每个所述节点对应一个控件;基于所述流程图中的节点所对应的控件,生成针对目标网站的爬取配置规则;根据所述爬取配置规则对所述目标网站中的相应资源进行爬取,以得到对应的爬取结果信息。2.根据权利要求1所述的方法,其特征在于,所述确定用户设计的流程图,包括:提供流程设计界面,其中,所述流程设计界面具有多个可用控件;接收所述用户从所述多个可用控件中选择的控件;接收所述用户输入的针对所述选择的控件间的连接关系;根据所述用户选择的控件和所述连接关系,生成所述用户设计的流程图。3.根据权利要求2所述的方法,其特征在于,所述多个可用控件包括开始控件、选择控件、删除控件和保存控件;其中,所述开始控件,用于进行待爬取网站的URL地址的输入;所述选择控件,用于粗粒度选取待爬取区域;所述删除控件,用于删除所述待爬取网站页面中的干扰因素;所述保存控件,用于细粒度的对待爬取信息的爬虫规则进行配置。4.根据权利要求3所述的方法,其特征在于,所述基于所述流程图中的节点所对应的控件,生成针对目标网站的爬取配置规则,包括:获取所述用户对所述流程图中各节点所对应的控件的配置信息;根据所述流程图中各节点所对应的控件的配置信息和节点顺序,生成针对所述目标网站的爬取配置规则。5.根据权利要求4所述的方法,其特征在于,所述获取所述用户对所述流程图中各节点所对应的控件的配置信息,包括:提供配置界面;基于所述配置界面,接收所述用户对所述流程图中各节点所对应的控件的配置信息;其中,所述流程图中的根节点所对应的控件为所述开始控件,所述流程图中的叶子节点所对应的控件为所述保存控件。6.根据权利要求5所述的方法,其特征在于,当所述流程图中的根节点与叶子节点之间存在选择控件节点时,确定所述选择控件节点的父节点所对应的第一网站资源信息;将所述第一网站资源信息提供给所述...

【专利技术属性】
技术研发人员:孙加亮
申请(专利权)人:北京金山安全软件有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1