一种信息采集方法及装置制造方法及图纸

技术编号:13123615 阅读:55 留言:0更新日期:2016-04-06 11:29
本申请公开了一种信息采集方法及装置,用于克服现有技术中的上述技术问题。方法包括:获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理,从而避免了现有技术中注入政府采购信息更多的依赖于人工采集和整理后进行结构化恢复导致采集或者收集政府采购信息的过程繁琐,成本较高等问题。

【技术实现步骤摘要】

本申请属于信息采集
,具体地说,涉及一种信息采集方法及装置
技术介绍
政府采购(Government Procurement)是指国家各级政府为从事日常的政务活动或为了满足公共服务的目的,利用国家财政性资金和政府借款购买货物、工程和服务的行为。政府采购信息通常以招投标公告和附件的非结构化文本、文件形式公开在网页等渠道中,这些文本或者文件一般都是由人工维护编写。而且政府采购信息的发布渠道来源非常多和杂,可能会在相关的各级省市区县地的政府网站、商业网站、其他机构等网站上发布。发布站点经常是综合站,甚至有些采购信息发布的栏目也会同时发布其他综合信息。同时,发布中会经常出现一则采购公告信息,该采购公告信息可能会在在多级政府站点上多次发布,且不同发布站点上发送的内容格式还可能存在差异。上述政府采购信息更多的依赖于人工采集和整理后进行结构化恢复。但是,一方面,由于发布的公文由人工维护编写,经常会出现疏漏错误,公文格式没有统一的规范,公文有可能受限于发布网站的技术限制通常会直接用图片展现文件;另外一方面,由于发布的渠道多而杂。上述这两方面导致采集或者收集政府采购信息的过程繁琐,成本较高。
技术实现思路
本申请所要解决的技术问题是提供一种信息采集方法及装置,用于克服现有技术中的上述技术问题。为了解决上述技术问题,本申请提供了一种信息采集方法,其包括:获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理。优选地,在本专利技术的一实施例中,所述获取信息源网站,对所述信息源网站进行分析包括:获取所述信息源网站的起始页面、网页结构以及包含有所述目标信息的最终url地址以及访问所述最终URL地址所需迭代采集的次数。优选地,在本专利技术的一实施例中,所述信息采集规则包括:其中的一种或任意组合:站点结构设置、采集区域及栏目设置、采集链路逻辑设置、模拟http请求数据设置、具体信息采集设置;所述站点结构设置用于设置站点采集的起始页面或起始页面规则;所述采集区域及栏目设置以及采集链路逻辑设置用于分析网页结构,迭代逐层获取到所述目标信息的最终url地址;所述采集链路用于控制迭代采集的次数;所述模拟http请求数据设置用于配置访问所述信息源网站的请求;所述具体信息采集设置用于针对需要的信息项定制的页面获取逻辑,获取初步结构化的目标信息。优选地,在本专利技术的一实施例中,所述采集规则还包括网址模式匹配和排除规则和附件处理规则,所述网址模式匹配和排除规则用于使用url pattern模式限制采集的范围,所述附件处理设置用于针对需要信息源网站中目标信息包括的附件的采集设置。优选地,在本专利技术的一实施例中,所述采集执行参数设置包括时间设置和任务设置,所述时间设置用于控制所述信息采集规则在匹配的时间进行运行,所述任务设置于对不同的信息采集请求进行优先级排序。优选地,在本专利技术的一实施例中,所述采集执行参数设置还包括:模拟登录设置、代理ip设置、特殊验证信息处理接口。优选地,在本专利技术的一实施例中,还包括:设计监控规则,根据所述监控规则对所述信息采集规则进行监控,以确定每一条所述信息采集规则的异常。优选地,在本专利技术的一实施例中,所述根据对所述信息源网站的分析结果定制对应的信息采集规则包括:通过图形化配置页面定制对应的信息采集规则。为了解决上述技术问题,本申请提供了一种信息采集装置,其包括:规则配置单元,用于获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;采集单元,用于根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理。优选地,在本专利技术的一实施例中,还包括:调度模块,用于调度信息采集请求;抓取单元,用于从所述信息源网站的地址中抓取非结构化的目标信息;处理单元,用于对所述非结构信息进行结构化处理。与现有的方案相比,本申请所获得的技术效果:首先,获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;其次,根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理,从而避免了现有技术中注入政府采购信息更多的依赖于人工采集和整理后进行结构化恢复导致采集或者收集政府采购信息的过程繁琐,成本较高等问题。【附图说明】图1为本申请实施例一信息采集方法的流程示意图;图2为本申请实施例二彳目息米集方法的流程不意图;图3为本申请实施例三信息采集方法的流程示意图;图4为本申请实施例四信息采集方法的流程示意图。【具体实施方式】以下将配合图式及实施例来详细说明本申请的实施方式,藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。下述本申请实施例中,通过获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;其次,根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理,从而避免了现有技术中注入政府采购信息更多的依赖于人工采集和整理后进行结构化恢复导致采集或者收集政府采购信息的过程繁琐,成本较高等问题。图1为本申请实施例一信息采集方法的流程示意图;如图1所示,其可以包括:S101、获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;本实施例中,步骤S101中,所述获取信息源网站,对所述信息源网站进行分析具体可以包括:获取所述信息源网站的起始页面、网页结构以及包含有所述目标信息的最终url地址以及访问所述最终URL地址所需迭代采集的次数。起始页面一般是指站点的主页,主页是一个网站的开始,一般主页的名称是固定的index, htm或index, html等。对于网页结构来说就是一个一个的页面之间用超级链接组合起来,一般一个站点有一个主页面,然后就分级别逐层向下,不断链接。目标信息可能存在于3级页面之下,因此,通常需要一个列表打开后还有一个列表页,如此3层才是最终的内容页。所谓迭代采集的次数是指一起始页面开始,打开几层次级页面才能最终发现目标?目息。因此,所述信息采集规则包括其中的一种或任意组合:站点结构设置、采集区域及栏目设置、采集链路逻辑设置、模拟http请求数据设置、具体信息采集设置;所述站点结构设置用于设置站点采集的起始页面或起始页面规则;所述采集区域及栏目设置以及采集链路逻辑设置用于分析网页结构,比如从主页到“招标”、“中标”等栏目,再从这些栏目的列表页面到公告内容明细页;所述采集链路用于控制迭代采集的次数,与采集区域及栏目设置操作和采集链路逻辑设置配合一起完成迭代逐层获取到所述目标信息的最终url地址。采集区域包括页面展现中哪部分区域是有效的url产生区域,根据这个区域中url获取再次迭代的url部分;所述模拟http请求数据设置用于配置访问所述信息源网站的请求,即实现模拟登录,该模拟登陆过程主本文档来自技高网...

【技术保护点】
一种信息采集方法,其特征在于,包括:获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理。

【技术特征摘要】

【专利技术属性】
技术研发人员:万如意黄伟聪顾正嘉
申请(专利权)人:北京众标网络科技有限公司
类型:发明
国别省市:北京;11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1