一种信息采集方法及装置制造方法及图纸

技术编号：13123615 阅读：55 留言：0更新日期：2016-04-06 11:29

本申请公开了一种信息采集方法及装置，用于克服现有技术中的上述技术问题。方法包括：获取信息源网站，对所述信息源网站进行分析，根据对所述信息源网站的分析结果定制对应的信息采集规则；根据定制的采集规则以及采集执行参数设置，调度信息采集请求，以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理，从而避免了现有技术中注入政府采购信息更多的依赖于人工采集和整理后进行结构化恢复导致采集或者收集政府采购信息的过程繁琐，成本较高等问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于信息采集
，具体地说，涉及一种信息采集方法及装置。
技术介绍
政府采购(Government Procurement)是指国家各级政府为从事日常的政务活动或为了满足公共服务的目的，利用国家财政性资金和政府借款购买货物、工程和服务的行为。政府采购信息通常以招投标公告和附件的非结构化文本、文件形式公开在网页等渠道中，这些文本或者文件一般都是由人工维护编写。而且政府采购信息的发布渠道来源非常多和杂，可能会在相关的各级省市区县地的政府网站、商业网站、其他机构等网站上发布。发布站点经常是综合站，甚至有些采购信息发布的栏目也会同时发布其他综合信息。同时，发布中会经常出现一则采购公告信息，该采购公告信息可能会在在多级政府站点上多次发布，且不同发布站点上发送的内容格式还可能存在差异。上述政府采购信息更多的依赖于人工采集和整理后进行结构化恢复。但是，一方面，由于发布的公文由人工维护编写，经常会出现疏漏错误，公文格式没有统一的规范，公文有可能受限于发布网站的技术限制通常会直接用图片展现文件；另外一方面，由于发布的渠道多而杂。上述这两方面导致采集或者收集政府采购信息的过程繁琐，成本较高。
技术实现思路
本申请所要解决的技术问题是提供一种信息采集方法及装置，用于克服现有技术中的上述技术问题。为了解决上述技术问题，本申请提供了一种信息采集方法，其包括:获取信息源网站，对所述信息源网站进行分析，根据对所述信息源网站的分析结果定制对应的信息采集规则；根据定制的采集规则以及采集执行参数设置，调度信息采集请求，以从所述信息源网站的地址中抓取非结构化的目标信息并进行...

【技术保护点】
一种信息采集方法，其特征在于，包括：获取信息源网站，对所述信息源网站进行分析，根据对所述信息源网站的分析结果定制对应的信息采集规则；根据定制的采集规则以及采集执行参数设置，调度信息采集请求，以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理。

【技术特征摘要】

【专利技术属性】
技术研发人员：万如意，黄伟聪，顾正嘉，
申请(专利权)人：北京众标网络科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人