一种招标信息的采集方法技术

技术编号:18711383 阅读:17 留言:0更新日期:2018-08-21 22:45
本发明专利技术提供了一种招标信息的采集方法,包括步骤:S100)采集招标信息:以各招标网为信息源,获取招标信息公告的网页数据,然后将此网页数据交由网络爬虫进行信息采集;S200)提取招标信息:将网络爬虫采集的网页数据中的广告、友情链接过滤掉,然后抽取网页数据中的有效信息,每个信息定义一个指标,所有的指标组成指标列表;S300)存储招标信息:有效信息使用数据库中的表存储,所提取的每一个指标使用结构化数据库中一列存储,将网页数据、招投标信息媒体来源、所属区域、所述行业、网页发布时间、网页采集时间也分别作为指标,存储于数据库一列。

A method of collecting tender information

The invention provides a method for collecting bidding information, which comprises the following steps: S100) collecting bidding information: taking each bidding network as the information source, obtaining the web page data of bidding information announcement, then transferring the web page data to the web crawler for information collection; S200) extracting bidding information: collecting the web page data collected by the web crawler Advertising and friendship links are filtered out, and then effective information is extracted from the web data. Each information defines an index, and all the indexes constitute a list of indicators; S300) Stores the bidding information: the effective information is stored in the table in the database, and each index extracted is stored in a column in the structured database, and the number of web pages is saved. The data, the source of bidding information media, the region, the industry, the publishing time of web pages and the collection time of web pages are also taken as indicators and stored in the database column.

【技术实现步骤摘要】
一种招标信息的采集方法
本专利技术涉及招投标领域,特别涉及一种招标信息的采集方法。
技术介绍
招标与投标是一种国际上普遍应用的、有组织的市场交易行为,是工程、货物或服务贸易的买卖方式。通常是采购人事先提出条件和要求,邀请众多的交易对象参与竞争并按照规定的程序从中选择成交者。招投标活动对打破行业垄断和地区封锁、提高经济效益、保证项目质量、预防和减少腐败等发挥了重要作用,已经成为推进现代市场体系建设的重要手段。信息化的发展带来了招投标领域的新局面,原来投标人主要通过期刊杂志获取项目招投标信息的方式转变成了通过互联网网站来获取适合自己投标的信息。投标人的一种做法是登录各地的各个招投标网站来获取信息,然后通过人工的方式一个个检索并排查需要的信息。另外一种更加高效的做法是登录一些大型的招投标信息网站,通过全文检索的方式去搜索需要的招投标信息。然而,这种方式耗时耗力,同时招投标网站的自带搜索也不能保证质量,这就造成了错误或者遗漏了重要信息。而通过登录大型的招投标信息网站,通过全文检索的方式去搜索需要的招投标信息,也由于采用了模糊匹配算法,匹配的质量不高,造成的搜索出的无效数据大于有效数据,更可怕的是遗漏了更多的有价值信息。
技术实现思路
为了解决上述问题,本专利技术提供了一种招标信息的采集方法,包括步骤:S100)采集招标信息:以各招标网为信息源,获取招标信息公告的网页数据,然后将此网页数据交由网络爬虫进行信息采集;S200)提取招标信息:将网络爬虫采集的网页数据中的广告、友情链接过滤掉,然后抽取网页数据中的有效信息,每个信息定义一个指标,所有的指标组成指标列表;S300)存储招标信息:有效信息使用数据库中的表存储,所提取的每一个指标使用结构化数据库中一列存储,将网页数据、招投标信息媒体来源、所属区域、所述行业、网页发布时间、网页采集时间也分别作为指标,存储于数据库一列。优选的,所述步骤S100采集招标信息还包括网页数据的筛选:招标信息是不定时发布的,网络爬虫的采集频率会高于招标信息更新的最大频率,在采集过程中会出现采集到重复信息的情形;网络爬虫对所要采集的网页数据的地址进行判断,同地址的信息只需采集一次。优选的,所述网络爬虫的信息采集频率为一天一次。优选的,所述有效信息包括:项目名称、项目编号、招标时间、投标时间、投标地点、开标时间、开标地点、预算金额、采购单位、采购单位联系人、采购单位联系方式、采购单位地址、代理机构、代理机构联系人、代理机构联系方式、代理机构地址、采购内容、附件文档。优选的,所述数据库可以是Access、sqlserver、mysql以及oracle中的任意一种。本专利技术的有益效果为:本专利技术提供了一种招标信息的采集方法,选择各类招标网站为信息源,使用网络爬虫对网页信息进行采集,并提取有效信息进行存储,提高了招标信息的采集质量和效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。图1所示为本专利技术提供的一种招标信息的采集方法的流程图;图2所示为本专利技术提供的一种招标信息的采集方法的步骤S100的具体流程图;图3所示为本专利技术提供的一种招标信息的采集方法的步骤S200的具体流程图。具体实施方式以下将结合实施例和附图对本专利技术的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本专利技术的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。附图中各处使用的相同的附图标记指示相同或相似的部分。图1所示为本专利技术提供的一种招标信息的采集方法的流程图。根据本专利技术的一个实施例,一种招标信息的采集方法,包括步骤:S100)采集招标信息:以各招标网为信息源,获取招标信息公告的网页数据,然后将此网页数据交由网络爬虫进行信息采集;S200)提取招标信息:将网络爬虫采集的网页数据中的广告、友情链接过滤掉,然后抽取网页数据中的有效信息,每个信息定义一个指标,所有的指标组成指标列表;S300)存储招标信息:有效信息使用数据库中的表存储,所提取的每一个指标使用结构化数据库中一列存储,将网页数据、招投标信息媒体来源、所属区域、所述行业、网页发布时间、网页采集时间也分别作为指标,存储于数据库一列。图2所示为本专利技术提供的一种招标信息的采集方法的步骤S100的具体流程图,根据本专利技术的一个实施例,下面进一步说明采集招标信息的步骤:S110)以各招标网为信息源,获取招标信息公告的网页数据;S120)判断网页数据的地址是否已经进行过爬取,如果已经爬出则获取下一个网页数据,如果未爬取则进行下一步S130。S130)将此网页数据交由网络爬虫进行信息采集。图3所示为本专利技术提供的一种招标信息的采集方法的步骤S200的具体流程图,根据本专利技术的一个实施例,进一步说明提取招标信息的步骤:S210)提取有效信息,将网络爬虫采集的网页数据中的广告、友情链接过滤掉,然后抽取网页数据中的有效信息。S220)将有效信息结构化,项目名称、项目编号、招标时间、投标时间、投标地点、开标时间、开标地点、预算金额、采购单位、采购单位联系人、采购单位联系方式、采购单位地址、代理机构、代理机构联系人、代理机构联系方式、代理机构地址、采购内容、附件文档,每个信息定义一个指标,所有的指标组成指标列表。根据本专利技术的一个实施例,招投标的信息是不定时发布的,网络爬虫的采集频率会高于招投标信息更新的最大频率,在采集过程中会出现采集到重复信息的情形,我们将这个采集频率设置为一天一次。根据本专利技术的一个实施例,所述数据库可以是Access、sqlserver、mysql以及oracle中的任意一种,本方法充分考虑到兼容性的问题,适应目前所有的常用数据库。以上所述仅为本专利技术的较佳实施例而已,并非用于限定本专利技术的保护范围。凡在本专利技术的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本专利技术的保护范围内。需要说明的是:在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本专利技术也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本专利技术的内容,并且上面对特定语言所做的描述是为了披露本专利技术的最佳实施方式。在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本专利技术的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本公开并帮助理解各个专利技术方面中的一个或多个,在上面对本专利技术的示例性实施例的描述中,本专利技术的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本专利技术要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,专利技术方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由本文档来自技高网...

【技术保护点】
1.一种招标信息的采集方法,其特征在于,包括步骤:S100)采集招标信息:以各招标网为信息源,获取招标信息公告的网页数据,然后将此网页数据交由网络爬虫进行信息采集;S200)提取招标信息:将网络爬虫采集的网页数据中的广告、友情链接过滤掉,然后抽取网页数据中的有效信息,每个信息定义一个指标,所有的指标组成指标列表;S300)存储招标信息:有效信息使用数据库中的表存储,所提取的每一个指标使用结构化数据库中一列存储,将网页数据、招投标信息媒体来源、所属区域、所述行业、网页发布时间、网页采集时间也分别作为指标,存储于数据库一列。

【技术特征摘要】
1.一种招标信息的采集方法,其特征在于,包括步骤:S100)采集招标信息:以各招标网为信息源,获取招标信息公告的网页数据,然后将此网页数据交由网络爬虫进行信息采集;S200)提取招标信息:将网络爬虫采集的网页数据中的广告、友情链接过滤掉,然后抽取网页数据中的有效信息,每个信息定义一个指标,所有的指标组成指标列表;S300)存储招标信息:有效信息使用数据库中的表存储,所提取的每一个指标使用结构化数据库中一列存储,将网页数据、招投标信息媒体来源、所属区域、所述行业、网页发布时间、网页采集时间也分别作为指标,存储于数据库一列。2.根据权利要求1所述的一种招标信息的采集方法,其特征在于,所述步骤S100采集招标信息还包括网页数据的筛选:招标信息是不定时发布的,网络爬虫的采集频率会...

【专利技术属性】
技术研发人员:陈晨欧凌冰龚澄源郑红辉刘蕊儿
申请(专利权)人:湖南慧集网络科技有限责任公司
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1