The invention provides a method for collecting bidding information, which comprises the following steps: S100) collecting bidding information: taking each bidding network as the information source, obtaining the web page data of bidding information announcement, then transferring the web page data to the web crawler for information collection; S200) extracting bidding information: collecting the web page data collected by the web crawler Advertising and friendship links are filtered out, and then effective information is extracted from the web data. Each information defines an index, and all the indexes constitute a list of indicators; S300) Stores the bidding information: the effective information is stored in the table in the database, and each index extracted is stored in a column in the structured database, and the number of web pages is saved. The data, the source of bidding information media, the region, the industry, the publishing time of web pages and the collection time of web pages are also taken as indicators and stored in the database column.
【技术实现步骤摘要】
一种招标信息的采集方法
本专利技术涉及招投标领域,特别涉及一种招标信息的采集方法。
技术介绍
招标与投标是一种国际上普遍应用的、有组织的市场交易行为,是工程、货物或服务贸易的买卖方式。通常是采购人事先提出条件和要求,邀请众多的交易对象参与竞争并按照规定的程序从中选择成交者。招投标活动对打破行业垄断和地区封锁、提高经济效益、保证项目质量、预防和减少腐败等发挥了重要作用,已经成为推进现代市场体系建设的重要手段。信息化的发展带来了招投标领域的新局面,原来投标人主要通过期刊杂志获取项目招投标信息的方式转变成了通过互联网网站来获取适合自己投标的信息。投标人的一种做法是登录各地的各个招投标网站来获取信息,然后通过人工的方式一个个检索并排查需要的信息。另外一种更加高效的做法是登录一些大型的招投标信息网站,通过全文检索的方式去搜索需要的招投标信息。然而,这种方式耗时耗力,同时招投标网站的自带搜索也不能保证质量,这就造成了错误或者遗漏了重要信息。而通过登录大型的招投标信息网站,通过全文检索的方式去搜索需要的招投标信息,也由于采用了模糊匹配算法,匹配的质量不高,造成的搜索出的无效数据大于有效数据,更可怕的是遗漏了更多的有价值信息。
技术实现思路
为了解决上述问题,本专利技术提供了一种招标信息的采集方法,包括步骤:S100)采集招标信息:以各招标网为信息源,获取招标信息公告的网页数据,然后将此网页数据交由网络爬虫进行信息采集;S200)提取招标信息:将网络爬虫采集的网页数据中的广告、友情链接过滤掉,然后抽取网页数据中的有效信息,每个信息定义一个指标,所有的指标组成指标列表;S300 ...
【技术保护点】
1.一种招标信息的采集方法,其特征在于,包括步骤:S100)采集招标信息:以各招标网为信息源,获取招标信息公告的网页数据,然后将此网页数据交由网络爬虫进行信息采集;S200)提取招标信息:将网络爬虫采集的网页数据中的广告、友情链接过滤掉,然后抽取网页数据中的有效信息,每个信息定义一个指标,所有的指标组成指标列表;S300)存储招标信息:有效信息使用数据库中的表存储,所提取的每一个指标使用结构化数据库中一列存储,将网页数据、招投标信息媒体来源、所属区域、所述行业、网页发布时间、网页采集时间也分别作为指标,存储于数据库一列。
【技术特征摘要】
1.一种招标信息的采集方法,其特征在于,包括步骤:S100)采集招标信息:以各招标网为信息源,获取招标信息公告的网页数据,然后将此网页数据交由网络爬虫进行信息采集;S200)提取招标信息:将网络爬虫采集的网页数据中的广告、友情链接过滤掉,然后抽取网页数据中的有效信息,每个信息定义一个指标,所有的指标组成指标列表;S300)存储招标信息:有效信息使用数据库中的表存储,所提取的每一个指标使用结构化数据库中一列存储,将网页数据、招投标信息媒体来源、所属区域、所述行业、网页发布时间、网页采集时间也分别作为指标,存储于数据库一列。2.根据权利要求1所述的一种招标信息的采集方法,其特征在于,所述步骤S100采集招标信息还包括网页数据的筛选:招标信息是不定时发布的,网络爬虫的采集频率会...
【专利技术属性】
技术研发人员:陈晨,欧凌冰,龚澄源,郑红辉,刘蕊儿,
申请(专利权)人:湖南慧集网络科技有限责任公司,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。