基于爬虫技术的信息系统监理价格库生成方法技术方案

技术编号:21547975 阅读:33 留言:0更新日期:2019-07-06 21:29
本发明专利技术公开了一种基于爬虫技术的信息系统监理价格库生成方法,包括:收集发布中标结果公告的网站信息;抓取中标结果公告;将网页资料按规则创建目录分类存放在下载资料库中;提取中标结果公告和报价明细表;提取项目信息并将其存入价格库;将招标文件和报价明细表自动上传到文档管理系统;提取资源报价信息并存入到价格库中形成价格记录,每条价格记录关联对应的项目信息和项目文件的URL;进行索引操作,创建索引,获取关键词,对检索的结果进行过滤;进行资源报价检索;对价格检索结果进行过滤;自动删除价格库中过时的项目信息和价格信息,以及项目资料库中的对应文档。本发明专利技术能找到类似项目的实际数据、能保证数据的时效性、检索效率较高。

Price Base Generation Method of Information System Supervision Based on Crawler Technology

【技术实现步骤摘要】
基于爬虫技术的信息系统监理价格库生成方法
本专利技术涉及信息系统工程监理服务领域,特别涉及一种基于爬虫技术的信息系统监理价格库生成方法。
技术介绍
信息工程项目的投资控制要求在批准的预算条件下确保项目保质按期完成。即指在项目投资的形成过程中,对项目所消耗的人力资源、物质资源和费用开支进行指导、监督、调节和限制,及时纠正即将发生和已经发生的偏差,把各项项目费用控制在计划投资的范围之内,保证投资目标的实现。信息工程项目投资控制的目的在于降低项目成本,提高经济效益。信息系统工程项目投资控制由一些过程组成,其中一个最重要的过程是成本估算,计算完成项目中的所需各资源(人、材料、设备等)成本的近似值。成本估算的方法通常使用类比估计法。该方法使用先前类似项目的实际数据作为估计现在项目的基础。在信息系统工程监理服务的过程中,成本估算通常利用各单位积累的项目资料和政府相关的政策文件为基础,检索资料来对项目中的资源的成本进行估算。现有技术存在如下缺点:(1)无法找到类似项目的实际数据。由于单位项目积累不足,找不到类似的项目进行估算参考。(2)数据的时效性无法保证。特别是在材料、设备等成本的估算时,如果将若干年前的项目数据作参考,那么成本估算的结果将存在较大的偏差。(3)检索效率低下。历史项目文档或资料未进行预处理,对文档进行分类、标签化,难以检索出需要的数据。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的上述缺陷,提供一种能找到类似项目的实际数据、能保证数据的时效性、检索效率较高的基于爬虫技术的信息系统监理价格库生成方法。本专利技术解决其技术问题所采用的技术方案是:构造一种基于爬虫技术的信息系统监理价格库生成方法,包括如下步骤:A)收集发布中标结果公告的网站信息;B)通过网络爬虫工具抓取中标结果公告;C)将抓取的网页资料按一定的规则创建目录,分类存放在下载资料库中;所述目录按照如下层次进行存储:域名、日期、公告标题、公告、招标文件和报价明细;D)采用分析处理程序分析所述下载资料库中的中标结果公告,按照域名和日期提取新采集到的中标结果公告和报价明细表;E)所述分析处理程序对中标结果公告文件和招标文件进行解析,从中提取项目信息并将其存入价格库;F)所述分析处理程序将所述招标文件和报价明细表自动上传到文档管理系统,将所述项目信息作为文件标签和属性,附加到上传的所述招标文件和报价明细表中,并获取所述招标文件和报价明细表在所述文档管理系统中的URL;G)所述分析处理程序对所述报价明细表进行解析,提取资源报价信息并将其存入到价格库中形成价格记录,同时每条价格记录关联上对应的项目信息和项目文件的URL;所述项目文件包括招标文件和报价明细表;H)所述文档管理系统自动对所述招标文件和报价明细表进行索引操作,创建索引,获取关键词,根据文件标签和属性对检索的结果进行过滤;I)采用价格检索程序进行资源报价检索;J)对价格检索结果进行过滤;K)当价格资料超过设定的时效时,自动删除价格库中过时的项目信息和价格信息,以及项目资料库中的对应文档。在本专利技术所述的基于爬虫技术的信息系统监理价格库生成方法中,所述网站信息至少包括域名、发布首页、中标公告关键字、公告链接深度、排序方式、公告格式和报价明细表上下文关键字。在本专利技术所述的基于爬虫技术的信息系统监理价格库生成方法中,所述步骤B)进一步包括:B1)建立待抓取URL列表和抓取深度;B2)从所述待抓取URL列表中提取URL放入待抓取URL队列,将完成抓取的URL从所述待抓取URL队列中删除;B3)判断所述待抓取URL队列是否为空,如是,执行步骤B10);否则,执行步骤B4);B4)判断当前日期是否大于已抓取日期,如是,执行步骤B5);否则,执行步骤B10);B5)从所述待抓取URL队列中取出URL开始抓取页面信息,执行步骤B6);B6)通过规则判断页面是否是中标结果公告,通过关键字提取中标公告日期,执行步骤B7);B7)判断所述中标公告日期是否大于已抓取日期,如是,执行步骤B8);否则,执行步骤B10);B8)从所述页面信息中根据报价明细关键字提取报价明细表,执行步骤B9);B9)创建目录存储中标结果公告和报价明细表;B10)更新已抓取日期,执行步骤B11);B11)结束。在本专利技术所述的基于爬虫技术的信息系统监理价格库生成方法中,所述项目信息至少包括项目编号、项目名称、采购方、项目类别、项目领域、项目规模、项目时间和项目地区。在本专利技术所述的基于爬虫技术的信息系统监理价格库生成方法中,所述资源报价信息至少包括报价资源名称、型号规格、数量、单价、总价和关键性描述信息。在本专利技术所述的基于爬虫技术的信息系统监理价格库生成方法中,所述价格检索结果根据项目类别、项目领域、项目规模、项目时间和项目地区进行过滤。实施本专利技术的基于爬虫技术的信息系统监理价格库生成方法,具有以下有益效果:由于本专利技术基于网络爬虫技术,通过自动收集信息系统工程项目的中标报价信息,形成一个动态更新的用于信息系统监理投资估算的价格库。在信息系统项目建设的决策阶段(投资估算)和实施阶段(制定预算、标底),在有限的时间条件下,可节省大量用于查询资源价格的时间,获取更加精确的资源价格,从而提高监理服务的效率和质量。本专利技术通过对大量信息系统工程项目的中标报价数据进行筛选、清洗、格式转换,建立信息系统资源价格库。对中标项目的项目信息和招标文件进行整理、分类、标签化建立项目资料库。监理人员能从价格库和资料库中检索有效的项目资料作为参考,指导信息系统建设方进行有效项目决策,审核信息系统承建方的设计和实施,有效的提高信息系统监理的水平;因此本专利技术能找到类似项目的实际数据、能保证数据的时效性、检索效率较高。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术基于爬虫技术的信息系统监理价格库生成方法一个实施例中的流程图;图2为所述实施例中基于爬虫技术的信息系统监理价格库生成方法的流程框图;图3为所述实施例中通过网络爬虫工具抓取中标结果公告的具体流程图;图4为所述实施例中通过网络爬虫工具抓取中标结果公告的流程框图;图5为所述实施例中中标结果公告的存储目录层次图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术基于爬虫技术的信息系统监理价格库生成方法实施例中,该基于爬虫技术的信息系统监理价格库生成方法的流程图如图1所示。该基于爬虫技术的信息系统监理价格库生成方法的流程框图如图2所示。如图1所示,该基于爬虫技术的信息系统监理价格库生成方法包括如下步骤:步骤S01收集发布中标结果公告的网站信息:本步骤中,收集发布中标结果公告的网站信息。具体而言,针对本单位监理业务开展的区域,收集中标结果公告发布的站点信息,网站信息(即本文档来自技高网...

【技术保护点】
1.一种基于爬虫技术的信息系统监理价格库生成方法,其特征在于,包括如下步骤:A)收集发布中标结果公告的网站信息;B)通过网络爬虫工具抓取中标结果公告;C)将抓取的网页资料按一定的规则创建目录,分类存放在下载资料库中;所述目录按照如下层次进行存储:域名、日期、公告标题、公告、招标文件和报价明细;D)采用分析处理程序分析所述下载资料库中的中标结果公告,按照域名和日期提取新采集到的中标结果公告和报价明细表;E)所述分析处理程序对中标结果公告文件和招标文件进行解析,从中提取项目信息并将其存入价格库;F)所述分析处理程序将所述招标文件和报价明细表自动上传到文档管理系统,将所述项目信息作为文件标签和属性,附加到上传的所述招标文件和报价明细表中,并获取所述招标文件和报价明细表在所述文档管理系统中的URL;G)所述分析处理程序对所述报价明细表进行解析,提取资源报价信息并将其存入到价格库中形成价格记录,同时每条价格记录关联上对应的项目信息和项目文件的URL;所述项目文件包括招标文件和报价明细表;H)所述文档管理系统自动对所述招标文件和报价明细表进行索引操作,创建索引,获取关键词,根据文件标签和属性对检索的结果进行过滤;I)采用价格检索程序进行资源报价检索;J)对价格检索结果进行过滤;K)当价格资料超过设定的时效时,自动删除价格库中过时的项目信息和价格信息,以及项目资料库中的对应文档。...

【技术特征摘要】
1.一种基于爬虫技术的信息系统监理价格库生成方法,其特征在于,包括如下步骤:A)收集发布中标结果公告的网站信息;B)通过网络爬虫工具抓取中标结果公告;C)将抓取的网页资料按一定的规则创建目录,分类存放在下载资料库中;所述目录按照如下层次进行存储:域名、日期、公告标题、公告、招标文件和报价明细;D)采用分析处理程序分析所述下载资料库中的中标结果公告,按照域名和日期提取新采集到的中标结果公告和报价明细表;E)所述分析处理程序对中标结果公告文件和招标文件进行解析,从中提取项目信息并将其存入价格库;F)所述分析处理程序将所述招标文件和报价明细表自动上传到文档管理系统,将所述项目信息作为文件标签和属性,附加到上传的所述招标文件和报价明细表中,并获取所述招标文件和报价明细表在所述文档管理系统中的URL;G)所述分析处理程序对所述报价明细表进行解析,提取资源报价信息并将其存入到价格库中形成价格记录,同时每条价格记录关联上对应的项目信息和项目文件的URL;所述项目文件包括招标文件和报价明细表;H)所述文档管理系统自动对所述招标文件和报价明细表进行索引操作,创建索引,获取关键词,根据文件标签和属性对检索的结果进行过滤;I)采用价格检索程序进行资源报价检索;J)对价格检索结果进行过滤;K)当价格资料超过设定的时效时,自动删除价格库中过时的项目信息和价格信息,以及项目资料库中的对应文档。2.根据权利要求1所述的基于爬虫技术的信息系统监理价格库生成方法,其特征在于,所述网站信息至少包括域名、发布首页、中标公告关键字、公告链接深度、排序方式、公告格式和报价明...

【专利技术属性】
技术研发人员:邱全兵陈进才胡宇辉刘沛鹏张冉
申请(专利权)人:广东省计算技术应用研究所
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1