The invention discloses a large data acquisition method and system for building construction enterprises, which is used to provide large data acquisition mechanism suitable for construction industry, and realizes web resource collection for construction enterprises. The embodiment of the invention can capture the relevant information of the construction enterprise, every construction enterprises can grasp the following 6 data items, respectively: company profile, bid information, business information, credit information, quality grading, construction division information, and each item of data using the crawler independent, so each a data item can achieve parallel crawling, the construction enterprise's URL address and the name of the enterprise can grasp each data item URL address, so in the embodiment of the invention uses a breadth first search strategy, according to the construction enterprise in the industry of \resources crawling, enhance the crawling architecture\ the speed of construction enterprises.
【技术实现步骤摘要】
一种面向建筑施工企业的大数据采集方法和系统
本专利技术涉及建筑施工行业的数据获取
,具体涉及一种面向建筑施工企业的大数据采集方法和系统。
技术介绍
随着网络(web)的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(SearchEngine),例如传统的通过搜索引擎Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问web的入口和指南。但是,这些通用的搜素引擎也存在着一定的局限性,无法抓取定向的网页资源。为了解决上述问题,网络爬虫应运而生,网络爬虫可以定向抓取相关网页资源。它是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,从而可以获取用户所需要的信息。现有技术中,网络爬虫大多是通过爬取web网页来获取信息,而且大多采用深度优先的搜索策略,即在一个超文本标记语言(HyperTextMarkupLanguage,HTML)文件中,选择其中一个超链接标签进行深度搜索,直至遍历这条超链接到最底层时,由逻辑运算判断本层搜索结束,随后退出本层循环,返回上层循环并开始 ...
【技术保护点】
一种面向建筑施工企业的大数据采集方法,其特征在于,包括:步骤一、按照建筑施工企业所在的层级区域位置关系依次获取多个建筑施工企业各自的统一资源定位符URL地址以及对应的企业名称;步骤二、将所述多个建筑施工企业各自的URL地址保存到URL文本文件中,将所述多个建筑施工企业各自的企业名称保存到名称文本文件中;步骤三、从所述URL文本文件中读取到第一建筑施工企业的URL地址,以及从所述名称文本文件中读取到所述第一建筑施工企业的企业名称,其中,所述第一建筑施工企业为所述多个建筑施工企业中的任意一个建筑施工企业;在所述步骤三执行完成后,分别执行步骤四和步骤九;步骤四、根据所述第一建筑施 ...
【技术特征摘要】
1.一种面向建筑施工企业的大数据采集方法,其特征在于,包括:步骤一、按照建筑施工企业所在的层级区域位置关系依次获取多个建筑施工企业各自的统一资源定位符URL地址以及对应的企业名称;步骤二、将所述多个建筑施工企业各自的URL地址保存到URL文本文件中,将所述多个建筑施工企业各自的企业名称保存到名称文本文件中;步骤三、从所述URL文本文件中读取到第一建筑施工企业的URL地址,以及从所述名称文本文件中读取到所述第一建筑施工企业的企业名称,其中,所述第一建筑施工企业为所述多个建筑施工企业中的任意一个建筑施工企业;在所述步骤三执行完成后,分别执行步骤四和步骤九;步骤四、根据所述第一建筑施工企业的URL地址分别获取到所述第一建筑施工企业的公司简介数据项的子URL地址、荣誉信息数据项的子URL地址、中标信息数据项的子URL地址、经营信息数据项的子URL地址;在所述步骤四执行完成后,分别执行如下步骤五、步骤六、步骤七、步骤八;步骤五、使用第一爬虫程序根据所述公司简介数据项的子URL地址获取到所述公司简介数据项对应的内容网页,并解析所述公司简介数据项对应的内容网页得到所述第一建筑施工企业的公司简介信息,将所述公司简介信息存储到建筑施工企业信息数据库中;以及,步骤六、使用第二爬虫程序根据所述荣誉信息数据项的子URL地址获取到所述荣誉信息数据项对应的内容网页,并解析所述荣誉信息数据项对应的内容网页得到所述第一建筑施工企业的荣誉信息,将所述荣誉信息存储到所述建筑施工企业信息数据库中;以及,步骤七、使用第三爬虫程序根据所述中标信息数据项的子URL地址获取到所述中标信息数据项对应的内容网页,并解析所述中标信息数据项对应的内容网页得到所述第一建筑施工企业的中标信息,将所述中标信息存储到所述建筑施工企业信息数据库中;以及,步骤八、使用第四爬虫程序根据所述经营信息数据项的子URL地址获取到所述经营信息数据项对应的内容网页,并解析所述经营信息数据项对应的内容网页得到所述第一建筑施工企业的经营信息,将所述经营信息存储到所述建筑施工企业信息数据库中;步骤九、根据所述第一建筑施工企业的企业名称从建筑市场监管与诚信发布平台上获取到所述第一建筑施工企业的资质等级数据项的子URL地址和建造师信息数据项的子URL地址;在所述步骤九执行完成后,分别执行如下步骤十、步骤十一;步骤十、使用第五爬虫程序根据所述资质等级数据项的子URL地址获取到所述资质等级数据项对应的内容网页,并解析所述资质等级数据项对应的内容网页得到所述第一建筑施工企业的资质等级信息,将所述资质等级信息存储到所述建筑施工企业信息数据库中;以及,步骤十一、使用第六爬虫程序根据所述建造师信息数据项的子URL地址获取到所述建造师信息数据项对应的内容网页,并解析所述建造师信息数据项对应的内容网页得到所述第一建筑施工企业的建造师信息,将所述建造师信息存储到所述建筑施工企业信息数据库中。2.根据权利要求1所述的一种面向建筑施工企业的大数据采集方法,其特征在于,所述步骤四,具体包括如下步骤:根据所述第一建筑施工企业的URL地址获取到所述第一建筑施工企业的首页超文本标记语言HTML网页;解析首页HTML网页,对所述首页HTML网页的所有超链接进行搜索,完成一级页面的遍历后再开始进行二级页面的搜索,按此循环方式直到底层页面搜索完成为止,搜索完成后输出所述第一建筑施工企业的公司简介数据项的子URL地址、荣誉信息数据项的子URL地址、中标信息数据项的子URL地址、经营信息数据项的子URL地址。3.根据权利要求2所述的一种面向建筑施工企业的大数据采集方法,其特征在于,所述根据所述第一建筑施工企业的URL地址获取到所述第一建筑施工企业的首页超文本标记语言HTML网页,包括如下步骤:当所述第一建筑施工企业的URL地址具体为登录页面URL地址时,通过建筑施工企业查询客户端输入用户名和密码;当登录成功之后,判断所述第一建筑施工企业的首页HTML网页上是否出现验证码;若所述首页HTML网页上没有出现验证码,触发执行解析首页HTML网页的步骤;或者,若所述首页HTML网页上出现验证码,则识别所述首页HTML网页上的验证码图片,得到所述验证码图片上的图片信息;将所述图片信息提交给服务器进行验证;当验证码识别通过后,触发执行解析首页HTML网页的步骤;当验证码识别没有通过时,重新识别所述首页HTML网页上的验证码图片。4.根据权利要求1所述的一种面向建筑施工企业的大数据采集方法,其特征在于,所述步骤五,具体包括如下步骤:使用所述第一爬虫程序,循环获取所述公司简介数据项的子URL地址下的每一项公司简介数据内容的URL地址,并解析所述每一项公司简介数据内容的URL地址对应的HTML网页得到所述第一建筑施工企业的公司简介信息,将所述公司简介信息存储到建筑施工企业信息数据库中。5.根据权利要求1所述的一种面向建筑施工企业的大数据采集方法,其特征在于,所述步骤十,具体包括如下步骤:判断所述第一建筑施工企业在所述建筑市场监管与诚信发布平台上是否存在所述第一建筑施工企业的企业名称对应的资质等级数据项;若所述建筑市场监管与诚信发布平台上不存在所述第一建筑施工企业的资质等级数据项,则继续从所述名称文本文件中...
【专利技术属性】
技术研发人员:张子柯,王朝,毛江群,
申请(专利权)人:杭州数立方征信有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。