一种网络信息获取方法、系统及企业信息搜索系统技术方案

技术编号:17994590 阅读:42 留言:0更新日期:2018-05-19 11:46
本发明专利技术涉及一种网络信息获取方法、系统及企业信息搜索系统,包括获取与指定信息关联的网页信息,根据所选择的检索策略获取关联网页的对象页面,并提取对象页面中的数据信息。本发明专利技术通过爬虫技术和具有针对性的检索策略,完成数据在深网的挖掘,使用户能够在短时间内获取到大量的有效数据,避免到各个独立网站一一查询,为用户提供了一站式的信息服务,提高了采集数据的效率。

Network information acquisition method, system and enterprise information search system

The invention relates to a network information acquisition method, a system and an enterprise information search system, which includes obtaining the web page information associated with the specified information, obtaining the object page of the associated web page according to the selected retrieval strategy and extracting the data information in the object page. Through the crawler technology and the targeted retrieval strategy, the invention has completed the data mining in the deep network. The user can obtain a large amount of effective data in a short time, avoid the individual websites to query one by one, provide the user with one station information service, and improve the efficiency of collecting data.

【技术实现步骤摘要】
一种网络信息获取方法、系统及企业信息搜索系统
本专利技术涉及一种网络信息获取的方法和系统,特别是一种基于爬虫系统的网页信息获取方法和系统。。
技术介绍
在当前的大数据时代,网络上的海量资源让使用者应接不暇,大量分布的、易购的信息应运而生。例如,如果需要获取企业的相关信息,可以直接通过包括国家企业信用信息公示系统、中国法院裁判文书网、中国执行信息公开网、国家知识产权局官方网站、国家工商总局商标局官方网站、国家版权局官方网站以及招聘网等相关官方网站查找。然而,上述各类网站所涉及的企业信息各不相同,例如,国家企业信用信息公示系统包括营业执照信息、主要人员等信息,裁判文书网主要针对判决信息,政府网站通常包含有企业信用数据和中标数据,而招聘网则更多地涉及职位、工资等信息。可见,不同的信息来源于不同的网络平台,而平台上的数据通常是独立且不共享的,如果想有针对性地获取一个或多个企业的相关信息,则需要通过不同的平台进行查询,对用户来说较为繁琐。另一方面,企业的工商信息、招聘信息、涉及的裁判文书、以及知识产权信息等具有深层网络的性质,其中,深网的概念是相对于表层网定义的,指的是那些不能被普通搜索营运所本文档来自技高网...
一种网络信息获取方法、系统及企业信息搜索系统

【技术保护点】
一种数据信息获取方法,用于获取与指定信息相关联的数据信息,其特征在于,所述方法包括:根据所述指定的信息获取对应的网页信息;根据所述网页的布局方式确定检索策略;根据所述检索策略获取对象页面;提取所述页面中的所述数据信息。

【技术特征摘要】
1.一种数据信息获取方法,用于获取与指定信息相关联的数据信息,其特征在于,所述方法包括:根据所述指定的信息获取对应的网页信息;根据所述网页的布局方式确定检索策略;根据所述检索策略获取对象页面;提取所述页面中的所述数据信息。2.如权利要求1所述的数据信息获取方法,其特征在于,所述根据所述指定的信息获取对应的网页信息包括:基于HTTP协议获取所述对应的网页,并接收返回的所述网页信息。3.如权利要求1-2中任一项所述的数据信息获取方法,其特征在于,所述检索策略包括深度优先检索、广度优先检索和/或二者的结合。4.如权利要求1-3中任一项所述的数据信息获取方法,其特征在于,根据所述网页的布局方式确定检索策略包括:所述网页布局包括第一层检索入口以及第二层信息列表。5.如权利要求1所述的数据信息获取方法,其特征在于,所述根据检索策略获取对象页面包括:通过多线程网络爬虫获取一个或多个所述对象页面的URL并下载所述对象页面。6.如权利要求5所述的数据信息获取方法,其特征在于,所述多线程网络爬虫为聚焦网络爬虫(FocusedCrawler)。7.根据权利要求5所述的数据信息获取方法,其特征在于,所述获取一个或多个所述对象页面的URL还包括对所述网页的URL进行去重操作,所述去重操作为基于数据库去重、基于内存去重和/或基于布隆过滤器的去重。8.如权利要求1所述的数据信息获取方法,其特征在于,所述提取所述页面中的所述数据信息包括:获取URL队列中的URL地址,对URL地址进行DNS域名解析,建立与所述URL对应的服务器的Socket连接,并发送请求获取所述页面的HTML数据文件,其中,HTML数据文件包含有所述数据信息。9.如权利要求8所述的数据信息获取方法,其特征在于,在获取所述HTML数据文件之后还包括对HTML文件进行编码转换和去噪的预处理。10.如权利要求9所述的数据信息获取方法,其特征在于,所述编码转换和去噪的预处理之后,还包括:结构化所述HTML文件。11.如权利要求10所述的数据信息获取方法,其特征在于,所述结构化所述HTML文件包括对其内容进行解析并生成DOM(DocumentObjectModel)树,去除无关的节点,遍历获取的内容节点,对所需的内容定制模板。12.如权利要求11所述的数据信息获取方法,其特征在于,所述对所需的内容定制模板包括对需要获取的内容,通过模式匹配和替换进行信息抽取,获取结构化信息数据。13.如权利要求10所述的数据信息获取方法,其特征在于,所述方法还包括:针对所述指定的信息所涉及的领域,选择提取所述HTML文件中所包含的所述数据信息的策略。14.根据权利要求13所述的数据信息获取方法,其特征在于,所述提取所述HTML文件中所包含的所述数据信息的策略包括基于包装器的数据提取方法、基于机器学习的数据提取方法、基于HTML构造树的数据提取方法、基于Web查询的数据提取方法或者以上方法的任意组合。15.根据权利要求1所述的数据信息获取方法,其特征在于,所述方法还包括获取所述网页的更新信息,所述获取所述网页的更新信息的步骤包括定期回访抓取过的网页、检测网页有无变化、去除坏死链接和/或更新数据库。16.如权利要求1-15所述的数据信息获取方法,其特征在于,所述指定信息为企业名称,所述数据信息为与所述企业相关的数据信息。17.一种信息获取系统,用于获取与(用户)指定的信息相关联的数据信息,其特征在于,所述系统包括:检索装置、选择装置、获取装置以及处理装置;其中,所述检索装置还包括信息单元,用于根据所述信息单元的指定信息获取对应的网页信息;所述选择装置用于根据所述检索装置获取的所述网页信息中所包含的网页布局方式,选择检索策略;所述获取装置用于获取所述检索单元所获取的对应的网页的对象页面;以及,所述处理装置用于提取所述页面中的所述数据信息。18.根据权利要求17所述的信息获取系统,其特征在于,所述检索装置用于基于HTTP协议获取所述对...

【专利技术属性】
技术研发人员:彭帅
申请(专利权)人:成都律云科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1