一种自动获取目标数据源的方法及系统技术方案

技术编号：20589018 阅读：47 留言：0更新日期：2019-03-16 07:12

本发明专利技术提供一种自动获取目标数据源的方法，包括如下步骤：对网页数据进行解析；对解析后的数据进行结构化或半结构化形成可分析数据；基于解析后获得的可用于分析的数据进行数据分析以确定是否需要获得该网页数据；利用数据采集器获取数据源网页数据并将获取的网页数据保存在关系型数据库或者文件中。采用该方法，在对网页数据进行爬取之前，首先对网页数据进行可分析化，并对其进行分析，获得用户感兴趣的网页页面数据，而不同于传统的先爬取数据保存，然后进行分析的方法。这么做的优点也是非常明显的，它能够大幅减少后续开发人员的庞大数据分析挖掘工作，提高效率。本发明专利技术进一步涉及一种自动获取目标数据源的系统。

全部详细技术资料下载

【技术实现步骤摘要】
一种自动获取目标数据源的方法及系统
本专利技术涉及数据采集
，具体涉及一种自动获取目标数据源的方法及系统。
技术介绍
随着互联网技术的发展，现在已经进入到大数据时代。随着数据量的指数级增长，各个公司对于大数据研究和应用也越来越广泛，由于绝大多数数据的获取方式都是通过互联网，而互联网上的数据种类繁多，且又有结构化和非结构化的数据，给用户的采集和分析带来很多不便。目前的数据采集方式均是通过网络数据爬虫将目标网站的数据全部爬取下来保存，然后再进行相应的数据清理等处理工作得到感兴趣的数据并保存以备用。这种方法是最简便的，但是带来的问题是数据量巨大占用空间，而且由于不同类型的数据都存储在一起，给后续的处理工作也带来很多不便。
技术实现思路
有鉴于此，本专利技术提供一种自动获取目标数据源的方法，其特征在于，包括如下步骤：对网页数据进行解析；对解析后的数据进行结构化或半结构化形成可分析数据；基于解析后获得的可用于分析的数据进行数据分析以确定是否需要获得该网页数据；利用数据采集器获取数据源网页数据并将获取的网页数据保存在关系型数据库或者文件中。优选地，通过htmlunit进行数据的解析形成字串格式。优选地，可以采用另一种方法进行数据解析，即利用htmlparser将html页面中的标签按树形结构解析成一个一个结点，一种类型的结点对应一个类，通过调用其方法访问标签中的内容。该方法包括：从页面中提取出子链接以及解析网页内容；其中提取页面子链接的步骤为：用被提取的网页的url实例化一个Parser；实例化Filter，设置页面过滤条件；用Parser提取页面中所有通过Filt...

【技术保护点】
1.一种自动获取目标数据源的方法，其特征在于，包括如下步骤：对网页数据进行解析；对解析后的数据进行结构化或半结构化形成可分析数据；基于解析后获得的可用于分析的数据进行数据分析以确定是否需要获得该网页数据；利用数据采集器获取数据源网页数据并存储。

【技术特征摘要】
1.一种自动获取目标数据源的方法，其特征在于，包括如下步骤：对网页数据进行解析；对解析后的数据进行结构化或半结构化形成可分析数据；基于解析后获得的可用于分析的数据进行数据分析以确定是否需要获得该网页数据；利用数据采集器获取数据源网页数据并存储。2.如权利要求1所述的方法，其特征在于，通过htmlunit进行数据的解析形成字串格式。3.如权利要求1所述的方法，其特征在于，利用htmlparser将html页面中的标签按树形结构解析成一个一个结点，一种类型的结点对应一个类，通过调用其方法访问标签中的内容。4.如权利要求3所述的方法，其特征在于，该方法包括：从页面中提取出子链接；解析网页内容；其中提取页面子链接的步骤为：用被提取的网页的url实例化一个Parser；实例化Filter，设置页面过滤条件；用Parser提取页面中所有通过Filter的结点，得到NodeList；遍历NodeList，调用Node的相应方法得到其中的链接，加入子链接的集合；返回子链接集合；其中解析网页内容的步骤为：读取html文件，获得页面...

【专利技术属性】
技术研发人员：鄢亚东，程国艮，
申请(专利权)人：中译语通科技股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人