The invention discloses a method for Internet data collection, the process is as follows: first, take up the URL queue for web crawler need extract data website URL address, will need to extract the data stored in the URL web crawling URL queue; access to data extraction site information from URL web crawler climb URL queue; web crawler to obtain the corresponding page content from the corresponding URL page and extract the needed data; the web crawler extracted from the data written to the database design; data processing module, the data processing module to process the data in the database. The Internet data collection method compared with the existing technology, through filtering, data link row weight and integration of data processing, data processing, eliminating duplicate data, avoid duplication of data capture, mutual integration, high degree, in order to better meet customer needs, strong practicability, wide application scope. Easy to popularize.
【技术实现步骤摘要】
一种对互联网数据进行采集的方法
本专利技术涉及计算机应用
,具体地说是一种实用性强、对互联网数据进行采集的方法。
技术介绍
大数据指通过一般的软件工具无法获取管理和分析的大批量数据。当前时代已进入大数据时代,与互联网的专利技术一样,引发了一场新的信息
的浪潮。通过大数据能够帮助行业分析,为企业带来新的商业价值与机会,同时也为企业的IT系统提出了挑战。而要获取来自互联网的数据,就必须开发一种数据采集服务方法并提供相应的技术支持。互联网网页数据具有分布广、格式多样、非结构化等大数据的特点,因此需要用特定的方式对互联网页面的数据进行采集、加工和存储等工作。互联网网页数据采集就是一个获取互联网网页内容的过程,一般通过网络爬虫抓取,但是现有的抓取过程中经常会出现重复抓取相同URL、抓取后的数据重复、抓取数据之间匹配度不高的情况,基于此,现提供一种对互联网数据进行采集的方法,通过分析从网页中抽取出用户需要的数据内容,并对抽取出来的数据内容通过内容和格式的转换和加工处理,存储用以满足用户的需求。
技术实现思路
本专利技术的技术任务是针对以上不足之处,提供一种实用性强、对互联网数据进行采集的方法。一种对互联网数据进行采集的方法,其实现过程为:首先爬取url队列,为web爬虫提供需要抽取数据的网站url地址,即将需要抽取数据的网站url存入爬取url队列中;web爬虫从爬取url队列中获取需要抽取数据的网站的url信息;web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的数据信息;web爬虫把抽取到的数据写入数据库中;设计数据处理模块,通过该数据处理模 ...
【技术保护点】
一种对互联网数据进行采集的方法,其特征在于,其实现过程为:首先爬取url队列,为web爬虫提供需要抽取数据的网站url地址,即将需要抽取数据的网站url存入爬取url队列中;web爬虫从爬取url队列中获取需要抽取数据的网站的url信息;web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的数据信息;web爬虫把抽取到的数据写入数据库中;设计数据处理模块,通过该数据处理模块对数据库中的数据进行处理。
【技术特征摘要】
1.一种对互联网数据进行采集的方法,其特征在于,其实现过程为:首先爬取url队列,为web爬虫提供需要抽取数据的网站url地址,即将需要抽取数据的网站url存入爬取url队列中;web爬虫从爬取url队列中获取需要抽取数据的网站的url信息;web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的数据信息;web爬虫把抽取到的数据写入数据库中;设计数据处理模块,通过该数据处理模块对数据库中的数据进行处理。2.根据权利要求1所述的一种对互联网数据进行采集的方法,其特征在于,Web爬虫依据用户事前配置好的规则进行数据采集工作,该配置好的规则包括网页下载规则、网页解析规则以及内容抽取规则。3.根据权利要求1所述的一种对互联网数据进行采集的方法,其特征在于,数据处理模块对数据进行处理的过程包括:链接过滤,判断当前链接是否在已经抓取过的链接集合里;数据排重,排重即排除掉重复项,网页排重通过比较两个页面之间的相似度来排除重复项;数据整合,将采集到的数据通过关键字建立对应关系,即关键字之间的匹配。4.根据权利要求3所述的一种对互联网数据进行采集的方法,其特...
【专利技术属性】
技术研发人员:王利鑫,王洪添,
申请(专利权)人:山东浪潮云服务信息科技有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。