【技术实现步骤摘要】
一种基于Scalable Web Crawler的数据分析方法
[0001]本专利技术属于计算机数据处理
,具体地说,涉及一种基于Scalable Web Crawler的数据分析方法。
技术介绍
[0002]数据提取和分析是指通过人工或者自动化的手段收集数据,并通过统计学或者数据分析学中的方法对收集的数据进行整合分析。随着社会和科技的发展越来越快,海量的数据充斥着人们的日常生活,因此对这些数据进行脏数据过滤,有效信息的提取越来越被人们的日常生活所需要。
技术实现思路
[0003]本专利技术针对现有技术的上述需求,提出了一种基于Scalable Web Crawler的数据分析方法,结合Scalable Web Crawler工具和分布式数据遍历手段,提取web上的有效数据,并通过数据分析模块进行整合分析,最终形成一份可读性的材料。
[0004]本专利技术具体实现内容如下:本专利技术提出了一种基于Scalable Web Crawler的数据分析方法,用于对输入的WEB页面数据进行分析处理,整理 ...
【技术保护点】
【技术特征摘要】
1.一种基于Scalable Web Crawler的数据分析方法,用于对输入的WEB页面数据进行分析处理,整理得到可读性更好的文本数据文件,其特征在于,具体包括以下步骤:步骤1:输入统一资源定位符URL;步骤2:通过Scalable Web Crawler爬虫技术对输入的WEB页面数据进行文本数据提取;步骤3:将提取的文本数据以数据表的形式存入数据库中;步骤4:将数据表形式的文本数据从数据库中拉取出,并送入到数据分析模块中,以分布式的方式对每张数据表进行遍历;所述数据分析模块采用基于Storm框架的数据分析工具;步骤5:根据遍历结果生成可读性更好的文本数据文件。2.如权利要求1所述的一种基于Scalable Web Crawler的数据分析方法,其特征在于,所述步骤4中的具体遍历操作分为依次进行的三次遍历,其中:在第一次遍历时:使用数据分析模块同时从数据库中拉取多张数据表,并对每一张数据表都进行分布式遍历解析;然后数据遍历后的一次遍历数据过滤表、数据节点和数据归类框架,所述数据归类框架的主体结构由数据节点构成。3.如权利要求2所述的一种基于Scalable Web Crawler的数据分析方法,其特征在于,在第二次遍历时,将第一次遍历后得到的一次遍历数据过滤表作为新的数据源开始第二次数据遍历,而且在第二次遍历的过程中,使用数据分析模块根据数据归类框架的构成,将数据输入到数据归类框架中,得到二次遍历数据过滤表并输出。4.如权利要求3所述的一种基于Scalable Web Crawler的数据分析方法,其特征在于,在第三次遍历时,将二次遍历数据过滤表作为新的数据源进行第三次数据遍历,采用数据分析模块将二次遍历数据过滤表中的数据和数据归类框架中的数据进行对比,对二次遍历数据过滤表中的数据进行校正,形成三次遍历数据过滤表,所述三次遍历数据过滤表为最终的可读性更好的文本数据文件。5.如权利要求1所述的一种基于Scalable Web Crawler的...
【专利技术属性】
技术研发人员:张波,范渊,吴永越,郑学新,刘韬,
申请(专利权)人:成都安恒信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。