一种基于网络爬虫的机器自动分类方法技术

技术编号:18165710 阅读:49 留言:0更新日期:2018-06-09 11:34
本发明专利技术提供一种基于网络爬虫的机器自动分类方法,包括:设置数据处理容器,选取种子网址,判断网址是否已经被采集,利用网络爬虫进行数据采集;将数据采集的结果发送至数据处理容器;数据处理容器按照不同类别分类存入数据库存储器中。本发明专利技术极大的提高了数据质量,降低人力物力的浪费。

A machine automatic classification method based on Web Crawler

The invention provides a machine automatic classification method based on network crawler, including: setting up data processing container, selecting seed URL, judging whether URL has been collected, using network crawler for data collection, sending data collection to data processing container, data processing container classified according to different categories Deposit in the database memory. The invention greatly improves the data quality and reduces the waste of manpower and material resources.

【技术实现步骤摘要】
一种基于网络爬虫的机器自动分类方法
本专利技术涉及基于爬虫原理的机器自动分类方法。
技术介绍
信息化的浪潮席卷全球,同时随着互联网的普及以及网络技术的不断完善,Internet已经成为全球最为庞大最为丰富的信息资源库,由于互联网的开放性,各类信息都能通过各种形式第一时间发布到互联网,正式由于互联网的这种开放性,导致信息的冗余和杂乱,因此,自动分类技术随着数据时代的需求发展迅速,作为一种有效的信息处理方法,自动分类技术奖各类信息按照一定的分类体系进行分类整理,从而极大的提高了用户手机情报的效率,降低了人工分类技术造成的巨大的资源浪费。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于网络爬虫的机器自动分类方法,能够让冗余杂乱的数据整理成有相似内容,井井有条。本专利技术解决技术问题所采用的技术方案是:一种基于网络爬虫的机器自动分类方法,包括以下步骤,(1)设置数据处理容器,(2)选取一部分种子网址,并将这些种子网址放入待抓取的网址队列;(3)判断这些网址队列是否已经被采集,如果是,则直接发送至已采集网址队列,如果否,进入下一步;(4)利用网络爬虫从待抓取的网址队列中进行数据采集;(5)将数据采集的结果发送至数据处理容器,由数据处理容器进行数据分类处理;(6)数据处理容器将分类处理后的数据按照不同类别分类存入数据库存储器中。进一步地,数据处理容器是预先经过了信息分类训练的数据处理模型,信息分类训练是指预先定义出分类的数据,经过人工筛选并添加标识,然后利用这些数据对数据处理模型进行训练学习。进一步地,利用网络爬虫进行数据采集的步骤包括:(4.1)从待抓取的网址队列中取出待抓取网址的URL;(4.2)解析URL的DNS,并得到主机的IP地址;(4.3)下载URL对应的网址,存入已下载网页库中;(4.4)将已抓取URL队列中的URL放入待抓取的URL队列,从而进入下一个循环。本专利技术的有益效果是:本专利技术在实现网络爬虫时,定制了一个URL容器,该容器只管存储数据,使得任务单一,该容器的是一个经过海量数据训练出来的自动分类模型,在该模型将可以将采集回来的网站进行分类处理,并且根据分类存入相应的数据库中,从而将杂乱的数据进行合理的规整。这样的方式不仅降低了杂乱数据入库数量,而且将数据规规矩矩的放到库中,整个过程爬虫只关注采集部分,经采集的数据发送到数据处理容器当中,由数据处理容器自动分类,入库操作。本专利技术极大的提高了数据质量,降低人力物力的浪费。附图说明图1是本专利技术的流程图。具体实施方式以下结合附图对本专利技术的具体实施方案做进一步详细说明,应当指出的是,具体实施方案只是对本专利技术技术方案的具体阐述,并不是对本专利技术的限定。如图1所示,本专利技术的基于网络爬虫的机器自动分类方法,包括以下步骤:(1)设置数据处理容器,数据处理容器是预先经过了信息分类训练的数据处理模型,信息分类训练是指预先定义出分类的数据,分类可以根据信息的内容进行分类,例如关于政治,关于经济,关于体育等一系列,经过人工筛选并添加标识,然后利用这些数据对数据处理模型进行训练学习。(2)选取一部分种子网址,并将这些种子网址放入待抓取的网址队列。(3)判断这些网址队列是否已经被采集,如果是,则直接发送至已采集网址队列,如果否,进入下一步;(4)利用网络爬虫从待抓取的网址队列中进行数据采集;(4.1)从待抓取的网址队列中取出待抓取网址的URL;(4.2)解析URL的DNS,并得到主机的IP地址;(4.3)下载URL对应的网址,存入已下载网页库中;(4.4)将已抓取URL队列中的URL放入待抓取的URL队列,从而进入下一个循环。(5)将数据采集的结果发送至数据处理容器,由数据处理容器进行数据分类处理;(6)数据处理容器将分类处理后的数据按照不同类别分类存入数据库存储器中。本文档来自技高网...
一种基于网络爬虫的机器自动分类方法

【技术保护点】
一种基于网络爬虫的机器自动分类方法,其特征是,包括以下步骤,(1)设置数据处理容器,(2)选取一部分种子网址,并将这些种子网址放入待抓取的网址队列;(3)判断这些网址队列是否已经被采集,如果是,则直接发送至已采集网址队列,如果否,进入下一步;(4)利用网络爬虫从待抓取的网址队列中进行数据采集;(5)将数据采集的结果发送至数据处理容器,由数据处理容器进行数据分类处理;(6)数据处理容器将分类处理后的数据按照不同类别分类存入数据库存储器中。

【技术特征摘要】
1.一种基于网络爬虫的机器自动分类方法,其特征是,包括以下步骤,(1)设置数据处理容器,(2)选取一部分种子网址,并将这些种子网址放入待抓取的网址队列;(3)判断这些网址队列是否已经被采集,如果是,则直接发送至已采集网址队列,如果否,进入下一步;(4)利用网络爬虫从待抓取的网址队列中进行数据采集;(5)将数据采集的结果发送至数据处理容器,由数据处理容器进行数据分类处理;(6)数据处理容器将分类处理后的数据按照不同类别分类存入数据库存储器中。2.根据权利要求1所述的一种基于网络爬虫的机器自动分类方法,其特...

【专利技术属性】
技术研发人员:梁镇爽
申请(专利权)人:中译语通科技青岛有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1