The invention provides a machine automatic classification method based on network crawler, including: setting up data processing container, selecting seed URL, judging whether URL has been collected, using network crawler for data collection, sending data collection to data processing container, data processing container classified according to different categories Deposit in the database memory. The invention greatly improves the data quality and reduces the waste of manpower and material resources.
【技术实现步骤摘要】
一种基于网络爬虫的机器自动分类方法
本专利技术涉及基于爬虫原理的机器自动分类方法。
技术介绍
信息化的浪潮席卷全球,同时随着互联网的普及以及网络技术的不断完善,Internet已经成为全球最为庞大最为丰富的信息资源库,由于互联网的开放性,各类信息都能通过各种形式第一时间发布到互联网,正式由于互联网的这种开放性,导致信息的冗余和杂乱,因此,自动分类技术随着数据时代的需求发展迅速,作为一种有效的信息处理方法,自动分类技术奖各类信息按照一定的分类体系进行分类整理,从而极大的提高了用户手机情报的效率,降低了人工分类技术造成的巨大的资源浪费。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于网络爬虫的机器自动分类方法,能够让冗余杂乱的数据整理成有相似内容,井井有条。本专利技术解决技术问题所采用的技术方案是:一种基于网络爬虫的机器自动分类方法,包括以下步骤,(1)设置数据处理容器,(2)选取一部分种子网址,并将这些种子网址放入待抓取的网址队列;(3)判断这些网址队列是否已经被采集,如果是,则直接发送至已采集网址队列,如果否,进入下一步;(4)利用网络爬虫从待抓取的网址队列中进行数据采集;(5)将数据采集的结果发送至数据处理容器,由数据处理容器进行数据分类处理;(6)数据处理容器将分类处理后的数据按照不同类别分类存入数据库存储器中。进一步地,数据处理容器是预先经过了信息分类训练的数据处理模型,信息分类训练是指预先定义出分类的数据,经过人工筛选并添加标识,然后利用这些数据对数据处理模型进行训练学习。进一步地,利用网络爬虫进行数据采集的步骤包括:(4.1)从待抓取的网址 ...
【技术保护点】
一种基于网络爬虫的机器自动分类方法,其特征是,包括以下步骤,(1)设置数据处理容器,(2)选取一部分种子网址,并将这些种子网址放入待抓取的网址队列;(3)判断这些网址队列是否已经被采集,如果是,则直接发送至已采集网址队列,如果否,进入下一步;(4)利用网络爬虫从待抓取的网址队列中进行数据采集;(5)将数据采集的结果发送至数据处理容器,由数据处理容器进行数据分类处理;(6)数据处理容器将分类处理后的数据按照不同类别分类存入数据库存储器中。
【技术特征摘要】
1.一种基于网络爬虫的机器自动分类方法,其特征是,包括以下步骤,(1)设置数据处理容器,(2)选取一部分种子网址,并将这些种子网址放入待抓取的网址队列;(3)判断这些网址队列是否已经被采集,如果是,则直接发送至已采集网址队列,如果否,进入下一步;(4)利用网络爬虫从待抓取的网址队列中进行数据采集;(5)将数据采集的结果发送至数据处理容器,由数据处理容器进行数据分类处理;(6)数据处理容器将分类处理后的数据按照不同类别分类存入数据库存储器中。2.根据权利要求1所述的一种基于网络爬虫的机器自动分类方法,其特...
【专利技术属性】
技术研发人员:梁镇爽,
申请(专利权)人:中译语通科技青岛有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。