【技术实现步骤摘要】
一种基于爬虫的网页自动分类方法
本专利技术属于数据分析领域,涉及一种基于爬虫的网页自动分类方法。
技术介绍
目前随着网络的普及,各领域都发生着重大的变化,特别是在教育、交通、医疗、新闻和政务等行业,都在进行着信息化改造;网络的日益普及以及网民数量的爆炸性增长,使得网络行为出现了复杂性和多样性。为了能够有效地组织和分析海量的Web信息资源,帮助用户迅速地获取其所需要的知识信息,需要对网页实现自动分类。虽然对网站进行有效的分类,对于不同领域信息化程度的分析具有重要意义。然而,对于庞大的网络信息资源,网页分类及其不易。爬虫技术对数据的分析应运而生,网络爬虫是自动抓取互联网中信息的程序。互联网中存在各种各样的网页,每一个网页都有其对应的URL(全称UniformResourceLocator,统一资源定位符)。一般情况下,通过人工的方式从互联网中获取需要的信息,覆盖面小,而且高度消耗人力。网络爬虫可以从一个或者一些URL出发,从URL对应的页面中提取所需要的、有价值的数据,不用人工探寻,可以使互联网中的信息更方便地为 ...
【技术保护点】
1.一种基于爬虫的网页自动分类方法,其特征在于,包括以下步骤:/n步骤一、针对待分类的网页,利用定制爬虫获取各网页的内容信息;/n步骤二、对提取的各网页内容采用BosonNLP分词工具进行关键词操作;/n步骤三、针对某网页,逐个选取各关键词,依次比对是否属于互联网关键词类别库,将各关键词所属于的类别进行并集,得到该网页所属的类别个数M;将不属于任何类别库的关键词单独记录;/nN为该网页所有关键词的个数,分别为(x
【技术特征摘要】
20200807 CN 20201079031181.一种基于爬虫的网页自动分类方法,其特征在于,包括以下步骤:
步骤一、针对待分类的网页,利用定制爬虫获取各网页的内容信息;
步骤二、对提取的各网页内容采用BosonNLP分词工具进行关键词操作;
步骤三、针对某网页,逐个选取各关键词,依次比对是否属于互联网关键词类别库,将各关键词所属于的类别进行并集,得到该网页所属的类别个数M;将不属于任何类别库的关键词单独记录;
N为该网页所有关键词的个数,分别为(x1,x2,...,xt,...,xN),M为该网页各关键词所对应的类别总数(α1,α2,..αi,...αj,...αM);
步骤四、判断总数M值是否大于或等于2,如果是则转步骤五,否则转步骤七;
步骤五、基于贝叶斯多维分类模型,从M个类别中随机选取2个类别,迭代判定该网页属于哪个类别的概率最大;
首先,随机选择两个类别αi和αj,判断是否满足如下方程:
上式中,PN(αi)为类别αi所出现的频率;为关键词xt在类别αi里所出现的频率,H(xt)为关键词权重的衰...
【专利技术属性】
技术研发人员:张良,刘岳,王一宇,窦禹,杨秉杰,
申请(专利权)人:国家计算机网络与信息安全管理中心河南分中心,
类型:发明
国别省市:河南;41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。