一种网页分类方法及装置制造方法及图纸

技术编号:14554032 阅读:80 留言:0更新日期:2017-02-05 03:13
本发明专利技术公开了一种网页分类方法及装置。本发明专利技术的网页分类方法包括:根据网页样本集合建立特征词分类器,所述网页地址样本合集包括:多个样本网页地址和各所述样本网页地址对应的网页类型;获取预定数量的网页地址,通过所述特征词分类器确定每个所述网页地址所属的所述网页类型;对确定出网页类型的所述网页地址进行去冗余处理得到结构字符串,所述结构字符串为网页地址结构;存储所述网页地址结构及其对应的所述网页类型;在对网页进行分类时,获取待分类网页的网页地址,对该网页地址进行去冗余处理得到对应的网页地址结构,利用该网页地址结构从存储中查找出所述待分类网页所属的网页类型;本发明专利技术的方法实现对网页快速高效的分类。

Web page classification method and device

The invention discloses a method and a device for classifying web pages. The method of the invention includes web page classification: according to the \sample sets of feature classifiers, including the web address sample collection: multiple samples of each of the sample web page addresses and address of the corresponding web page address type; get a predetermined number, determine the type of page belongs to each of the page address through the the characteristics of word classifier; determining the type of web page address of the redundant processing structure string, the string structure for the web address of the page type structure; storing the web page address and its corresponding structure; in the classification of the web page address, access the web pages to be classified, the web page address to get the web page address corresponding to the redundant processing structure, using the web page address structure from the store to find out the web page classification The method of the invention realizes the rapid and efficient classification of web pages.

【技术实现步骤摘要】

本专利技术涉及互联网通讯
,尤其涉及一种网页分类方法及装置
技术介绍
网页分类是当下互联网应用中的一个热点问题。对网页进行分类,可以以此来对用户访问网页的记录进行分析,从而得出用户的上网偏好,以便进一步给用户提供基于该偏好的互联网服务。网页分类的结果一般由爬虫系统进行爬取后,保存在数据存储系统中。但由于互联网上的网页数量非常庞大,随着爬取到的网页数目增加,数据的查询和分析会越来越慢。目前已存在许多网页分类的方法,都需要解析网页正文内容进行分类,而且还需要将网页和类别的对应关系进行记录,导致网页分类的效率低下;另外,由于解析网页正文需要大量的分析和计算,对系统性能有影响。
技术实现思路
本专利技术要解决的主要技术问题是,提供一种网页分类方法及装置,能够解决采用目前网页分类方法对进行网页分类的效率低下的问题。为解决上述技术问题,本专利技术提供一种网页分类方法,包括如下步骤:根据网页样本集合建立特征词分类器,所述网页地址样本合集包括:多个样本网页地址和各所述样本网页地址对应的网页类型;获取预定数量的网页地址,通过所述特征词分类器确定每个所述网页地址所属的所述网页类型;对确定出网页类型的所述网页地址进行去冗余处理得到结构字符串,所述结构字符串为网页地址结构;存储所述网页地址结构及其对应的所述网页类型;在对网页进行分类时,获取待分类网页的网页地址,对该网页地址进行去>冗余处理得到对应的网页地址结构,利用该网页地址结构从存储中查找出所述待分类网页所属的网页类型。进一步地,所述根据网页样本集合建立特征词分类器的步骤包括:对所述多个样本网页地址对应的网页内容进行分词处理获取多个特征词;获取每个所述特征词属于各所述网页类型的概率;根据获取结果形成所述特征词分类器。进一步地,所述通过所述特征词分类器确定所述网页地址所属的所述网页类型的步骤包括:从所述网页地址对应的网页内容中提取关键词;根据所述特征词分类器计算所述关键词属于每个所述网页类型的概率;根据计算结果确定所述网页地址所属的所述网页类型。进一步地,所述存储所述网页地址结构及其对应的所述网页类型的步骤包括:统计每种所述网页地址结构属于各个所述网页类型的次数;根据统计结果重新确定每种所述网页地址结构所属的网页类型;存储每种网页地址结构及其对应的网页类型。进一步地,所述根据统计结果重新确定每种所述网页地址结构所属的网页类型的步骤包括:根据所述网页地址属于各个所述网页类型的次数计算出该网页地址属于各个所述网页类型的概率;根据计算出的概率确定该网页地址结构所属的网页类型;或者当所述网页地址结构为子目录网页地址结构时,根据该子目录地址结构属于各个所述网页类型的次数计算出该子目录地址结构属于各个所述网页类型的概率;根据计算出的概率确定该子目录地址结构所属的网页类型;当所述网页地址结构为上层目录网页地址结构并且存在其下的子目录网页地址结构时,根据所述上层目录网页地址下的所述子目录网页地址结构所属的所述网页类型确定所述上层目录网页地址结构所属的所述网页类型。进一步地,所述存储每种网页地址结构及其对应的网页类型的步骤包括:以结构树的形式存储每种网页地址结构及其对应的网页类型。同样为了解决上述的技术问题,本专利技术还提出了一种网页分类装置,包括:特征词分类器建立模块、获取识别模块、网页地址处理模块、存储模块和网页分类模块;所述特征词分类器建立模块用于根据网页样本集合建立特征词分类器,所述网页地址样本合集包括:多个样本网页地址和各所述样本网页地址对应的网页类型。所述获取识别模块用于获取预定数量的网页地址,通过所述特征词分类器确定每个所述网页地址所属的所述网页类型;所述网页地址处理模块用于对所述获取识别模块确定出网页类型的所述网页地址进行去冗余处理得到结构字符串,所述结构字符串为网页地址结构;所述存储模块用于存储所述网页地址结构及其对应的所述网页类型;所述网页分类模块用于在对网页进行分类时,获取待分类网页的网页地址,对该网页地址进行去冗余处理得到对应的网页地址结构,利用该网页地址结构从所述存储模块中查找出所述待分类网页所属的网页类型。进一步地,所述特征词分类器建立模块用于:对所述多个样本网页地址对应的网页内容进行分词处理获取多个特征词;获取每个所述特征词属于各所述网页类型的概率;根据获取结果形成所述特征词分类器。进一步地,所述获取识别模块用于:从所述网页地址对应的网页内容中提取关键词;根据所述特征词分类器计算所述关键词属于每个所述网页类型的概率;根据计算结果确定所述网页地址所属的所述网页类型。进一步地,所述存储模块包括:统计模块、类型确定模块以及执行存储模块;所述统计模块用于统计每种所述网页地址结构属于各个所述网页类型的次数;所述类型确定模块用于根据所述统计模块的统计结果重新确定每种所述网页地址结构所属的网页类型;所述执行存储模块用于存储每种网页地址结构及其对应的网页类型。进一步地,所述类型确定模块用于:根据所述网页地址属于各个所述网页类型的次数计算出该网页地址属于各个所述网页类型的概率;根据计算出的概率确定该网页地址结构所属的网页类型;或者当所述网页地址结构为子目录网页地址结构时,根据该子目录地址结构属于各个所述网页类型的次数计算出该子目录地址结构属于各个所述网页类型的概率;根据计算出的概率确定该子目录地址结构所属的网页类型;当所述网页地址结构为上层目录网页地址结构并且存在其下的子目录网页地址结构时,根据所述上层目录网页地址下的所述子目录网页地址结构所属的所述网页类型确定所述上层目录网页地址结构所属的所述网页类型。进一步地,所述执行存储模块用于以结构树的形式存储每种网页地址结构及其对应的网页类型。本专利技术的有益效果是:本专利技术提供了一种网页分类方法及装置,可以利用网页地址相似性的特性实现对网页快速高效的分类;具体地,本专利技术的网页分类方法,包括如下步骤:根据网页样本集合建立特征词分类器,所述网页地址样本合集包括:多个样本网页地址和各所述样本网页地址对应的网页类型;获取预定数量的网页地址,通过所述特征词分类器确定每个所述网页地址所属的所述网页类型;对确定出网页类型的所述网页地址进行去冗余处理得到结构字符串,所述结构字符串为网页地址结构;存储所述网页地址结构及其对应的所述网页类型;本文档来自技高网...

【技术保护点】
一种网页分类方法,其特征在于,包括如下步骤:根据网页样本集合建立特征词分类器,所述网页地址样本合集包括:多个样本网页地址和各所述样本网页地址对应的网页类型;获取预定数量的网页地址,通过所述特征词分类器确定每个所述网页地址所属的所述网页类型;对确定出网页类型的所述网页地址进行去冗余处理得到结构字符串,所述结构字符串为网页地址结构;存储所述网页地址结构及其对应的所述网页类型;在对网页进行分类时,获取待分类网页的网页地址,对该网页地址进行去冗余处理得到对应的网页地址结构,利用该网页地址结构从存储中查找出所述待分类网页所属的网页类型。

【技术特征摘要】
1.一种网页分类方法,其特征在于,包括如下步骤:
根据网页样本集合建立特征词分类器,所述网页地址样本合集包括:多个
样本网页地址和各所述样本网页地址对应的网页类型;
获取预定数量的网页地址,通过所述特征词分类器确定每个所述网页地址
所属的所述网页类型;
对确定出网页类型的所述网页地址进行去冗余处理得到结构字符串,所述
结构字符串为网页地址结构;
存储所述网页地址结构及其对应的所述网页类型;
在对网页进行分类时,获取待分类网页的网页地址,对该网页地址进行去
冗余处理得到对应的网页地址结构,利用该网页地址结构从存储中查找出所述
待分类网页所属的网页类型。
2.如权利要求1所述的方法,其特征在于,所述根据网页样本集合建
立特征词分类器的步骤包括:
对所述多个样本网页地址对应的网页内容进行分词处理获取多个特征词;
获取每个所述特征词属于各所述网页类型的概率;
根据获取结果形成所述特征词分类器。
3.如权利要求1所述的方法,其特征在于,所述通过所述特征词分类
器确定所述网页地址所属的所述网页类型的步骤包括:
从所述网页地址对应的网页内容中提取关键词;
根据所述特征词分类器计算所述关键词属于每个所述网页类型的概率;
根据计算结果确定所述网页地址所属的所述网页类型。
4.如权利要求1-3任一项所述的方法,其特征在于,所述存储所述网
页地址结构及其对应的所述网页类型的步骤包括:
统计每种所述网页地址结构属于各个所述网页类型的次数;
根据统计结果重新确定每种所述网页地址结构所属的网页类型;
存储每种网页地址结构及其对应的网页类型。
5.如权利要求4所述的方法,其特征在于,所述根据统计结果重新确
定每种所述网页地址结构所属的网页类型的步骤包括:
根据所述网页地址属于各个所述网页类型的次数计算出该网页地址属于各
个所述网页类型的概率;
根据计算出的概率确定该网页地址结构所属的网页类型;
或者
当所述网页地址结构为子目录网页地址结构时,根据该子目录地址结构属
于各个所述网页类型的次数计算出该子目录地址结构属于各个所述网页类型的
概率;根据计算出的概率确定该子目录地址结构所属的网页类型;
当所述网页地址结构为上层目录网页地址结构并且存在其下的子目录网页
地址结构时,根据所述上层目录网页地址下的所述子目录网页地址结构所属的
所述网页类型确定所述上层目录网页地址结构所属的所述网页类型。
6.如权利要求4所述的方法,其特征在于,所述存储每种网页地址结
构及其对应的网页类型的步骤包括:
以结构树的形式存储每种网页地址结构及其对应的网页类型。
7.一种网页分类装置,其特征在于,包括:特征词分类器建立模块、
获取识别模块...

【专利技术属性】
技术研发人员:于波
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1