判断网页类型的方法和装置制造方法及图纸

技术编号:3896366 阅读:247 留言:0更新日期:2012-04-11 18:40
公开了一种判断网页的网页类型的方法和装置。所述方法包括:基于待判断网页的URL,在预先存储的规则列表中进行规则匹配,其中规则列表包括多条用于确定网页类型的规则记录;如果规则匹配成功,则依据成功匹配的规则得到待判断网页的网页类型;如果规则匹配失败,则从待判断网页的URL和/或HTML源代码中提取预定特征,并基于由从提取的预定特征中选择的特征构成的特征向量,使用分类器对待判断网页进行网页类型分类,以得到待判断网页的网页类型。在根据本发明专利技术的方案中,能够融合规则识别方案与基于统计学习的识别方案的优点,并且能够实现对包括博客、论坛、新闻等在内的各种网页类型进行判断。

【技术实现步骤摘要】

本专利技术总体上涉及一种包含文本分类的自然语言处理技术,尤其是涉及判断网页类型的方法和/或装置。
技术介绍
随着计算机及网络技术的迅猛发展,个人空间的需求、网站创建的简单化等多种 因素推动了网站数量的迅速增加。以中国为例,根据中国互联网信息中心(CNNIC)发布的 “第22次中国互联网络发展状况统计报告”,截止到2008年6月底,中国域名得总数达到 1485万个,年增长率达到61.8%。近年来,网络新闻、博客(Blog)/个人空间、论坛(BBS) 等各种网络媒体的用户数量大大增加。在包含基础应用、网络媒体、数字娱乐、电子商务、网 络社区等在内的所有网络应用中,浏览网络新闻、拥有博客/个人空间和访问论坛的用户 规模分别为20620万、10706万和9822万人,均跻身十大网络应用中,相对2007年12月底 都有明显提高。根据CNNIC的定义,网络社区是指以博客/个人空间、论坛等形式存在的网 上交流空间。网络社区的形式多种多样,搜索引擎网站开通的贴吧和空间,电子商务网站开 通的论坛,即时通信网站背靠巨大的用户规模而开通的个人空间,还有面向各种不同人群 定位的专业论坛、博客/个人空间等,本文档来自技高网...

【技术保护点】
一种用于判断网页的网页类型的方法,包括:基于待判断网页的统一资源定位符(URL),在预先存储的规则列表中执行规则匹配,其中规则列表包括多条用于确定网页类型的规则记录;如果规则匹配成功,则依据成功匹配的规则得到待判断网页的网页类型;以及如果规则匹配失败,则从待判断网页的URL和/或超文本标记语言(HTML)源代码中提取预定特征,并基于由从提取的预定特征中选择的特征构成的特征向量,使用分类器对待判断网页执行网页类型分类,以得到待判断网页的网页类型。

【技术特征摘要】

【专利技术属性】
技术研发人员:何楠王主龙于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1