【技术实现步骤摘要】
本专利技术总体上涉及一种包含文本分类的自然语言处理技术,尤其是涉及判断网页类型的方法和/或装置。
技术介绍
随着计算机及网络技术的迅猛发展,个人空间的需求、网站创建的简单化等多种 因素推动了网站数量的迅速增加。以中国为例,根据中国互联网信息中心(CNNIC)发布的 “第22次中国互联网络发展状况统计报告”,截止到2008年6月底,中国域名得总数达到 1485万个,年增长率达到61.8%。近年来,网络新闻、博客(Blog)/个人空间、论坛(BBS) 等各种网络媒体的用户数量大大增加。在包含基础应用、网络媒体、数字娱乐、电子商务、网 络社区等在内的所有网络应用中,浏览网络新闻、拥有博客/个人空间和访问论坛的用户 规模分别为20620万、10706万和9822万人,均跻身十大网络应用中,相对2007年12月底 都有明显提高。根据CNNIC的定义,网络社区是指以博客/个人空间、论坛等形式存在的网 上交流空间。网络社区的形式多种多样,搜索引擎网站开通的贴吧和空间,电子商务网站开 通的论坛,即时通信网站背靠巨大的用户规模而开通的个人空间,还有面向各种不同人群 定位的专业论坛 ...
【技术保护点】
一种用于判断网页的网页类型的方法,包括:基于待判断网页的统一资源定位符(URL),在预先存储的规则列表中执行规则匹配,其中规则列表包括多条用于确定网页类型的规则记录;如果规则匹配成功,则依据成功匹配的规则得到待判断网页的网页类型;以及如果规则匹配失败,则从待判断网页的URL和/或超文本标记语言(HTML)源代码中提取预定特征,并基于由从提取的预定特征中选择的特征构成的特征向量,使用分类器对待判断网页执行网页类型分类,以得到待判断网页的网页类型。
【技术特征摘要】
【专利技术属性】
技术研发人员:何楠,王主龙,于浩,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。