一种基于内容的网页分类方法及系统技术方案

技术编号：8078918 阅读：184 留言：0更新日期：2012-12-13 21:43

本发明专利技术公开了一种基于内容的网页分类方法，用户设备获取用户要访问的网页的统一资源定位符URL中的特征关键字，并根据所述URL中的特征关键字查询本地的URL特征库，以获取相应的网页分类信息；用户设备在URL特征库中未查询到相应的网页分类信息，则进一步获取用户要访问的网页的页面内容，并根据所述页面内容查询本地的页面模板库，以获取相应的网页分类信息。本发明专利技术还相应地公开了一种基于内容的网页分类系统。通过本发明专利技术，能够实现基于页面粒度的分类，以及提高分类准确度、提高分类实时性、减少人力成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络安全及监控领域，尤其涉及一种基于内容的网页分类方法及系统。
技术介绍
在网络安全及监控领域中，按照实际策略需求，需要对某些类别的网站进行屏蔽，此外，企业为防止重要信息外泄及回查，需要将用户的访问记录及流量信息记录下来。因此，对客户实际的访问内容进行控制、审计和记录日志，是目前上网行为管理类产品的主要目的。在此背景下，对于网站乃至网页的内容识别的实时性和准确性及相关的实现技术，是该领域目前的技术核心。目前，对于网站分类，多采用线下分类的方式。即事先通过网络爬虫技术得到大量页面，采用自然语言处理的相关方法(例如基于规则的分类器、支持向量机(SVM)等)，对网页内容进行分类后，存储到数据库中。实际使用环境下，根据该数据库得到相应的页面类另IJ，供审计和日志程序使用。但是，上述分类方法具有以下缺陷I)分类的准确性不够高。由于采用基于自然语言处理的相关方法，就目前技术发展水平而言，其分类准确度有限，且这些方法的结论均是基于对较规范文本做出的测试结果。这样的准确度，在上网行为管理类产品的应用场景下，基本不可接受。某一个网页的分类错误，都可能导致客户的投诉。多数网站网页语言并不规范，更增加了利用相关方法进行分类的复杂度。此外，对于分类词库及分类器的构建和维护比较复杂、成本较高；2)分类粒度较粗。现有分类方法基于数据库进行分类，考虑到页面数量巨大及查询效率等方面的考虑，分类结果一般只能够达到网站级，对于某些大型或知名网站能够达到频道级。但是，随着微博、社会性网络服务(Social Networking Services, SNS)的发展，网站级或频道...

【技术保护点】
一种基于内容的网页分类方法，其特征在于，该方法包括：用户设备获取用户要访问的网页的统一资源定位符URL中的特征关键字，并根据所述URL中的特征关键字查询本地的URL特征库，以获取相应的网页分类信息；用户设备在URL特征库中未查询到相应的网页分类信息，则进一步获取用户要访问的网页的页面内容，并根据所述页面内容查询本地的页面模板库，以获取相应的网页分类信息。

【技术特征摘要】

【专利技术属性】
技术研发人员：贾晋康，吕烨，张永臣，
申请(专利权)人：北京网康科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人