一种基于内容的网页分类方法及系统技术方案

技术编号:8078918 阅读:184 留言:0更新日期:2012-12-13 21:43
本发明专利技术公开了一种基于内容的网页分类方法,用户设备获取用户要访问的网页的统一资源定位符URL中的特征关键字,并根据所述URL中的特征关键字查询本地的URL特征库,以获取相应的网页分类信息;用户设备在URL特征库中未查询到相应的网页分类信息,则进一步获取用户要访问的网页的页面内容,并根据所述页面内容查询本地的页面模板库,以获取相应的网页分类信息。本发明专利技术还相应地公开了一种基于内容的网页分类系统。通过本发明专利技术,能够实现基于页面粒度的分类,以及提高分类准确度、提高分类实时性、减少人力成本。

【技术实现步骤摘要】

本专利技术涉及网络安全及监控领域,尤其涉及一种基于内容的网页分类方法及系统
技术介绍
在网络安全及监控领域中,按照实际策略需求,需要对某些类别的网站进行屏蔽,此外,企业为防止重要信息外泄及回查,需要 将用户的访问记录及流量信息记录下来。因此,对客户实际的访问内容进行控制、审计和记录日志,是目前上网行为管理类产品的主要目的。在此背景下,对于网站乃至网页的内容识别的实时性和准确性及相关的实现技术,是该领域目前的技术核心。目前,对于网站分类,多采用线下分类的方式。即事先通过网络爬虫技术得到大量页面,采用自然语言处理的相关方法(例如基于规则的分类器、支持向量机(SVM)等),对网页内容进行分类后,存储到数据库中。实际使用环境下,根据该数据库得到相应的页面类另IJ,供审计和日志程序使用。但是,上述分类方法具有以下缺陷I)分类的准确性不够高。由于采用基于自然语言处理的相关方法,就目前技术发展水平而言,其分类准确度有限,且这些方法的结论均是基于对较规范文本做出的测试结果。这样的准确度,在上网行为管理类产品的应用场景下,基本不可接受。某一个网页的分类错误,都可能导致客户的投诉。多数网站网页语言并不规范,更增加了利用相关方法进行分类的复杂度。此外,对于分类词库及分类器的构建和维护比较复杂、成本较高;2)分类粒度较粗。现有分类方法基于数据库进行分类,考虑到页面数量巨大及查询效率等方面的考虑,分类结果一般只能够达到网站级,对于某些大型或知名网站能够达到频道级。但是,随着微博、社会性网络服务(Social Networking Services, SNS)的发展,网站级或频道级的分类越来越不能满足用户需求,例如下述的一个场景此前某企业不允许员工在工作时间观看视频,采用基于网站或频道的分类就可以解决(例如土豆、优酷、奇艺等);但目前用户有了新的需求,不允许用户观看电影、电视剧等视频,但允许用户观看教育类视频,此时,原先的分类方法就无法再满足用户需求了。此外,对于某些购物类网站、SNS网站,用户也会提出类似的需求;3)分类实时性不够。由于网站演进迅猛,每天过时的网站与新生的网站数量巨大,因此对于数据库的维护是非常耗时耗力的。此外,对于用户场景下的某些数据库中没有收集到的网站,通常只能给出未分类的结果;4)目前采用的分类方法,多数为自动分类器+手工回查或纯手工分类的方式,数据库增长速度较慢,且人力成本较高。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种基于内容的网页分类方法及系统,能够实现基于页面粒度的分类,以及提高分类准确度、提高分类实时性、减少人力成本。为达到上述目的,本专利技术的技术方案是这样实现的一种基于内容的网页分类方法,包括用户设备获取用户要访问的网页的统一资源定位符URL中的特征关键字,并根据所述URL中的特征关键字查询本地的URL特征库,以获取相应的网页分类信息;用户设备在URL特征库中未查询到相应的网页分类信息,则进一步获取用户要访问的网页的页面内容,并根据所述页面内容查 询本地的页面模板库,以获取相应的网页分类信息。该方法还包括用户设备在页面模板库中未查询到相应的网页分类信息,则将所述用户要访问的网页的网页信息发送至模板生成子系统;所述模板生成子系统根据各用户设备发送的网页信息,生成新的URL特征库和/或页面模板库,并将所述新的URL特征库和/或页面模板库发送给各用户设备。所述模板生成子系统根据各用户设备发送网页信息,生成新的URL特征库和/或页面模板库为统计网页信息被发送的次数;选择被发送次数高的至少一个网页生成新的URL特征库和/或页面模板库。所述模板生成系统根据各用户设备发送网页信息,生成新的URL特征库和/或页面模板库具体为对待提取的页面信息进行标注;标注完成后,自动训练产生该网页页面的备选模板;将备选模板在新的数据中进行测试;测试成功后,将所述备选模板加入URL特征库和/或页面模板库,生成新的URL特征库和/或页面模板库。所述用户设备获取用户要访问的网页的URL中的特征关键字,并根据所述URL中的特征关键字查询本地的URL特征库之前,该方法还包括根据用户要访问的网页的URL查询高速缓冲存储器Cache,命中记录,则直接返回分类结果;否则,进一步根据用户要访问的网页的URL查询数据库,命中记录,则直接返回分类结果,查询Cache和数据库均未命中记录,则判断所述URL对应的域名是否支持细分,如果是,执行后续步骤;否则,返回未分类结果。—种基于内容的网页分类系统,包括用户设备,所述用户设备具体包括第一获取模块、第一查询模块、URL特征库、第二获取模块、第二查询模块和页面模板库;其中,所述第一获取模块,用于获取用户要访问的网页的URL中的特征关键字;所述第一查询模块,用于根据所述第一获取模块获取的URL中的特征关键字查询URL特征库,以获取相应的网页分类信息;所述URL特征库,用于存储URL中的特征关键字和分类信息的对应关系;所述第二获取模块,用于获取用户要访问的网页的页面内容;所述第二查询模块,用于在第一查询模块未查询到相应的网页分类信息时,根据所述第二获取模块获取的页面内容查询页面模板库,以获取相应的网页分类信息;所述页面模板库,用于存储页面内容和分类信息的对应关系。所述用户设备还包括通信模块,该系统还包括模板生成子系统,所述模板生成子系统具体包括通信模块和模板生成模块;其中,所述用户设备的通信模块,用于在第二查询模块未查询到相应的网页分类信息时,将所述用户要访问的网页的网页信息发送至模板生成子系统;所述模板生成子系统的通信模块,用于接收各用户设备发送的网页信息;以及将模板生成模块生成的新的URL特征库和/或页面模板库发送给各用户设备;所述模板生成模块,用于根据所述通 信模块接收的网页信息,生成新的URL特征库和/或页面模板库。所述模板生成子系统还包括统计分析模块,所述统计分析模块,用于统计网页信息被发送的次数,并选择被发送次数高的至少一个网页;所述模板生成模块,具体用于根据所述统计分析模块选择的至少一个网页,生成新的URL特征库和/或页面模板库。所述模板生成模块,具体用于对待提取的关键词进行标注;标注完成后,自动训练产生该网页页面的备选模板;将备选模板在新的数据中进行测试;测试成功后,将所述备选模板加入URL特征库和/或页面模板库,生成新的URL特征库和/或页面模板库。所述用户设备还包括第三查询模块、Cache、第四查询模块、数据库和判断模块;其中,所述第三查询模块,用于根据用户要访问的网页的URL及页面内容查询Cache ;所述Cache和数据库,用于存储URL与分类信息的对应关系;所述第四查询模块,用于在第三查询模块未在Cache命中记录时,根据用户要访问的网页的URL查询数据库;所述判断模块,用于在第四查询模块未命中记录时,判断所述URL对应的域名是否支持细分,如果是,通知第一查询模块进行查询。本专利技术基于内容的网页分类方法及系统,用户设备利用网站相关的URL特征描述规则,获取用户要访问的网页的统一资源定位符URL中的特征关键字,并根据所述URL中的特征关键字查询本地的URL特征库,以获取相应的网页分类信息;用户设备在URL特征库中未查询到相应的网页分类信息,则进一步获取用户要访问的网本文档来自技高网
...

【技术保护点】
一种基于内容的网页分类方法,其特征在于,该方法包括:用户设备获取用户要访问的网页的统一资源定位符URL中的特征关键字,并根据所述URL中的特征关键字查询本地的URL特征库,以获取相应的网页分类信息;用户设备在URL特征库中未查询到相应的网页分类信息,则进一步获取用户要访问的网页的页面内容,并根据所述页面内容查询本地的页面模板库,以获取相应的网页分类信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:贾晋康吕烨张永臣
申请(专利权)人:北京网康科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1