一种网址分类方法、装置及系统制造方法及图纸

技术编号:7662629 阅读:216 留言:0更新日期:2012-08-09 07:11
本发明专利技术提供了一种网址分类方法、装置及系统,所述方法包括解析当前待分类网址中包含的网址数据信息;提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值,并将所述特征项及其权值组成与所述当前待分类网址相对应的空间向量;将所述空间向量置入预设的向量机,获得与所述当前待分类网址相对应的网址类别。通过本申请实施例,当待分类网址对应的网页内容的数据量较大时,不会影响待分类网址的网址数据信息解析,从而降低了系统负载,提高了网址分类效率。

【技术实现步骤摘要】

本专利技术涉及局域网安全管理
,特别涉及一种网址分类方法、装置及系统
技术介绍
随着互联网技术的不断发展和日益普及,为了有效的组织和利用互联网上的信息资源,一般通过网址分类方法将待分类网址依据预设的网址类别进行分类。现有的网址分类方法在进行网址分类时,需要对待分类网址对应的网页内容进行解析,通过 TFIDF (Term Frequency Inverse Document Frequency,特征频率与倒文档频率)特征加权方法,依据解析的结果生成与所述待分类网址相对应的空间向量,并采用预 先设置的向量机将该待分类网址进行分类,获取该待分类网址的网址类别。其中,采用预先设置向量机将待分类网址进行分类,是指将所述待分类网址对应的空间向量置入该向量机,由该向量机采用建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中方案的方法,将所述待分类网址对应的空间向量进行分类,从而得出所述待分类网址的网址类别。由上述可知,在采用现有的网址分类方法进行网址分类时,当待分类网址对应的网页内容的数据量较大时,采用现有的网址分类方法会造成较大的系统负载,从而使得网址分类的效率较低。
技术实现思路
本专利技术所要解决的技术问题是提供一种网址分类方法、装置及系统,用以解决采用现有技术中的网址分类方法,当待分类网址对应的网页内容的数据量较大时,导致较大的系统负载,使得网址分类效率较低的技术问题。本申请提供了一种网址分类方法,包括解析当前待分类网址中包含的网址数据信息;提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值,并将所述特征项及其权值组成与所述当前待分类网址相对应的空间向量;将所述空间向量置入预设的向量机,获得与所述当前待分类网址相对应的网址类别。上述方法,优选地,在所述解析当前待分类网址的网址数据之前,所述方法还包括获取互联网中的网址分类数据;将所述网址分类数据中包含的待分类网址依据预设的初始分类规则进行分类,生成待分类网址集合;获取所述待分类网址集合中的待分类网址。上述方法,优选地,在所述解析当前待分类网址的网址数据信息之前,所述方法还包括应用预设的hash算法对所述当前待分类网址进行计算,获取计算结果;查询预设的hash数据集合中是否存在与所述计算结果相对应的hash数据,如果是,舍去所述当前待分类网址,结束当前网址分类,否则,将所述计算结果置入所述hash数据集合中。上述方法,优选地,在所述解析当前待分类网址的网址数据信息之后,在所述提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值之前,所述方法还包括解析所述网址数据信息包括的网址字符串;判断所述网址字符串是否满足预设的预分类规则,当满足时,依据所述预分类规则获取与所述当前待分类网址相对应的网址类别,结束当前网址分类。上述方法,优选地,所述获取所述待分类网址集合中的待分类网址包括确定所述待分类网址集合中待分类网址的网址权值,及各个待分类网址之间的传递权值;依据所述网址权值和所述传递权值,获取所述待分类网址集合中满足预设的网址获取规则的待分类网址。上述方法,优选地,所述向量机采用预设分类算法依据所述空间向量获取最优分类模型,并解析出所述最优分类模型携带的类别号,将所述类别号作为与所述当前待分类网址相对应的网址类别。上述方法,优选地,所述提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值包括解析所述网址数据信息中的至少一个HTML标签及其内容;依据所述HTML标签及其内容生成其对应的特征项及所述特征项的权值。本申请还提供了一种网址分类装置,包括数据解析单元、数据提取单元和类别获取单元,其中所述数据解析单元,用于解析当前待分类网址中包含的网址数据信息;所述数据提取单元,用于提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值,并将所述特征项及其权值组成与所述当前待分类网址相对应的空间向量;所述类别获取单元,用于将所述空间向量置入预设的向量机,获得与所述当前待分类网址相对应的网址类别。上述装置,优选地,还包括网址获取单元;所述网址获取单元,用于获取互联网中的网址分类数据,并将所述网址分类数据中包含的待分类网址依据预设的初始分类规则进行分类,生成待分类网址集合,获取所述待分类网址集合中的待分类网址,触发所述数据解析单元。上述装置,优选地,还包括网址去重单元;所述网址去重单元,用于应用预设的hash算法对所述当前待分类网址进行计算,获取计算结果,查询预设的hash数据集合中是否存在与所述计算结果相对应的hash数据,如果是,舍去所述当前待分类网址,结束当前网址分类,否则,将所述计算结果置入所述hash数据集合中,触发所述数据提取单元。上述装置,优选地,还包括预分类单元;所述预分类单元,由所述数据解析单元触发,用于解析所述网址数据信息包括的网址字符串, 判断所述网址字符串是否满足预设的预分类规则,当满足时,依据所述预分类规则获取与所述当前待分类网址相对应的网址类别,结束当前网址分类,否则,触发所述数据提取单元。上述装置,优选地,所述网址获取单元包括网址采集子单元、初始分类子单元和网址获取子单元,其中所述网址采集子单元,用于获取互联网中的网址分类数据;所述初始分类子单元,用于将所述网址分类数据中包含的待分类网址依据预设的初始分类规则进行分类,生成待分类网址集合;所述网址获取子单元,用于确定所述待分类网址集合中待分类网址的网址权值,及各个待分类网址之间的传递权值,并依据所述网址权值和所述传递权值,获取所述待分类网址集合中满足预设的网址获取规则的待分类网址。上述装置,优选地,所述数据提取单元包括特征项提取子单元和向量生成子单元,其中所述特征项提取子单元,用于解析所述网址数据信息中的至少一个HTML标签及其内容,并依据所述HTML标签及其内容生成其对应的特征项及所述特征项的权值;所述向量生成子单元,用于将所述特征项及其权值组成与所述当前待分类网址相对应的空间向量。本申请还提供了一种网址分类系统,包括如上述任意一项所述的网址分类装置。由上述方案可知,相对于采用现有技术中的网址分类方法,引起当待分类网址对应的网页内容的数据量较大时,导致系统负载较大、影响网址分类效率的情况,本申请提供的一种网址分类方法、装置及系统,通过提取解析到的待分类网址的网址数据信息中的至少一个特征项及其权值,并由所述特征项及其权值组成与所述待分类网址相对应的空间向量,采用预设的向量机获得与所述待分类网址相对应的网址类别,当待分类网址对应的网页内容的数据量较大时,不会影响待分类网址的网址数据信息解析,从而降低了系统负载,提高了网址分类效率。同时,本申请提供的一种网址分类方法、装置及系统通过不断调整待分类网址特征项相关参数及向量机相关参数等,可以得到实现不同分类方法的网址分类方法、装置及系统,即本申请提供的是一种可以动态改变网址分类规则的网址分类方法、装置及系统。进一步的,本申请提供的一种网址分类方法、装置及系统通过对互联网中的网址进行初步分类,得到待分类网址集合,进而对待分类网址进行分类,使得本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:贺泰华杨建华张广兴文吉刚袁小坊
申请(专利权)人:湖南神州祥网科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1