一种用于网站安全监测的栏目识别方法技术

技术编号:14082407 阅读:38 留言:0更新日期:2016-11-30 19:46
本发明专利技术公开了一种用于网站安全监测的栏目识别方法,克服了现有技术中,网站建设中栏目的不断增加和重叠,对网站运行造成影响的问题。该发明专利技术中网站安全监测的栏目识别主要包括网络爬虫及URL识别、内容页特征识别和权重计算。所述权重计算含有以下步骤:经过过滤后的UrlMap,需要根据栏目名称长度、引用次数、出现日期次数、内容页特征关键字出现数量计算栏目权重,计算出栏目总权重;从UrlMap中删除权重小于60的URL,最后UrlMap中所有剩余的URL就是网站的所有栏目。该技术通过栏目识别可以从网站内容中识别出网站的栏目信息,对网站建设者来说,能够清晰看到整个网站的基本结构,方便网站的优化及管理。

【技术实现步骤摘要】

该专利技术涉及一种用于网站安全监测的方法,特别是涉及一种用于网站安全监测的栏目识别方法
技术介绍
随着互联网技术的发展,网站已成为政府、企业宣传的重要媒介。网站栏目作为网站的基本元素,其设计的好坏直接影响网站的整体效果。良好的网站栏目设计不仅能够方便网站的用户,也有利于搜索引擎对网站的收录。但随着网站的不断建设,栏目的不断增加,大量的栏目造成网站的极其臃肿,栏目重叠,网站建设者甚至对网站的内容也无法整体把控,以及对网站的升级都会造成影响。栏目识别可以从网站内容中识别出网站的栏目信息,对网站建设者来说,能够清晰看到整个网站的基本结构,方便网站的优化及管理。
技术实现思路
本专利技术克服了现有技术中,网站建设中栏目的不断增加和重叠,对网站运行造成影响的问题,提供一种优化效果好、管理方便的用于网站安全监测的栏目识别方法。本专利技术的技术解决方案是,提供一种具有以下步骤的用于网站安全监测的栏目识别方法:网站安全监测的栏目识别主要包括网络爬虫及URL识别、内容页特征识别和权重计算。所述网络爬虫及URL识别含有以下步骤:利用网络爬虫技术,从网站首页开始,运用深度优先规则,遍历深度3层以内的所有网页URL;在内容抓取过程中,分析网站所有链接URL及属性,用数据结构UrlMap记录;记录所有URL后,利用URL过滤规则1进行初步筛选,满足URL过滤规则1的所有URL记录从UrlMap中删除,其中URL过滤规则1:a.对URL为mailto类型链接、文件类型链接过滤;b.对于链接标题超过10个字符的链接进行过滤;c.对链接标题中包含非栏目关键词的链接进行过滤。所述非栏目关键词为上一页、下一页、登录、关闭、更多、加入收藏、关于、订阅、隐私保护和设为首页。所述内容页特征识别含有以下步骤:经过初步筛选的UrlMap,再根据网页内容特征,进行识别过滤;非栏目的网页内容具有以下特征:a.超大内容,对于页面存在字符超过1500个字符文本块页面过滤;b.对于内容页关键词出现次数contentKeyCount大于等于5的进行过滤,计算内容页关键词出现次数,对于同一关键词出现多次只计算一次,总次数大于等于5时过滤;具有以上两个特征中任意一个都认为是非栏目网页,从UrlMap删除。所述内容页关键词为来源、作者、责编、编辑、点击、发布、发表、日期、时间、收藏、分享和评论。所述权重计算含有以下步骤:经过过滤后的UrlMap,需要根据栏目名称长度、引用次数、出现日期次数、内容页特征关键字出现数量计算栏目权重,计算出栏目总权重;栏目权重W计算公式:W=W1+W2+W3–W4=F1(N1)+F2*N2+F3*N3–F4*N4,从UrlMap中删除权重小于60的URL,最后UrlMap中所有剩余的URL就是网站的所有栏目。与现有技术相比,本专利技术用于网站安全监测的栏目识别方法具有以下优点:栏目识别可以从网站内容中识别出网站的栏目信息,对网站建设者来说,能够清晰看到整个网站的基本结构,方便网站的优化及管理。可以提高网站的监测效率,及时发现栏目中存在的内容错误,以及恶意链接等安全问题。附图说明图1是本专利技术用于网站安全监测的栏目识别方法的工作流程示意图。具体实施方式下面结合附图和具体实施方式对本专利技术用于网站安全监测的栏目识别方法作进一步说明:如图所示,本实施例中网站栏目识别主要包括网络爬虫及URL识别、内容页特征识别、权重计算,具体步骤如下:1、网络爬虫及URL识别:URL属性定义:标题(title):链接的标题;引用次数(refcount):爬虫过程该URL出现的次数;出现日期次数(datecount):该页面包含日期(年月日格式)出现次数;内容页关键词次数(contentKeyCount):计算内容页关键词数量;URL内容hash值(hash):该页面内容md5值。利用网络爬虫技术,从网站首页开始,运用深度优先规则,遍历深度3层以内的所有网页URL。在内容抓取过程中,分析网站所有链接URL及属性,用数据结构UrlMap<url,url属性={title,refcount,datecount,contentKeyCount,hash本文档来自技高网...
一种用于网站安全监测的栏目识别方法

【技术保护点】
一种用于网站安全监测的栏目识别方法,其特征在于:网站安全监测的栏目识别主要包括网络爬虫及URL识别、内容页特征识别和权重计算。

【技术特征摘要】
1.一种用于网站安全监测的栏目识别方法,其特征在于:网站安全监测的栏目识别主要包括网络爬虫及URL识别、内容页特征识别和权重计算。2.根据权利要求1所述的用于网站安全监测的栏目识别方法,其特征在于:所述网络爬虫及URL识别含有以下步骤:利用网络爬虫技术,从网站首页开始,运用深度优先规则,遍历深度3层以内的所有网页URL;在内容抓取过程中,分析网站所有链接URL及属性,用数据结构UrlMap记录;记录所有URL后,利用URL过滤规则1进行初步筛选,满足URL过滤规则1的所有URL记录从UrlMap中删除,其中URL过滤规则1:a.对URL为mailto类型链接、文件类型链接过滤;b.对于链接标题超过10个字符的链接进行过滤;c.对链接标题中包含非栏目关键词的链接进行过滤。3.根据权利要求2所述的用于网站安全监测的栏目识别方法,其特征在于:所述非栏目关键词为上一页、下一页、登录、关闭、更多、加入收藏、关于、订阅、隐私保护和设为首页。4.根据权利要求1所述的用于网站安全监测的栏目识别方法,其特征在于:所述内容页特征识别含有以下步骤:经过初步筛...

【专利技术属性】
技术研发人员:董仲舒谷晶中姚金龙程杰张阳光
申请(专利权)人:河南山谷网安科技股份有限公司
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1