【技术实现步骤摘要】
该专利技术涉及一种用于网站安全监测的方法,特别是涉及一种用于网站安全监测的栏目识别方法。
技术介绍
随着互联网技术的发展,网站已成为政府、企业宣传的重要媒介。网站栏目作为网站的基本元素,其设计的好坏直接影响网站的整体效果。良好的网站栏目设计不仅能够方便网站的用户,也有利于搜索引擎对网站的收录。但随着网站的不断建设,栏目的不断增加,大量的栏目造成网站的极其臃肿,栏目重叠,网站建设者甚至对网站的内容也无法整体把控,以及对网站的升级都会造成影响。栏目识别可以从网站内容中识别出网站的栏目信息,对网站建设者来说,能够清晰看到整个网站的基本结构,方便网站的优化及管理。
技术实现思路
本专利技术克服了现有技术中,网站建设中栏目的不断增加和重叠,对网站运行造成影响的问题,提供一种优化效果好、管理方便的用于网站安全监测的栏目识别方法。本专利技术的技术解决方案是,提供一种具有以下步骤的用于网站安全监测的栏目识别方法:网站安全监测的栏目识别主要包括网络爬虫及URL识别、内容页特征识别和权重计算。所述网络爬虫及URL识别含有以下步骤:利用网络爬虫技术,从网站首页开始,运用深度优先规则,遍历深度3层以内的所有网页URL;在内容抓取过程中,分析网站所有链接URL及属性,用数据结构UrlMap记录;记录所有URL后,利用URL过滤规则1进行初步筛选,满足URL过滤规则1的所有URL记录从UrlMap中删除,其中URL过滤规则1:a.对URL为mailto类型链接、文件类型链接过滤;b.对于链接标题超过10个字符的链接进行过滤;c.对链接标题中包含非栏目关键词的链接进行过滤。所述非栏目关键 ...
【技术保护点】
一种用于网站安全监测的栏目识别方法,其特征在于:网站安全监测的栏目识别主要包括网络爬虫及URL识别、内容页特征识别和权重计算。
【技术特征摘要】
1.一种用于网站安全监测的栏目识别方法,其特征在于:网站安全监测的栏目识别主要包括网络爬虫及URL识别、内容页特征识别和权重计算。2.根据权利要求1所述的用于网站安全监测的栏目识别方法,其特征在于:所述网络爬虫及URL识别含有以下步骤:利用网络爬虫技术,从网站首页开始,运用深度优先规则,遍历深度3层以内的所有网页URL;在内容抓取过程中,分析网站所有链接URL及属性,用数据结构UrlMap记录;记录所有URL后,利用URL过滤规则1进行初步筛选,满足URL过滤规则1的所有URL记录从UrlMap中删除,其中URL过滤规则1:a.对URL为mailto类型链接、文件类型链接过滤;b.对于链接标题超过10个字符的链接进行过滤;c.对链接标题中包含非栏目关键词的链接进行过滤。3.根据权利要求2所述的用于网站安全监测的栏目识别方法,其特征在于:所述非栏目关键词为上一页、下一页、登录、关闭、更多、加入收藏、关于、订阅、隐私保护和设为首页。4.根据权利要求1所述的用于网站安全监测的栏目识别方法,其特征在于:所述内容页特征识别含有以下步骤:经过初步筛...
【专利技术属性】
技术研发人员:董仲舒,谷晶中,姚金龙,程杰,张阳光,
申请(专利权)人:河南山谷网安科技股份有限公司,
类型:发明
国别省市:河南;41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。