一种基于预取的钓鱼网页检测方法技术

技术编号:3918949 阅读:345 留言:0更新日期:2012-04-11 18:40
基于预取的钓鱼网页检测方法涉及网站信息获取、拓扑特征的提取、分类,主要解决了钓鱼网页检测能力问题。该方法以用户界面模块1为界面、总控模块2为中心,调度分类器模块3、特征提取模块4和网页预取模块5。其中分类器模块首先需要从训练集训练,并采用增量更新的方式,保证该分类器保持对新的钓鱼网页的检测能力。特征提取模块主要提取所预取的网站拓扑结构特征,该特征将被保存在训练集数据库中,同时传递给分类器模块。网页预取模块根据总控模块的指令抓取给定网址一定数量的网页,并保存到网页数据库中。本发明专利技术提出基于预取的钓鱼检测方法,在精度、召回率上都有了很大提高。

【技术实现步骤摘要】

【技术保护点】
一种基于预取的钓鱼网页检测方法,其特征在于在钓鱼网页检测过程中通过爬虫预取一定数量的网页,在此基础上提取网站拓扑特征,以此作为钓鱼网页检测的依据,分类器采用增量学习方法,保证了分类器的及时更新,具体实现步骤为:步骤1)网络爬虫获取初始训练集的过程:使用网络爬虫采集m个正规网站即非钓鱼网站的数据,其中m>=200,并抽取出特征量组织成实例数据;使用网络爬虫采集n个钓鱼网站的数据,其中m>=200,并抽取出特征量组织成实例数据,步骤2)训练集的标定过程:将所有钓鱼网站实例数据中分类属性全部填写为“true”,表示钓鱼网站;将所有正规网站实例数据中分类属性全部填写为“false”,表示非钓鱼网站,步骤3)网站拓扑特征的提取过程:包括拓扑结构构造,提取15种数值特征,●网页数量当前网站经过分析页面的数量;●外网链接入数量因特网上别的网站页面指向当前分析页面的链接数量,这个可以通过Google提供的搜索功能获取;●链接向外网数量当前被分析网站页面中指向非本网站页面的链接数量;●内部链接数量当前被分析网站页面指向本网站页面的链接数量;●页面平均图片数量记录下当前页面中图片数量;●页面平均css文件数量记录下当前页面所使用的css文件数量;●页面平均javascript文件数量记录下当前页面所使用的javascript文件数量;●平均入度所有指向当前页面链接数量(包括本网站和外网的链接);●平均出度当前网站链接向其他页面的链接数量(包括指向本网站和外网的链接);●页面平均表单数量页面源代码中〈form〉标签的数量;●页面平均输入控件数量页面源代码中〈input〉标签数量;●页面平均输入密码框数量页面源代码中包含“type=”password””的“〈input〉”标签数量;●平均链接外部网站数量当前页面指向外部网站的数量;●表单链接比例通过〈form〉中action进行页面跳转的链接数量除以所有当前页面所有链接的比值,即:页面平均表单数量/平均出度;●动态页面比例当前网站中动态页面与所有页面数量的比值,其中,动态页面即以php,aspx,asp,jsp等后缀结尾的页面,静态页面即以html,html等后缀结尾的页面;步骤4)分类器训练过程:分类器的选择,采用增量学习方法,以及分类器参数优化;步骤5)对疑似钓鱼网页的检测过程:使用网络爬虫对可疑站点预取一定数量的网页,并抽取所采集几个网页的特征数据;将抽取出的特征数据送入训练好...

【技术特征摘要】

【专利技术属性】
技术研发人员:张卫丰贡亮周国强张迎周
申请(专利权)人:南京邮电大学
类型:发明
国别省市:84[中国|南京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利