钓鱼网站特性自学习挖掘方法及系统技术方案

技术编号:9667940 阅读:121 留言:0更新日期:2014-02-14 06:24
本发明专利技术属于计算机防御技术领域,具体公开了一种钓鱼网站特性自学习挖掘方法及系统。该方法以下步骤:根据已有的钓鱼网站数据库和安全网站数据库中存储的URL,获取各个网站的页面内容;将每个网站的网页内容拆分为多个单词;根据公式计算出各个单词在钓鱼网站数据库和安全网站数据库中出现的概率;若第一单词在钓鱼网站数据库中出现的概率大于预设的第一概率且在安全网站数据库中出现的概率小于预设的第二概率,则将该单词添加进一黑词数据库中。该系统包括与方法对应的网页内容获取模块、网页内容拆分模块、概率计算模块、以及黑词数据添加模块。通过本发明专利技术,可以更佳准确找出钓鱼网站的用词特征,进一步提高钓鱼网站的检测准确率,保障了用户的使用安全。

【技术实现步骤摘要】
钓鱼网站特性自学习挖掘方法及系统
本专利技术属于计算机防御
,具体涉及一种钓鱼网站特性自学习挖掘方法及系统。
技术介绍
钓鱼网站是一种网络欺诈行为,指不法分子利用各种手段,仿冒真实网站的URL地址以及页面内容,或者利用真实网站服务器程序上的漏洞在站点的某些网页中插入危险的HTML代码,以此来骗取用户银行或信用卡账号、密码等私人资料或者让消费者直接以支付的方式将钱汇入骗子的银行账户中,严重地影响了在线金融服务、电子商务的发展,危害公众利益,影响公众应用互联网的信心。为了预防钓鱼网站的危害,现有技术建立了钓鱼网站数据库和安全网站数据库,用于判断网站的安全性质,所述的钓鱼网站数据库中存储有已经确认的钓鱼网站的网址URL,所述的安全网站数据库中存储有已经确认的安全网站的网址URL。上述防范方法其核心在于钓鱼网站数据库和安全网站数据库的及时更新,其关键在于钓鱼网站的判断和收集,现有的判断方法主要还通过人为判断和特征过滤的方式,特征过滤法主要关键是建立钓鱼网站的特征数据库,现有的钓鱼网站特征数据库的建立通常是通过数学建模的方式,其方式复杂而且其钓鱼网站检出率不一定高。专
技术实现思路
为了解决上本文档来自技高网
...
钓鱼网站特性自学习挖掘方法及系统

【技术保护点】
一种钓鱼网站特性自学习挖掘方法,其特征在于包括以下步骤:根据已有的钓鱼网站数据库和安全网站数据库中存储的URL,获取各个网站的页面内容;将每个网站的网页内容拆分为多个单词;根据以下公式计算出各个单词在钓鱼网站数据库和安全网站数据库中出现的概率:P1=X/M、P2=Y/N,其中,P1为单词在钓鱼网站数据库中出现的概率,其中,P2为单词在安全网站数据库中出现的概率,其中,X为包含有该单词的钓鱼网站数目,其中,M为钓鱼网站数据库中包含的钓鱼网站数目,其中,Y为包含有该单词的安全网站数目,其中,N为安全网站数据库中包含的安全网站数目;若第一单词在钓鱼网站数据库中出现的概率大于预设的第一概率且在安全网站...

【技术特征摘要】
1.一种钓鱼网站特性自学习挖掘方法,其特征在于包括以下步骤:根据已有的钓鱼网站数据库和安全网站数据库中存储的URL,获取各个网站的页面内容;将每个网站的网页内容拆分为多个单词;根据以下公式计算出各个单词在钓鱼网站数据库和安全网站数据库中出现的概率:P1=X/M、P2=Y/N,其中,P1为单词在钓鱼网站数据库中出现的概率,其中,P2为单词在安全网站数据库中出现的概率,其中,X为包含有该单词的钓鱼网站数目,其中,M为钓鱼网站数据库中包含的钓鱼网站数目,其中,Y为包含有该单词的安全网站数目,其中,N为安全网站数据库中包含的安全网站数目;若第一单词在钓鱼网站数据库中出现的概率大于预设的第一概率且在安全网站数据库中出现的概率小于预设的第二概率,则将该单词添加进一黑词数据库中。2.根据权利要求1所述的方法,其特征在于:所述预设的第一概率为80%,所述预设的第二概率为10%。3.一种钓鱼网站特性自学习挖掘系统,...

【专利技术属性】
技术研发人员:彭仁诚潘建波徐鸣
申请(专利权)人:珠海市君天电子科技有限公司北京金山安全软件有限公司贝壳网际北京安全技术有限公司北京金山网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1