基于网页关键内容相似性分析的钓鱼网站发现方法及系统技术方案

技术编号:19327739 阅读:44 留言:0更新日期:2018-11-03 14:35
本发明专利技术公开了一种基于网页关键内容相似性分析的钓鱼网站发现方法和系统,属于计算机网络安全领域。本方法包括网页关键内容特征提取、网页关键内容特征聚类和网页关键内容相似性计算。相应提供的系统包括网页主题分类器、关键内容提取器、特征抽取及聚合模块、相似度计算引擎和样本特征管理模块。通过网页主题分类器聚焦可疑的URL,防止不必要的特征过拟合,然后对待分析网页进一步通过关键内容提取器和相似度计算引擎来获得判断结果。本发明专利技术应用在网络关口URL检测,每个URL网页的检测时间为微秒级,正确率在97.5%以上,可实现快速、准确、稳定的钓鱼网站检测。

Phishing website discovery method and system based on similarity analysis of Web key content

The invention discloses a fishing website discovery method and system based on similarity analysis of key content of web pages, which belongs to the field of computer network security. This method includes key content feature extraction, key content feature clustering and key content similarity calculation. The corresponding system includes web topic classifier, key content extractor, feature extraction and aggregation module, similarity computing engine and sample feature management module. By focusing on suspicious URLs through the topic classifier, unnecessary feature over-fitting is prevented, and then the key content extractor and similarity computing engine are used to obtain the judgment results for the analysis web pages. The invention is applied to the detection of network gateway URLs. The detection time of each URL page is microsecond and the correct rate is over 97.5%. The fast, accurate and stable detection of phishing websites can be realized.

【技术实现步骤摘要】
基于网页关键内容相似性分析的钓鱼网站发现方法及系统
本专利技术属于计算机网络安全领域,具体涉及一种基于网页关键内容相似性分析的钓鱼网站发现方法及其系统。
技术介绍
随着互联网技术的发展,尤其是智能终端设备的普及,在给人们提供便利信息的同时也为钓鱼网站(是指通过垃圾邮件、即时通信、社交网络等信息载体,发布欺诈性消息,骗取网络用户访问的仿冒网站)的传播提供了更多的渠道。伴随电子商务的普及和推广,与银行诈骗相关的网络钓鱼事件频繁发生,其危害程度呈现逐年增长的趋势。在国内,每天产生数千亿的URL(UniformResoureLocator,统一资源定位符)访问行为,这些钓鱼URL链接在传播的过程中被及时发现,并对其进行实时的处理,将在很大程度上降低钓鱼网站的传播和危害。现有的一些钓鱼网站的发现技术主要包括以下几种方式:(1)基于URL的检测技术,通过分析钓鱼网站URL的表现形式,如URL过长、IP替代域名、不常采用的字符@、可疑域名等,以此来判断钓鱼网站[1-4]。(2)基于机器学习的算法计算分析,通常选择一些钓鱼网站的异常特征作为用来训练机器的特征向量,由此形成分类器算法,并以此分类器来判别钓鱼网站[5]。(3)基于视觉相似度的检测技术,曹久新等人提出了一个基于嵌套EMD(EarthMover’sDistance)的网页相似度判定算法,对Web网页图像进行分割,利用分割后的子图特征来构建网页的ARG(AttributedRelationalGraph)。计算得到不同的AGR属性的距离后,通过嵌套EMD方法得到钓鱼网站与受保护网站网页的相似度,进而实现对钓鱼网站的高精度检测[6]。(4)基于文档结构的检测技术,郭敏哲等人分析了Web网页文档对象,提取文本对象模型中的常被钓鱼者利用的网络钓鱼敏感信息特征。通过利用BP(BackPropagation)神经网络来对被测网站的异常程度进行检测。并通过线性分类器分析检测到的异常程度,来判断该网站是否为钓鱼网站[7]。(5)其它类型的检测技术,黄华军等人提出基于半脆弱水印的网络钓鱼主动防御[8];HuangH.J等提出了基于异常特征钓鱼URL检测算法[9];张健毅等人提出一种对文本语义理解的网络钓鱼检查算法[10]等等。以上的技术中,基于URL的检测技术可以快速定位目标,但缺点是误报率较大;基于机器学习的算法计算开销大,性能提升成为主要的瓶颈;基于视觉相似性的技术算法复杂,占用空间大,需要大量的样本做分析计算,对于海量的URL而言,不具有普适性;基于文档结构的检测技术存在特征泛化能力弱,需要频繁替换特征的问题。参考文献如:[1]HuangC.,MaS,ChenK.,UsingOne-TimePasswordstoPreventPasswordPhishingAttacks[J].JournalofNetworkandComputerApplications.2011,34(4):1292-1301.[2]GareraS.,ProvosN.,ChewM..AFrameworkfordetectionandMeasurementofPhishingAttacks[C].In:Proc.ofWORM’07,2007:1-8.[3]PrakashP.,KumarM..KompellaR.R.,etal.PhishNet:PredictiveBlacklistingtoDetectPhishingAttacks[C].In:Proc.ofIEEEINFOCOM,IN,2010:1-5.[4]MaJ.,SaulLK.,SavageS..etal.LearningtoDetectMaliciousURLs[J].ACMTransactionsonIntelligentSystemsandTechnology.2011,2(3):1-30.[5]ZhangH.,LiuG.,ChowT.W.S..etal.TextualandVisualContent-BasedAnti-Phishing:ABaysianApproach[J].IEEETransactionsonNeuralNetworks.2011,22(10):1532-1546.[6]曹欧新,毛波,罗军舟,等.基于嵌套EMD的钓鱼网页检测算法[J].计算机学报,2009,32(5):922-929.[7]郭敏哲,袁津生,王雅超,等.网络钓鱼Web页面检测算法机[J].计算机工程,2008,34(20):161-163.[8]殷水军,刘嘉永,刘亮.针对Web-mail邮箱的跨站网络钓鱼攻击的研究[J].通信技术,2010,43(8):164-166.[9]HuangH.J.,WangY.J.,XieL.L..etal.AnActiveAnti-PhishingSolutionBasedonSemi-fragileWatermark[J].InformationTechnologyJournal.2013,12(1):198-203.[10]HuangH.J.,QianL.,WangY.J..ASVM-BasedTechniquetoDetectPhishingURLs[J].InformationTechnologyJournal.2012,11(7):921-925.
技术实现思路
针对上述已有方法存在的误报率大、计算开销大、普适性差等问题,本专利技术公开了一种基于网页关键内容相似性分析的钓鱼网站发现方法和系统,应用在网络关口URL检测,实现快速、准确、稳定的钓鱼网站检测。本专利技术公开了一种基于网页关键内容相似性分析的钓鱼网站发现方法,该方法包括网页关键内容特征学习和网页关键内容相似性计算;其中,网页关键内容特征学习(简称WPKC-FL)包括网页关键内容特征提取(简称WPKC-FE)和网页关键内容特征聚类(简称WPKC-FC)。所述的网页关键内容特征提取的具体步骤包括:步骤(1.1)根据仿冒的目标对象,对带标签label的钓鱼网站URL进行分类;对每类都执行下面步骤1.2~1.7。label用于标记网页所仿冒的目标对象类型。步骤(1.2)下载各URL对应的web页面源码,并将其转换为统一的字符码。步骤(1.3)根据URL的页面代码构建网页的Dom(文档对象模型)树,提取标签下的文本,标签包括title、meta、body等,在提取时去除非打印字符和标点符号,只保留数字、字母和中文字符。步骤(1.4)对提取的文本内容,按照2-8字符的长度进行关键词提取,丢弃过长的语义段和无实际意义的助词,为每个页面形成一个词向量;每个页面的词向量中的词唯一,没有重复。步骤(1.5)对词向量进行规范化,删除词向量中的具体时间词、指标的具体度量值、干扰词、广告和第三方的链接词。步骤(1.6)对词向量进行simhash运算,每个词向量对应生成一个39位的数字串。步骤(1.7)对每一个URL网页的内容,映射成一个<simhash,label>二元组对。其中,simhash为由步骤1.6计算得到的网页对应的词向量的simhash值,label为网页的标签。所述的网页关键内容特征聚类将每个分组的钓鱼网站的simhash值依据海明距本文档来自技高网
...

【技术保护点】
1.一种基于网页关键内容相似性分析的钓鱼网站发现方法,其特征在于,包括网页关键内容特征学习和网页关键内容相似性计算;其中,网页关键内容特征学习包括网页关键内容特征提取和网页关键内容特征聚类;所述的网页关键内容特征提取将每个钓鱼网站网页映射为一个二元组,包括:步骤1.1,根据仿冒的目标对象,对带标签label的钓鱼网站URL进行分类;对每类都执行下面步骤1.2~1.7;label用于标记网页所仿冒的目标对象类型;步骤1.2,下载各URL对应的web页面源码,并将其转换为预设的字符码;步骤1.3,根据URL的页面代码构建网页的文档对象模型树,提取标签下的文本,在提取时去除非打印字符和标点符号,只保留数字、字母和中文字符;步骤1.4,对提取的文本,按照2~8字符的长度进行关键词提取,为每个页面形成一个词向量;每个页面的词向量中的词唯一,没有重复;步骤1.5,将词向量规范化,删除词向量中的具体时间词、指标的具体度量值、干扰词、广告和第三方的链接词;步骤1.6,对词向量进行simhash运算,每个词向量对应生成一个39位的数字串;步骤1.7,对每一个URL网页的内容,映射成一个

【技术特征摘要】
1.一种基于网页关键内容相似性分析的钓鱼网站发现方法,其特征在于,包括网页关键内容特征学习和网页关键内容相似性计算;其中,网页关键内容特征学习包括网页关键内容特征提取和网页关键内容特征聚类;所述的网页关键内容特征提取将每个钓鱼网站网页映射为一个二元组,包括:步骤1.1,根据仿冒的目标对象,对带标签label的钓鱼网站URL进行分类;对每类都执行下面步骤1.2~1.7;label用于标记网页所仿冒的目标对象类型;步骤1.2,下载各URL对应的web页面源码,并将其转换为预设的字符码;步骤1.3,根据URL的页面代码构建网页的文档对象模型树,提取标签下的文本,在提取时去除非打印字符和标点符号,只保留数字、字母和中文字符;步骤1.4,对提取的文本,按照2~8字符的长度进行关键词提取,为每个页面形成一个词向量;每个页面的词向量中的词唯一,没有重复;步骤1.5,将词向量规范化,删除词向量中的具体时间词、指标的具体度量值、干扰词、广告和第三方的链接词;步骤1.6,对词向量进行simhash运算,每个词向量对应生成一个39位的数字串;步骤1.7,对每一个URL网页的内容,映射成一个<simhash,label>二元组对;simhash为由步骤1.6计算得到的网页对应的词向量的simhash值,label为网页的标签;所述的网页关键内容特征聚类将每类钓鱼网站的simhash值依据海明距离进行聚类,对每一类钓鱼网站计算获取一组特征属性值;所述的网页关键内容相似性根据每类钓鱼网站的特征属性值,对待比较的URL进行相似性计算,来判断待比较的URL是否为钓鱼网站。2.根据权利要求1所述的方法,其特征在于,所述的步骤1.3中,提取标签<title>、<meta>、<body>下的文本,其中,<body>下提取标签<a>、<p>、<div>、<table>、<form>、<tr>、<td>、<span>下的文本内容。3.根据权利要求1所述的方法,其特征在于,所述的步骤1.3中,在提取标签下的文本时,将非打印字符和标点符号用空格代替,特殊字符除去常用的URL字符串、邮箱地址外,均用空格替换。4.根据权利要求1所述的方法,其特征在于,所述的网页关键内容特征聚类,对一类钓鱼网站执行下面步骤,包括:步骤2.1,将该类网页的simhash值进行分类,具体是:设两个不同网页的simhash值分别为hi,hj,i,j为正整数且i≠j,计算hi,hj之间的海明距离Hd(hi,hj),设置距离阈值β的初始值,若Hd(hi,hj)<β,则将hi和hj分为一组;设将该类网页的simhash值分为K组,形成集合C,集合的每一组用该组内编号i最小的hi表示聚类中心;步骤2.2,对该类网页进行正样本扩展,使得其中的正负样本的比例达到设定值,然后计算出正负样本之间的最小海明距离,设为γ,则修正阈值β=γ;步骤2.3,重新调整集合C,具体是:对步骤2.1中C中的两个分组,计算两个分组的聚类中心hk1与hk2之间的海明距离,若则合并所述的两个分组;设调整后集合C内的分组数从K缩减到m;然后对每个分组Ck,设其中存在r个网页的simhash值,计算该分组内部的距离矩阵A:如果i≠j,dij=Hd(hi,hj);如果i=j,dij=hi;...

【专利技术属性】
技术研发人员:臧天宁强倩杜飞周渊
申请(专利权)人:国家计算机网络与信息安全管理中心北京锐驰信安技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1