The invention discloses a fishing website discovery method and system based on similarity analysis of key content of web pages, which belongs to the field of computer network security. This method includes key content feature extraction, key content feature clustering and key content similarity calculation. The corresponding system includes web topic classifier, key content extractor, feature extraction and aggregation module, similarity computing engine and sample feature management module. By focusing on suspicious URLs through the topic classifier, unnecessary feature over-fitting is prevented, and then the key content extractor and similarity computing engine are used to obtain the judgment results for the analysis web pages. The invention is applied to the detection of network gateway URLs. The detection time of each URL page is microsecond and the correct rate is over 97.5%. The fast, accurate and stable detection of phishing websites can be realized.
【技术实现步骤摘要】
基于网页关键内容相似性分析的钓鱼网站发现方法及系统
本专利技术属于计算机网络安全领域,具体涉及一种基于网页关键内容相似性分析的钓鱼网站发现方法及其系统。
技术介绍
随着互联网技术的发展,尤其是智能终端设备的普及,在给人们提供便利信息的同时也为钓鱼网站(是指通过垃圾邮件、即时通信、社交网络等信息载体,发布欺诈性消息,骗取网络用户访问的仿冒网站)的传播提供了更多的渠道。伴随电子商务的普及和推广,与银行诈骗相关的网络钓鱼事件频繁发生,其危害程度呈现逐年增长的趋势。在国内,每天产生数千亿的URL(UniformResoureLocator,统一资源定位符)访问行为,这些钓鱼URL链接在传播的过程中被及时发现,并对其进行实时的处理,将在很大程度上降低钓鱼网站的传播和危害。现有的一些钓鱼网站的发现技术主要包括以下几种方式:(1)基于URL的检测技术,通过分析钓鱼网站URL的表现形式,如URL过长、IP替代域名、不常采用的字符@、可疑域名等,以此来判断钓鱼网站[1-4]。(2)基于机器学习的算法计算分析,通常选择一些钓鱼网站的异常特征作为用来训练机器的特征向量,由此形成分类器算法,并以此分类器来判别钓鱼网站[5]。(3)基于视觉相似度的检测技术,曹久新等人提出了一个基于嵌套EMD(EarthMover’sDistance)的网页相似度判定算法,对Web网页图像进行分割,利用分割后的子图特征来构建网页的ARG(AttributedRelationalGraph)。计算得到不同的AGR属性的距离后,通过嵌套EMD方法得到钓鱼网站与受保护网站网页的相似度,进而实现对钓鱼网站的 ...
【技术保护点】
1.一种基于网页关键内容相似性分析的钓鱼网站发现方法,其特征在于,包括网页关键内容特征学习和网页关键内容相似性计算;其中,网页关键内容特征学习包括网页关键内容特征提取和网页关键内容特征聚类;所述的网页关键内容特征提取将每个钓鱼网站网页映射为一个二元组,包括:步骤1.1,根据仿冒的目标对象,对带标签label的钓鱼网站URL进行分类;对每类都执行下面步骤1.2~1.7;label用于标记网页所仿冒的目标对象类型;步骤1.2,下载各URL对应的web页面源码,并将其转换为预设的字符码;步骤1.3,根据URL的页面代码构建网页的文档对象模型树,提取标签下的文本,在提取时去除非打印字符和标点符号,只保留数字、字母和中文字符;步骤1.4,对提取的文本,按照2~8字符的长度进行关键词提取,为每个页面形成一个词向量;每个页面的词向量中的词唯一,没有重复;步骤1.5,将词向量规范化,删除词向量中的具体时间词、指标的具体度量值、干扰词、广告和第三方的链接词;步骤1.6,对词向量进行simhash运算,每个词向量对应生成一个39位的数字串;步骤1.7,对每一个URL网页的内容,映射成一个
【技术特征摘要】
1.一种基于网页关键内容相似性分析的钓鱼网站发现方法,其特征在于,包括网页关键内容特征学习和网页关键内容相似性计算;其中,网页关键内容特征学习包括网页关键内容特征提取和网页关键内容特征聚类;所述的网页关键内容特征提取将每个钓鱼网站网页映射为一个二元组,包括:步骤1.1,根据仿冒的目标对象,对带标签label的钓鱼网站URL进行分类;对每类都执行下面步骤1.2~1.7;label用于标记网页所仿冒的目标对象类型;步骤1.2,下载各URL对应的web页面源码,并将其转换为预设的字符码;步骤1.3,根据URL的页面代码构建网页的文档对象模型树,提取标签下的文本,在提取时去除非打印字符和标点符号,只保留数字、字母和中文字符;步骤1.4,对提取的文本,按照2~8字符的长度进行关键词提取,为每个页面形成一个词向量;每个页面的词向量中的词唯一,没有重复;步骤1.5,将词向量规范化,删除词向量中的具体时间词、指标的具体度量值、干扰词、广告和第三方的链接词;步骤1.6,对词向量进行simhash运算,每个词向量对应生成一个39位的数字串;步骤1.7,对每一个URL网页的内容,映射成一个<simhash,label>二元组对;simhash为由步骤1.6计算得到的网页对应的词向量的simhash值,label为网页的标签;所述的网页关键内容特征聚类将每类钓鱼网站的simhash值依据海明距离进行聚类,对每一类钓鱼网站计算获取一组特征属性值;所述的网页关键内容相似性根据每类钓鱼网站的特征属性值,对待比较的URL进行相似性计算,来判断待比较的URL是否为钓鱼网站。2.根据权利要求1所述的方法,其特征在于,所述的步骤1.3中,提取标签<title>、<meta>、<body>下的文本,其中,<body>下提取标签<a>、<p>、<div>、<table>、<form>、<tr>、<td>、<span>下的文本内容。3.根据权利要求1所述的方法,其特征在于,所述的步骤1.3中,在提取标签下的文本时,将非打印字符和标点符号用空格代替,特殊字符除去常用的URL字符串、邮箱地址外,均用空格替换。4.根据权利要求1所述的方法,其特征在于,所述的网页关键内容特征聚类,对一类钓鱼网站执行下面步骤,包括:步骤2.1,将该类网页的simhash值进行分类,具体是:设两个不同网页的simhash值分别为hi,hj,i,j为正整数且i≠j,计算hi,hj之间的海明距离Hd(hi,hj),设置距离阈值β的初始值,若Hd(hi,hj)<β,则将hi和hj分为一组;设将该类网页的simhash值分为K组,形成集合C,集合的每一组用该组内编号i最小的hi表示聚类中心;步骤2.2,对该类网页进行正样本扩展,使得其中的正负样本的比例达到设定值,然后计算出正负样本之间的最小海明距离,设为γ,则修正阈值β=γ;步骤2.3,重新调整集合C,具体是:对步骤2.1中C中的两个分组,计算两个分组的聚类中心hk1与hk2之间的海明距离,若则合并所述的两个分组;设调整后集合C内的分组数从K缩减到m;然后对每个分组Ck,设其中存在r个网页的simhash值,计算该分组内部的距离矩阵A:如果i≠j,dij=Hd(hi,hj);如果i=j,dij=hi;...
【专利技术属性】
技术研发人员:臧天宁,强倩,杜飞,周渊,
申请(专利权)人:国家计算机网络与信息安全管理中心,北京锐驰信安技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。