一种面向钓鱼URL检测的相似样本集构造方法技术

技术编号:17467444 阅读:50 留言:0更新日期:2018-03-15 04:59
本发明专利技术提供一种面向钓鱼URL检测的相似样本集构造方法,其步骤包括:提取已知样本集中的若干钓鱼URL分割为单词序列;以单词序列为列,网络钓鱼URL为行构造URL单词矩阵;从URL单词矩阵中选取部分能覆盖前述若干钓鱼URL的单词作为特征词;以特征词为关键词搜索URL,并验证搜索到的URL是否正常,如是,则添加至训练样本集。构造与钓鱼URL强相似的正常URL,而不是从公开平台随机选取合法URL作为训练样本。不依赖于任何先验知识,可以得到与已知钓鱼URL相近的正常URL训练样本集。从而,解决背景技术中提到的机器学习或深度学习的训练样本两极分化十分严重的问题。

A construction method of similar sample set for phishing URL detection

The invention provides a similar sample for fishing URL test set, which comprises the following steps: extracting a number of fishing URL known samples divided into word sequence; the word sequence for the column, phishing URL for constructing URL word matrix; select the part to cover the several fishing URL word from the word matrix in URL as the feature words; to feature words as the keyword search URL, and verify the search to URL is normal, as is, is added to the training set. The normal URL, which is strongly similar to the phishing URL, is constructed rather than the random selection of the legitimate URL from the public platform as a training sample. Without relying on any prior knowledge, a set of normal URL training samples that are similar to the known fishing URL can be obtained. Thus, it is a very serious problem to solve the polarization of the training samples of machine learning or deep learning mentioned in the background technology.

【技术实现步骤摘要】
一种面向钓鱼URL检测的相似样本集构造方法
本专利技术涉及信息安全领域,尤其涉及一种面向钓鱼URL检测的相似样本集构造方法。
技术介绍
网络钓鱼是一种在线身份伪造的欺诈方式,使用社会工程学和技术伪装等攻击手段骗取用户信任,诱导用户主动提供个人资料,从而获得用户身份信息等敏感数据。随着电子商务等技术的快速发展,网络钓鱼的危害逐年增加,反网络钓鱼已经成为当今学术界和工业界的热点话题,钓鱼网站检测对净化网络交易环境,保护用户数据和金融安全有着极其重要的意义。目前,钓鱼网站检测方法可以被分为两种:一种是基于爬虫的检测方法,使用网络爬虫抓取大量与待检测网站相关的数据,根据返回数据判断待检测网站的类型,由于需要爬取和聚合网站的大量信息,所以这种检测方法开销很大并且很难达到实时性的检测要求。另一种是基于URL的检测方法,通过提取一系列URL词法和统计特征,使用机器学习或者深度学习的方法完成对钓鱼网站的检测,这也是当前业界比较流行的技术。无论使用何种检测方法,都需要用标注好的样本集训练检测模型,来检测未知URL的状态。随着互联网技术的发展,网络钓鱼的犯罪成本越来越低,基于URL的检测方法面临的最大问题是用于机器学习或者深度学习的训练样本两极分化现象十分严重。当前钓鱼网站样本主要来自于PhishTank等著名的黑名单列表,而正常网站样本则是来自于DMOZ或者Alexa排名靠前的网站。这样一来,钓鱼网站和正常网站的相似性极低,但是在实际环境中,攻击者往往会试图伪造和正常URL相似的钓鱼URL,因此,已有方法中用的训练样本由于相似性较低,往往造成过拟合的现象,训练好的模型不适合实际网络环境中的钓鱼检测。
技术实现思路
针对上述现有技术存在的不足,本专利技术的目的在于提供一种面向钓鱼URL检测的相似样本集构造方法,构造与钓鱼URL强相似的正常URL,而不是从公开平台随机选取合法URL作为训练样本。不依赖于任何先验知识,可以得到与已知钓鱼URL相近的正常URL训练样本集。从而,解决
技术介绍
中提到的机器学习或深度学习的训练样本两极分化十分严重的问题。为实现上述目的,本专利技术采用的技术方案是:一种面向钓鱼URL检测的相似样本集构造方法,其步骤包括:提取已知样本集中的若干钓鱼URL分割为单词序列;以单词序列为列,网络钓鱼URL为行构造URL单词矩阵;从URL单词矩阵中选取部分能覆盖前述若干钓鱼URL的单词作为特征词;以特征词为关键词搜索URL,并验证搜索到的URL是否正常,如是,则添加至训练样本集。进一步地,所述分割为单词序列包括按照钓鱼URL的结构将其分割为Scheme、FDN、SLD、TLD和Path五段;去掉Scheme段和TLD段,对剩余部分去除特殊符号,基于词典匹配的方式得到该钓鱼URL的单词序列。进一步地,所述URL单词矩阵的输入为URL的单词序列,输出为含有所有输入的URL信息的单词矩阵,URL单词矩阵中的每一行表示一个钓鱼URL,每一列表示一个单词序列中的单词,矩阵中的值表示当前单词在对应钓鱼URL中出现的次数。进一步地,从URL单词矩阵中选取部分能覆盖前述若干钓鱼URL的单词作为特征词包括:根据URL单词矩阵选择能够覆盖前述若干URL的尽可能少的单词作为特征词。进一步地,依据最小集合覆盖方式使用动态规划的策略选择单词作为特征词。进一步地,以特征词为关键词搜索URL包括:通过搜索引擎中的“inurl:”运算符搜索含有前述特征词的URL。进一步地,对以每个特征词的关键词的搜索结果根据PageRank算法返回的前N条URL进行验证。进一步地,所述N的取值范围为60至200。优选100。进一步地,所述验证搜索到的URL是否正常包括:逐条对对以每个特征词的关键词的搜索得到的URL通过多个URL检测器进行检验;如果被测URL被所有URL检测器判断为“cleansite”,就认定该URL是正常的。通过采取上述方法构造面向钓鱼URL检测的相似样本,不需要任何先验知识,就可以得到大量用于训练钓鱼URL检测模型的相似样本集。解决了在使用机器学习进行钓鱼URL检测时,训练数据两极分化十分严重的问题,构造出的正常URL和真实的钓鱼URL在形式上十分相似。此外,该方法使用URL分词、矩阵构造及特征词选择步骤保证构造的正常URL和真实钓鱼URL的之间强相似性,使用URL获取和URL检验步骤保证训练样本的数量和有效性。且由于正样本和负样本具有强相似性,所以应用到机器学习和深度学习中,可以有效提高钓鱼URL的检测率。附图说明图1是本专利技术一实施例中面向钓鱼URL检测的相似样本集构造方法的流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述。参考图1,在一实施例中,提供的面向钓鱼URL检测的相似样本集构造方法,主要步骤包括:1)URL分词,输入的网络钓鱼URL样本来源于PhishTank等公开样本集,随后将网络钓鱼URL分割成单词序列。2)矩阵构造,根据上一步的单词序列构建URL单词矩阵。矩阵中的每一行表示一个网络钓鱼URL,每一列表示一个单词序列中的单词。3)特征词选择,从URL单词矩阵中选择尽可能少的能覆盖所有钓鱼URL的单词作为特征词。4)URL获取,使用高级搜索运算符“inurl:”从搜索引擎中获取一系列包含上述特征词的URL。5)URL检验,根据多个知名的URL检测器的扫描结果检验收集的URL是否正常,并把正常URL添加到训练样本集中。上述URL检测器均选用常用的习知检测器。其中,前述的URL分词,首先从PhishTank等公开的钓鱼网站样本集中获取URL,绝大多数的URL都包括Scheme,Host以及Path三个部分,Scheme表示URL使用的网络协议,Host表示URL所在的主机或域名,Path通常以斜杠分割,表示URL在主机上的路径。Host可以分为可以被用户定义的域名FDN和注册域名RDN,RDN又分为二级域名SLD和顶级域名TLD。因此,按照URL的结构将其分割为Scheme、FDN、SLD、TLD和Path五段。例如,对http://shen.mansell.tripod.com/games/gameboy.html来说,Scheme部分即为http,Host部分包括shen.mansell(FDN)、tripod(SLD)、com(TLD),Path部分为/games/gameboy.html,因此该URL被分为“http”、“shen.mansell”、“tripod”、“com”和“/games/gameboy.html”五段,去掉Scheme和TLD两部分,对剩余部分去除特殊符号后,基于词典匹配的方法得到这条URL的单词序列,该专利技术采用的词典是PeterNorvig公开的谷歌英文单词语料库(包含333,333个英文单词)。该词典是专门统计了web中常用的词,比较适合用来对URL进行分词前述的矩阵构造,输入的是URL的单词序列,输出的是含有所有输入的URL信息的单词矩阵,其中矩阵中的每一行表示一个网络钓鱼URL,每一列表示一个单词序列中的单词,每个值表示当前单词在对应钓鱼URL中出现的次数。前述的的特征词选择,是根据URL单词矩阵选择能够覆盖所有URL的特征词。但是过多本文档来自技高网
...
一种面向钓鱼URL检测的相似样本集构造方法

【技术保护点】
一种面向钓鱼URL检测的相似样本集构造方法,其步骤包括:提取已知样本集中的若干钓鱼URL分割为单词序列;以单词序列为列,网络钓鱼URL为行构造URL单词矩阵;从URL单词矩阵中选取部分能覆盖前述若干钓鱼URL的单词作为特征词;以特征词为关键词搜索URL,并验证搜索到的URL是否正常,如是,则添加至训练样本集。

【技术特征摘要】
1.一种面向钓鱼URL检测的相似样本集构造方法,其步骤包括:提取已知样本集中的若干钓鱼URL分割为单词序列;以单词序列为列,网络钓鱼URL为行构造URL单词矩阵;从URL单词矩阵中选取部分能覆盖前述若干钓鱼URL的单词作为特征词;以特征词为关键词搜索URL,并验证搜索到的URL是否正常,如是,则添加至训练样本集。2.如权利要求1所述的面向钓鱼URL检测的相似样本集构造方法,其特征在于,所述分割为单词序列包括按照钓鱼URL的结构将其分割为Scheme、FDN、SLD、TLD和Path五段;去掉Scheme段和TLD段,对剩余部分去除特殊符号,基于词典匹配的方式得到该钓鱼URL的单词序列。3.如权利要求2所述的面向钓鱼URL检测的相似样本集构造方法,其特征在于,所述URL单词矩阵的输入为URL的单词序列,输出为含有所有输入的URL信息的单词矩阵,URL单词矩阵中的每一行表示一个钓鱼URL,每一列表示一个单词序列中的单词,矩阵中的值表示当前单词在对应钓鱼URL中出现的次数。4.如权利要求3所述的面向钓鱼URL检测的相似样本集构造方法,其特征在于,从URL单词矩...

【专利技术属性】
技术研发人员:时金桥亚静柳厅文舒晓波张振宇张盼盼郭莉
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1