The invention provides a similar sample for fishing URL test set, which comprises the following steps: extracting a number of fishing URL known samples divided into word sequence; the word sequence for the column, phishing URL for constructing URL word matrix; select the part to cover the several fishing URL word from the word matrix in URL as the feature words; to feature words as the keyword search URL, and verify the search to URL is normal, as is, is added to the training set. The normal URL, which is strongly similar to the phishing URL, is constructed rather than the random selection of the legitimate URL from the public platform as a training sample. Without relying on any prior knowledge, a set of normal URL training samples that are similar to the known fishing URL can be obtained. Thus, it is a very serious problem to solve the polarization of the training samples of machine learning or deep learning mentioned in the background technology.
【技术实现步骤摘要】
一种面向钓鱼URL检测的相似样本集构造方法
本专利技术涉及信息安全领域,尤其涉及一种面向钓鱼URL检测的相似样本集构造方法。
技术介绍
网络钓鱼是一种在线身份伪造的欺诈方式,使用社会工程学和技术伪装等攻击手段骗取用户信任,诱导用户主动提供个人资料,从而获得用户身份信息等敏感数据。随着电子商务等技术的快速发展,网络钓鱼的危害逐年增加,反网络钓鱼已经成为当今学术界和工业界的热点话题,钓鱼网站检测对净化网络交易环境,保护用户数据和金融安全有着极其重要的意义。目前,钓鱼网站检测方法可以被分为两种:一种是基于爬虫的检测方法,使用网络爬虫抓取大量与待检测网站相关的数据,根据返回数据判断待检测网站的类型,由于需要爬取和聚合网站的大量信息,所以这种检测方法开销很大并且很难达到实时性的检测要求。另一种是基于URL的检测方法,通过提取一系列URL词法和统计特征,使用机器学习或者深度学习的方法完成对钓鱼网站的检测,这也是当前业界比较流行的技术。无论使用何种检测方法,都需要用标注好的样本集训练检测模型,来检测未知URL的状态。随着互联网技术的发展,网络钓鱼的犯罪成本越来越低,基于URL的检测方法面临的最大问题是用于机器学习或者深度学习的训练样本两极分化现象十分严重。当前钓鱼网站样本主要来自于PhishTank等著名的黑名单列表,而正常网站样本则是来自于DMOZ或者Alexa排名靠前的网站。这样一来,钓鱼网站和正常网站的相似性极低,但是在实际环境中,攻击者往往会试图伪造和正常URL相似的钓鱼URL,因此,已有方法中用的训练样本由于相似性较低,往往造成过拟合的现象,训练好的模型不适合 ...
【技术保护点】
一种面向钓鱼URL检测的相似样本集构造方法,其步骤包括:提取已知样本集中的若干钓鱼URL分割为单词序列;以单词序列为列,网络钓鱼URL为行构造URL单词矩阵;从URL单词矩阵中选取部分能覆盖前述若干钓鱼URL的单词作为特征词;以特征词为关键词搜索URL,并验证搜索到的URL是否正常,如是,则添加至训练样本集。
【技术特征摘要】
1.一种面向钓鱼URL检测的相似样本集构造方法,其步骤包括:提取已知样本集中的若干钓鱼URL分割为单词序列;以单词序列为列,网络钓鱼URL为行构造URL单词矩阵;从URL单词矩阵中选取部分能覆盖前述若干钓鱼URL的单词作为特征词;以特征词为关键词搜索URL,并验证搜索到的URL是否正常,如是,则添加至训练样本集。2.如权利要求1所述的面向钓鱼URL检测的相似样本集构造方法,其特征在于,所述分割为单词序列包括按照钓鱼URL的结构将其分割为Scheme、FDN、SLD、TLD和Path五段;去掉Scheme段和TLD段,对剩余部分去除特殊符号,基于词典匹配的方式得到该钓鱼URL的单词序列。3.如权利要求2所述的面向钓鱼URL检测的相似样本集构造方法,其特征在于,所述URL单词矩阵的输入为URL的单词序列,输出为含有所有输入的URL信息的单词矩阵,URL单词矩阵中的每一行表示一个钓鱼URL,每一列表示一个单词序列中的单词,矩阵中的值表示当前单词在对应钓鱼URL中出现的次数。4.如权利要求3所述的面向钓鱼URL检测的相似样本集构造方法,其特征在于,从URL单词矩...
【专利技术属性】
技术研发人员:时金桥,亚静,柳厅文,舒晓波,张振宇,张盼盼,郭莉,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。