一种基于视觉特征的仿冒域名轻量级检测方法及系统技术方案

技术编号:23315772 阅读:82 留言:0更新日期:2020-02-11 18:02
本发明专利技术公开了一种基于视觉特征的仿冒域名轻量级检测方法及系统,采用仅基于域名字符串的的轻量级检测策略进行仿冒域名检测,减小了计算和存储开销,适合应用在大规模DNS应用环境下的场景检测,此外,提出了域名视觉相似度的计算方法,通过考虑字符的位置、字符相似度、操作种类对于字符串相似度的影响,对它们赋予不同的权重来改进传统的编辑距离算法,一方面能解决传统编辑距离在仿冒域名检测上带来的假阳性问题,另一方面,从视觉角度检测仿冒域名可以很好的处理域名视觉模仿的情况,进而提高仿冒域名的检测精确度。本发明专利技术弥补了传统基于编辑距离设计的检测方法带来的不足,提高了仿冒域名的检测效率。

A lightweight detection method and system of counterfeit domain name based on visual features

【技术实现步骤摘要】
一种基于视觉特征的仿冒域名轻量级检测方法及系统
本专利技术属于信息安全领域,尤其涉及一种基于视觉特征的仿冒域名轻量级检测方法及系统,属于仿冒域名防护技术。
技术介绍
作为互联网的基础,域名系统的重要性不言而喻,但近年来域名系统却频繁受到恶意攻击或因故障瘫痪,给网络安全造成极大冲击。域名系统的安全性之所以难以保证主要是由于互联网本质上是一个开放的系统,其结构复杂且缺乏足够的自身安全防护机制。在DNS遭受的网络攻击中,仿冒域名(Typosquatting)因攻击成本低、危害范围广、盈利手段多样化等特点,已经成为威胁互联网安全运行的重要问题之一。仿冒域名是一种域名抢注行为,指抢先注册网络使用者因输入错误而访问的域名,以期望用户访问仿冒域名而非目标网站域名。仿冒域名通常是与流行的知名域名非常相似的域名。大量的仿冒域名站点被攻击者用来显示广告、将流量重定向到第三方页面、部署钓鱼网站或提供恶意软件而从中获利。例如,攻击者注册facebo0k.com、microsolt.com等域名,当网络使用者不小心错误输入时,就会访问这些网站,攻击者由此牟取非法本文档来自技高网...

【技术保护点】
1.一种基于视觉特征的仿冒域名轻量级检测系统,其特征在于:包括目标域名集收集模块、候选仿冒域名集构建模块和仿冒域名检测模块;目标域名集收集模块、候选仿冒域名集构建模块和仿冒域名检测模块顺次连接;/n为实现使用加权编辑距离算法对仿冒域名进行检测,首先,通过目标域名集收集模块收集目标域名集,通过Python编程爬取Alexa排名靠前的域名;利用候选仿冒域名集构建模块中的NCC Group在Github上开源的typofinder工具构造得到候选仿冒域名集;为了使仿冒域名检测更符合人的视觉感官以及解决编辑距离带来的假阳性错误,提出复合权重的概念对编辑距离算法进行改进;最后,在收集和构造的数据集的基础...

【技术特征摘要】
1.一种基于视觉特征的仿冒域名轻量级检测系统,其特征在于:包括目标域名集收集模块、候选仿冒域名集构建模块和仿冒域名检测模块;目标域名集收集模块、候选仿冒域名集构建模块和仿冒域名检测模块顺次连接;
为实现使用加权编辑距离算法对仿冒域名进行检测,首先,通过目标域名集收集模块收集目标域名集,通过Python编程爬取Alexa排名靠前的域名;利用候选仿冒域名集构建模块中的NCCGroup在Github上开源的typofinder工具构造得到候选仿冒域名集;为了使仿冒域名检测更符合人的视觉感官以及解决编辑距离带来的假阳性错误,提出复合权重的概念对编辑距离算法进行改进;最后,在收集和构造的数据集的基础上,运用仿冒域名检测模块对仿冒域名进行检测。


2.一种基于视觉特征的仿冒域名轻量级检测方法,其特征在于:流程如下,
S1目标域名集收集
收集来自Alexa排名前500的域名作为目标域名集;由于Alexa根据域名三个月累积的访问信息为排名依据,因此使用这些数据作为白名单;
S2候选仿冒域名集构建
正样本数据构造:对于Alexa排名前500的域名,利用NCCGroup在Github上开源的typofinder工具获得其仿冒域名列表;typofinder基于已知常见的仿冒域名构造模式对给定域名构建可能的候选仿冒域名列表,并主动获取每个候选域名的相关信息来判定其是否为真实的仿冒域名,因而准确率相对较高;对这500个域名,限制域名长度为20以内,总计获取了5000个仿冒域名,构成本实验数据的正样本;
负样本数据构造:从Alexa排名前10000个域名中随机选择,域名长度同样限制为不超过20,构造了5000个域名对,为了更好地观察在短域名上的检测效果,限制域名对的编辑距离不超过3;Alexa前10000个域名基本都是访问量比较大的知名域名,因此判定这其中的任何一个域名都不会是另外一个网站的仿冒域名,由此构成本实验数据的负样本;
S3仿冒域名检测
S3.1基于视觉特征的仿冒域名测量机制设计;
通常距离算法中并没有考虑域名字符的位置、字符相似度、操作类型因素,统一赋值为相同的权重;从机器的角度考虑,编辑距离能够测量两个字符串的相似度;但是,在面对域名时,人的视觉却与机器的“视觉”不同,字符的位置、字符相似度、操作种类都可能影响该域名是否是仿冒域名的判断;考虑字符位置、字符相似度、操作种类对字符串相似度的影响,
S3.2域名仿冒度评估
在域名仿冒度评估中,判定一个域名是否为仿冒域名是相对一个知...

【专利技术属性】
技术研发人员:朱怡宁振虎王小平
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1