一种数据源扩展方法及装置制造方法及图纸

技术编号:14817712 阅读:47 留言:0更新日期:2017-03-15 11:45
本发明专利技术提供一种数据源扩展方法及装置,以全部已知的统一资源定位符数据为基础,得到统一资源定位符模板,并对统一资源定位符模板进行扩展,得到每个统一资源定位符模板对应的可视为钓鱼网站的统一资源定位符数据,实现钓鱼网站的自行主动获取,有效降低钓鱼发现的滞后性与人工依赖的问题。并且通过上述方式可以扩大检测范围,降低利益损失,且可以将已知钓鱼网站的统一资源定位符数据作为基础进行扩展,从而提高已知的钓鱼网站的二次利用率。

【技术实现步骤摘要】

本专利技术属于互联网安全检测
,更具体的说,尤其涉及一种数据源扩展方法及装置
技术介绍
互联网作为现代生活的重要组成部分,已经广泛地被各种团体和组织用于在线贸易和服务等事宜,这也导致互联网更容易受到来自各方的安全攻击。比如网络钓鱼作为安全攻击的一种形式,通过模仿合法网站的页面内容创建钓鱼网站,并诱导用户访问钓鱼网站,以窃取用户的个人隐私信息,如用户名、银行账号和密码等。随着互联网的快速发展,在利益的驱使下,从事网络钓鱼攻击的黑色产业链呈逐渐上升趋势,因此针对钓鱼网站的检测方法在电子商务和金融证券等企业的安全运营中起着越来越重要的地位。目前针对钓鱼网站的检测方法主要集中在检测算法领域,即研究高效和准确的检测算法对网站进行检测,以从众多网站中查找到钓鱼网站。而在检测方法所针对的数据源(即可能的钓鱼网站)来说,数据源的发现都是依赖于广大网民的举报,在这种方式下,钓鱼网站的检测较为被动,不具备主动发现的能力,且对于已知的钓鱼网站的二次利用率较低。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种数据源扩展方法及装置,用于提高已知的钓鱼网站的二次利用率,扩大检测范围,并有效降低钓鱼发现的滞后性与人工依赖的问题。技术方案如下:本专利技术提供一种数据源扩展方法,所述方法包括:获取全部已知的统一资源定位符数据,其中所述全部已知的统一资源定位符数据至少包括已知钓鱼网站的统一资源定位符数据;对所述全部已知的统一资源定位符数据进行两两对比,得到多个统一资源定位符模板;对每个所述统一资源定位符模板进行扩展,得到每个所述统一资源定位符模板对应的可视为钓鱼网站的统一资源定位符数据。优选地,在获取全部已知的统一资源定位符数据之后,在对所述全部已知的统一资源定位符数据进行两两对比之前,所述方法还包括:获取每个统一资源定位符数据的二级域名,形成二级域名集合列表;根据所述二级域名集合列表中的顶级域名进行分类,得到具有不同顶级域名的子二级域名集合列表;对每个子二级域名集合列表中的统一资源定位符数据进行排序,以使相似度较高的统一资源定位符数据在排序中相邻。优选地,所述对每个子二级域名集合列表中的统一资源定位符数据进行排序,以使相似度较高的统一资源定位符数据在排序中相邻,包括:基于预设连字符,对每个子二级域名集合列表中的统一资源定位符数据进行分类,得到含有所述预设连字符的统一资源定位符数据和不含有所述预设连字符的统一资源定位符数据;对含有所述预设连字符的统一资源定位符数据和不含有所述预设连字符的统一资源定位符数据依次按照长度和字母顺序进行排序。优选地,所述对所述全部已知的统一资源定位符数据进行两两对比,得到多个统一资源定位符模板,包括:当第i个统一资源定位符数据和第i+1个统一资源定位符数据的长度相同时,依次比较所述第i个统一资源定位符数据和第i+1个统一资源定位符数据中的每个位置处的字符,i为自然数,且i=1,2,……,m-1,m为统一资源定位符数据的总数;当所述第j个位置处的字符相同时,记录下第j个位置处的字符,并继续比较下一个字符,j=1,2,…..,n,n为第i个统一资源定位符数据中字符总数;当所述第j个位置处的字符不同时,获取所述第i个统一资源定位符数据和第i+1个统一资源定位符数据中第j个位置处的字符的类型;当所述第i个统一资源定位符数据和第i+1个统一资源定位符数据中第j个位置处的字符的类型为数字类型时,以第一预设替换符号替换所述第j个位置处的字符;当所述第i个统一资源定位符数据和第i+1个统一资源定位符数据中第j个位置处的字符的类型为字母类型时,以第二预设替换符号替换所述第j个位置处的字符;当所述第i个统一资源定位符数据中第j个位置处的字符的类型和第i+1个统一资源定位符数据中第j个位置处的字符的类型不同时,以所述第i个URL数据中第j个位置处的字符的类型对应的预设替换符号来替换第j个位置处的字符;当所述第i个统一资源定位符数据或第i+1个统一资源定位符数据中第j个位置处的字符为预设连字符时,以不是所述预设连字符的第j个位置处的字符的类型对应的预设替换符号来替换所述第j个位置处的字符;对所有不同字符替换后的统一资源定位符数据为所述第i个统一资源定位符数据和第i+1个统一资源定位符数据对应的统一资源定位符模板。优选地,所述对每个所述统一资源定位符模板进行扩展,得到每个所述统一资源定位符模板对应的可视为钓鱼网站的统一资源定位符数据,包括:对所述统一资源定位符模板进行次数统计,得到一有序的统一资源定位符模板列表;保留所述统一资源定位符模板列表中符合预设条件的所述统一资源定位符模板;对保留的所述统一资源定位符模板进行扩展,其中扩展过程包括:依次采用所述第一预设替换符号对应类型的全部字符依次替换所述统一资源定位符模板中的所述第一预设替换符号以及采用所述第二预设替换符号对应类型的全部字符依次替换所述统一资源定位符模板中的所述第二预设替换符号,得到每个所述统一资源定位符模板对应的扩展后的统一资源定位符数据;将扩展后的统一资源定位符数据与全部已知的统一资源定位符数据进行去重处理,得到全部可视为钓鱼网站的统一资源定位符数据。另一方面,本专利技术还提供一种数据源扩展装置,所述装置包括:获取单元,用于获取全部已知的统一资源定位符数据,其中所述全部已知的统一资源定位符数据至少包括已知钓鱼网站的统一资源定位符数据;对比单元,用于对所述全部已知的统一资源定位符数据进行两两对比,得到多个统一资源定位符模板;扩展单元,用于对每个所述统一资源定位符模板进行扩展,得到每个所述统一资源定位符模板对应的可视为钓鱼网站的统一资源定位符数据。优选地,所述装置还包括:列表形成单元,用于获取每个统一资源定位符数据的二级域名,形成二级域名集合列表;分类单元,用于根据所述二级域名集合列表中的顶级域名进行分类,得到具有不同顶级域名的子二级域名集合列表;排序单元,用于对每个子二级域名集合列表中的统一资源定位符数据进行排序,以使相似度较高的统一资源定位符数据在排序中相邻。优选地,所述排序单元,包括:分类子单元,用于基于预设连字符,对每个子二级域名集合列表中的统一资源定位符数据进行分类,得到含有所述预设连字符的统一资源定位符数据和不含有所述预设连字符的统一资源定位符数据;排序子单元,用于对含有所述预设连字符的统一资源定位符数据和不含有所述预设连字符的统一资源定位符数据依次按照长度和字母顺序进行排序。优选地,所述对比单元,包括:比较子单元,用于当第i个统一资源定位符数据和第i+1个统一资源定位符数据的长度相同时,依次比较所述第i个统一资源定位符数据和第i+1个统一资源定位符数据中的每个位置处的字符,i为自然数,且i=1,2,……,m-1,m为统一资源定位符数据的总数;记录子单元,用于当所述第j个位置处的字符相同时,记录下第j个位置处的字符,并触发所述比较子单元继续比较下一个字符,j=1,2,…..,n,n为第i个统一资源定位符数据中字符总数;获取子单元,用于当所述第j个位置处的字符不同时,获取所述第i个统一资源定位符数据和第i+1个统一资源定位符数据中第j个位置处的字符的类型;第一替换子单元,用于当所述第i个统一资源定位符数据和第i+1个统一资源定位符数据中第j个位置处的字符的类本文档来自技高网...
一种数据源扩展方法及装置

【技术保护点】
一种数据源扩展方法,其特征在于,所述方法包括:获取全部已知的统一资源定位符数据,其中所述全部已知的统一资源定位符数据至少包括已知钓鱼网站的统一资源定位符数据;对所述全部已知的统一资源定位符数据进行两两对比,得到多个统一资源定位符模板;对每个所述统一资源定位符模板进行扩展,得到每个所述统一资源定位符模板对应的可视为钓鱼网站的统一资源定位符数据。

【技术特征摘要】
1.一种数据源扩展方法,其特征在于,所述方法包括:获取全部已知的统一资源定位符数据,其中所述全部已知的统一资源定位符数据至少包括已知钓鱼网站的统一资源定位符数据;对所述全部已知的统一资源定位符数据进行两两对比,得到多个统一资源定位符模板;对每个所述统一资源定位符模板进行扩展,得到每个所述统一资源定位符模板对应的可视为钓鱼网站的统一资源定位符数据。2.根据权利要求1所述的方法,其特征在于,在获取全部已知的统一资源定位符数据之后,在对所述全部已知的统一资源定位符数据进行两两对比之前,所述方法还包括:获取每个统一资源定位符数据的二级域名,形成二级域名集合列表;根据所述二级域名集合列表中的顶级域名进行分类,得到具有不同顶级域名的子二级域名集合列表;对每个子二级域名集合列表中的统一资源定位符数据进行排序,以使相似度较高的统一资源定位符数据在排序中相邻。3.根据权利要求2所述的方法,其特征在于,所述对每个子二级域名集合列表中的统一资源定位符数据进行排序,以使相似度较高的统一资源定位符数据在排序中相邻,包括:基于预设连字符,对每个子二级域名集合列表中的统一资源定位符数据进行分类,得到含有所述预设连字符的统一资源定位符数据和不含有所述预设连字符的统一资源定位符数据;对含有所述预设连字符的统一资源定位符数据和不含有所述预设连字符的统一资源定位符数据依次按照长度和字母顺序进行排序。4.根据权利要求1或2所述的方法,其特征在于,所述对所述全部已知的统一资源定位符数据进行两两对比,得到多个统一资源定位符模板,包括:当第i个统一资源定位符数据和第i+1个统一资源定位符数据的长度相同时,依次比较所述第i个统一资源定位符数据和第i+1个统一资源定位符数据中的每个位置处的字符,i为自然数,且i=1,2,……,m-1,m为统一资源定位符数据的总数;当所述第j个位置处的字符相同时,记录下第j个位置处的字符,并继续比较下一个字符,j=1,2,…..,n,n为第i个统一资源定位符数据中字符总数;当所述第j个位置处的字符不同时,获取所述第i个统一资源定位符数据和第i+1个统一资源定位符数据中第j个位置处的字符的类型;当所述第i个统一资源定位符数据和第i+1个统一资源定位符数据中第j个位置处的字符的类型为数字类型时,以第一预设替换符号替换所述第j个位置处的字符;当所述第i个统一资源定位符数据和第i+1个统一资源定位符数据中第j个位置处的字符的类型为字母类型时,以第二预设替换符号替换所述第j个位置处的字符;当所述第i个统一资源定位符数据中第j个位置处的字符的类型和第i+1个统一资源定位符数据中第j个位置处的字符的类型不同时,以所述第i个URL数据中第j个位置处的字符的类型对应的预设替换符号来替换第j个位置处的字符;当所述第i个统一资源定位符数据或第i+1个统一资源定位符数据中第j个位置处的字符为预设连字符时,以不是所述预设连字符的第j个位置处的字符的类型对应的预设替换符号来替换所述第j个位置处的字符;对所有不同字符替换后的统一资源定位符数据为所述第i个统一资源定位符数据和第i+1个统一资源定位符数据对应的统一资源定位符模板。5.根据权利要求4所述的方法,其特征在于,所述对每个所述统一资源定位符模板进行扩展,得到每个所述统一资源定位符模板对应的可视为钓鱼网站的统一资源定位符数据,包括:对所述统一资源定位符模板进行次数统计,得到一有序的统一资源定位符模板列表;保留所述统一资源定位符模板列表中符合预设条件的所述统一资源定位符模板;对保留的所述统一资源定位符模板进行扩展,其中扩展过程包括:依次采用所述第一预设替换符号对应类型的全部字符依次替换所述统一资源定位符模板中的所述第一预设替换符号以及采用所述第二预设替换符号对应类型的全部字符依次替换所述统一资源定位符模板中的所述第二预设替换符号,得到每个所述统一资源定位符模板对应的扩展后的统一资源定位符数据;将扩展后的统一资源定位符数据与全部已知的统一资源定位符数据进行去重处理,得到全部可视为钓鱼网站的统一资源定位符数...

【专利技术属性】
技术研发人员:李晓东李雪妮耿光刚陈勇
申请(专利权)人:中国互联网络信息中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1