一种钓鱼网站的识别方法及装置制造方法及图纸

技术编号:21120999 阅读:25 留言:0更新日期:2019-05-16 10:41
本发明专利技术实施例提供一种钓鱼网站的识别方法及装置。所述方法包括:获取预设时段内用户的访问网络行为日志,访问网络行为日志包括访问网页信息、访问时刻和用户手机号码;根据黑名单网页库确定目标号码集合,目标号码集合包括访问网页信息为黑名单网页的目标用户手机号码和访问黑名单网页的第一访问时刻;确定与第一访问时刻间隔小于预设时长阈值的第二访问时刻集合和待识别访问网页子集,确定目标号码集合对应的待识别网页集合;将待识别网页集合中的每个待识别访问网页与黑名单网页库进行相似度计算,确定待识别访问网页是否为钓鱼网站。本发明专利技术实施例对可疑网页集合体进行识别,提高了钓鱼网站识别效率。

A Recognition Method and Device for Fishing Website

【技术实现步骤摘要】
一种钓鱼网站的识别方法及装置
本专利技术实施例涉及网络安全
,具体涉及一种钓鱼网站的识别方法及装置。
技术介绍
据工信部的数据显示,截止到2017年5月末,我国移动电话用户总数达到13.88亿户,其中2017年1-5月净增3910万户。2G和3G用户稳步向4G用户转换,4G用户持续爆发式增长,总数达到7.14亿户,占移动电话用户的比重达到54.1%,新形势下,移动支付开始普及并快速发展,电信诈骗问题也逐步凸显。经中国反钓鱼网站联盟10月处理报告显示,截至2017年5月份,联盟累计认定并处理钓鱼网站382969个,其中仅在5月就发现处理了877个钓鱼网站。妄图偷取用户隐私信息的不法分子越来越活跃,恶意钓鱼网站引起诈骗案例层出不穷,这种电信网络新型违法犯罪行为,已成为影响社会稳定和群众安全感的突出犯罪问题,恶意虚假钓鱼攻击已成为全世界共同面临的网络安全问题,是全球互联网行业急需解决的问题,因此加强对钓鱼网站识别的研究具有重要的现实意义。目前有三种钓鱼网站识别方法,分别是URL黑白名单过滤方法,URL机器学习检测方法和基于网页内容的相似度识别方法,其中URL黑白名单过滤方法,前期需要通过人工方式收集黑白名单,主要应用在浏览器上,当用户访问网页时使用黑白名单进行对该网页进行全匹配,这种方法覆盖范围小,对于目前的互联网发展速度,有一定的局限性。URL机器学习检测方法基于各种URL相似度及分类算法,利用已经发现的钓鱼网站进行学习训练,建立起强大的黑名单训练集,当用户访问网页时,根据黑名单训练集对访问网页进行分类,URL机器学习检测方法前提必须收集到足够多的钓鱼网站,然而钓鱼网站的存活时间短,需要及时捕获钓鱼网站进行训练,对系统数据的精确定位和时效性要求非常高。基于网页内容的相似度识别方法是对用户访问网页的元素进行特征挖掘,如URL、域名、图片、组成、页面关键词等,通过分类预测计算进行识别。然而上述三种识别方法对数据利用率较低:都是针对单个网页的内容元素进行特征识别(如URL、域名、IP、网页内容等),属于个体识别技术,在移动互联网中,识别单个网站实际上并不能发挥移动互联网的大数据优势,识别效率较低。
技术实现思路
针对现有技术中的缺陷,本专利技术实施例提供了一种钓鱼网站的识别方法及装置。第一方面,本专利技术实施例提供一种钓鱼网站的识别方法,包括:获取预设时段内用户的访问网络行为日志,所述访问网络行为日志包括访问网页信息、访问时刻和用户手机号码;根据黑名单网页库匹配所述访问网页信息,确定所述访问网络行为日志对应的目标号码集合,所述目标号码集合包括访问网页信息为黑名单网页的目标用户手机号码和所述目标用户手机号码访问黑名单网页的第一访问时刻;根据所述目标用户手机号码对应的访问网络行为日志,确定与所述第一访问时刻间隔小于预设时长阈值的第二访问时刻集合,以及与所述第二访问时刻集合对应的待识别访问网页子集,根据每个所述目标用户手机号码对应的待识别访问网页子集确定所述目标号码集合对应的待识别网页集合;将所述待识别网页集合中的每个待识别访问网页与黑名单网页库进行相似度计算,确定所述待识别访问网页是否为钓鱼网站。第二方面,本专利技术实施例提供一种钓鱼网站的识别装置,包括:获取模块,用于获取预设时段内用户的访问网络行为日志,所述访问网络行为日志包括访问网页信息、访问时刻和用户手机号码;匹配模块,用于根据黑名单网页库匹配所述访问网页信息,确定所述访问网络行为日志对应的目标号码集合,所述目标号码集合包括访问网页信息为黑名单网页的目标用户手机号码和所述目标用户手机号码访问黑名单网页的第一访问时刻;筛选模块,用于根据所述目标用户手机号码对应的访问网络行为日志,确定与所述第一访问时刻间隔小于预设时长阈值的第二访问时刻集合,以及与所述第二访问时刻集合对应的待识别访问网页子集,根据每个所述目标用户手机号码对应的待识别访问网页子集确定所述目标号码集合对应的待识别网页集合;识别模块,用于将所述待识别网页集合中的每个待识别访问网页与黑名单网页库进行相似度计算,确定所述待识别访问网页是否为钓鱼网站。第三方面,本专利技术实施例提供一种电子设备,包括:存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:获取预设时段内用户的访问网络行为日志,所述访问网络行为日志包括访问网页信息、访问时刻和用户手机号码;根据黑名单网页库匹配所述访问网页信息,确定所述访问网络行为日志对应的目标号码集合,所述目标号码集合包括访问网页信息为黑名单网页的目标用户手机号码和所述目标用户手机号码访问黑名单网页的第一访问时刻;根据所述目标用户手机号码对应的访问网络行为日志,确定与所述第一访问时刻间隔小于预设时长阈值的第二访问时刻集合,以及与所述第二访问时刻集合对应的待识别访问网页子集,根据每个所述目标用户手机号码对应的待识别访问网页子集确定所述目标号码集合对应的待识别网页集合;将所述待识别网页集合中的每个待识别访问网页与黑名单网页库进行相似度计算,确定所述待识别访问网页是否为钓鱼网站。第四方面,本专利技术实施例提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如下方法:获取预设时段内用户的访问网络行为日志,所述访问网络行为日志包括访问网页信息、访问时刻和用户手机号码;根据黑名单网页库匹配所述访问网页信息,确定所述访问网络行为日志对应的目标号码集合,所述目标号码集合包括访问网页信息为黑名单网页的目标用户手机号码和所述目标用户手机号码访问黑名单网页的第一访问时刻;根据所述目标用户手机号码对应的访问网络行为日志,确定与所述第一访问时刻间隔小于预设时长阈值的第二访问时刻集合,以及与所述第二访问时刻集合对应的待识别访问网页子集,根据每个所述目标用户手机号码对应的待识别访问网页子集确定所述目标号码集合对应的待识别网页集合;将所述待识别网页集合中的每个待识别访问网页与黑名单网页库进行相似度计算,确定所述待识别访问网页是否为钓鱼网站。本专利技术实施例提供的钓鱼网站的识别方法,根据预设时段内的用户访问网络行为日志,确定访问黑名单网页的目标号码集合,根据访问黑名单网页的访问时刻确定访问可疑网页的访问时刻,利用了用户访问网页行为时存在时间前后顺序的链式网络行为,通过点面发散的思维,从发现一个目标号码范围到发现一群可疑网页范围的模式,进行可疑网页集群定位,在大数据环境中快速圈定目标可疑危险网站范围,减少系统资源检索,对可疑网页集合体进行识别,提高了钓鱼网站识别效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的钓鱼网站的识别方法流程示意图;图2为本专利技术又一实施例提供的钓鱼网站的识别方法流程示意图;图3为本专利技术实施例提供的钓鱼网站的识别装置结构示意图;图4为本专利技术实施例提供的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实本文档来自技高网
...

【技术保护点】
1.一种钓鱼网站的识别方法,其特征在于,包括:获取预设时段内用户的访问网络行为日志,所述访问网络行为日志包括访问网页信息、访问时刻和用户手机号码;根据黑名单网页库匹配所述访问网页信息,确定所述访问网络行为日志对应的目标号码集合,所述目标号码集合包括访问网页信息为黑名单网页的目标用户手机号码和所述目标用户手机号码访问黑名单网页的第一访问时刻;根据所述目标用户手机号码对应的访问网络行为日志,确定与所述第一访问时刻间隔小于预设时长阈值的第二访问时刻集合,以及与所述第二访问时刻集合对应的待识别访问网页子集,根据每个所述目标用户手机号码对应的待识别访问网页子集确定所述目标号码集合对应的待识别网页集合;将所述待识别网页集合中的每个待识别访问网页与黑名单网页库进行相似度计算,确定所述待识别访问网页是否为钓鱼网站。

【技术特征摘要】
1.一种钓鱼网站的识别方法,其特征在于,包括:获取预设时段内用户的访问网络行为日志,所述访问网络行为日志包括访问网页信息、访问时刻和用户手机号码;根据黑名单网页库匹配所述访问网页信息,确定所述访问网络行为日志对应的目标号码集合,所述目标号码集合包括访问网页信息为黑名单网页的目标用户手机号码和所述目标用户手机号码访问黑名单网页的第一访问时刻;根据所述目标用户手机号码对应的访问网络行为日志,确定与所述第一访问时刻间隔小于预设时长阈值的第二访问时刻集合,以及与所述第二访问时刻集合对应的待识别访问网页子集,根据每个所述目标用户手机号码对应的待识别访问网页子集确定所述目标号码集合对应的待识别网页集合;将所述待识别网页集合中的每个待识别访问网页与黑名单网页库进行相似度计算,确定所述待识别访问网页是否为钓鱼网站。2.根据权利要求1所述的方法,其特征在于,所述根据黑名单网页库匹配所述访问网页信息,确定所述访问网络行为日志对应的目标号码集合,所述目标号码集合包括访问网页信息为黑名单网页的目标用户手机号码和所述目标用户手机号码访问黑名单网页的第一访问时刻,包括:匹配白名单网页库和所述访问网页信息,对所述访问网络行为日志进行筛选,确定筛选后的访问网络行为日志;根据黑名单网页库匹配所述筛选后的访问网络行为日志对应的访问网页信息,确定访问网页信息为黑名单网页的目标用户手机号码和所述目标用户手机号码访问黑名单网页的第一访问时刻;根据所述目标用户手机号码和所述第一访问时刻确定所述访问网络行为日志对应的目标号码集合。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述目标用户手机号码对应的访问网络行为日志,确定与所述第一访问时刻间隔小于预设时长阈值的第二访问时刻集合,以及与所述第二访问时刻集合对应的待识别访问网页子集,根据每个所述目标用户手机号码对应的待识别访问网页子集确定所述目标号码集合对应的待识别网页集合,包括:根据所述黑名单网页库中存在链接关系的黑名单网页对,确定所述目标号码集合中,访问所述黑名单网页对的访问时刻间隔集合;确定所述访问时刻间隔集合中每个访问时刻间隔在所述访问时刻间隔集合中出现的概率,根据所述概率,确定预设时长阈值;根据所述目标用户手机号码对应的访问网络行为日志,确定与所述第一访问时刻间隔小于所述预设时长阈值的第二访问时刻集合,以及与所述第二访问时刻集合对应的待识别访问网页子集;根据每个所述目标用户手机号码对应的待识别访问网页子集确定所述目标号码集合对应的待识别网页集合。4.根据权利要求3所述的方法,其特征在于,所述将所述待识别网页集合中的每个待识别访问网页与黑名单网页库进行相似度计算,确定所述待识别访问网页是否为钓鱼网站,包括:访问所述待识别网页集合中的每个待识别访问网页;爬取所述待识别访问网页中的关键词,根据所述关键词确定所述待识别访问网页的特征向量;计算所述待识别...

【专利技术属性】
技术研发人员:李彬袁静郝建忠郑浩彬钟雪慧吕汉鑫
申请(专利权)人:中国移动通信集团广东有限公司中国移动通信集团公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1