标识检测及仿冒站点检测方法、装置、设备及存储介质制造方法及图纸

技术编号:20242743 阅读:23 留言:0更新日期:2019-01-29 23:27
本发明专利技术涉及互联网技术领域,公开了一种标识检测及仿冒站点检测方法、装置、设备及存储介质,所述仿冒站点检测方法包括:获取可疑站点,可疑站点的域名不在白名单中,白名单中包括保护站点的域名;检测可疑站点的站点页面中是否包含敏感内容;获取可疑站点的站点页面的截图,记为第一图像;检测第一图像中是否包含保护站点的特征标识;若第一图像中包含保护站点的特征标识,且可疑站点的站点页面中包含敏感内容,则将可疑站点标记为仿冒站点。本发明专利技术实施例提供的技术方案,有效地提高了检测仿冒站点的准确率和检测性能。

【技术实现步骤摘要】
标识检测及仿冒站点检测方法、装置、设备及存储介质
本专利技术涉及互联网
,尤其涉及一种标识检测及仿冒站点检测方法、装置、设备及存储介质。
技术介绍
仿冒站点,即不法分子在互联网上伪造的知名站点,不法分子通过仿冒站点诱导客户输入用户名、密码、身份证号等敏感信息,达到窃取用户信息或者骗取用户钱财的目的。目前监测仿冒站点的方式主要有三种:第一种、域名特征检测法,即根据URL(统一资源定位符,UniformResourceLocator)特征、不使用https、非常用端口或者域名与知名站点的编辑距离等特征进行检测。第二种、内容特征检测法,即检测站点页面中的内容是否具有仿冒站点的内容特征,例如,仿冒站点的页面内容中存在很多隐藏hidden标签,且标签内有大量无关内容、大量外链等。第三种、图像比对检测法,即将待检测的站点页面截图后与保护站点的页面截图的进行图像相似度比较,若相似度较高则认为该待检测的站点为仿冒站点。基于域名特征和内容特征的检测方式存在大量误报,比如目前大多数站点的静态资源(脚本/图片)都放在另外一台服务器上,所以大量外链的站点不一定是仿冒站点。而基于图像比对的检测方式,通常采用的是滑动窗口比对的方式,假设仿冒站点的页面截图的高度和宽度分别为Hp和Wp,而知名站定的页面截图的高度和宽度为Hl和Wl,则需要滑动比对(Hp-Hl+1)×(Wp-Wl+1)次,这意味着在页面截图像素宽高为数百像素时需要进行数万次的比对。此外,不法分子并不会直接照搬知名站点的页面内容,而是会对知名站点的页面内容进行调色、形变、改变页面布局等处理后生成迷惑用户的仿冒站点页面,处理后的仿冒站点与知名站点的页面间的相似度较低,导致无法识别出仿冒站点。因此,现有的图像比对检测方式计算量大且漏检率较高。
技术实现思路
本专利技术实施例提供一种标识检测及仿冒站点检测方法、装置、设备及存储介质,以解决现有技术中仿冒站点的检测效率低、准确率低的问题。第一方面,本专利技术一实施例提供了一种标识检测方法,包括:获取待检测的第一图像;对第一图像中相邻的像素点进行聚类,并根据聚类结果将第一图像分割为多个有效区域;将多个有效区域分别与特征标识进行比对,以确定第一图像中是否包含特征标识。第二方面,本专利技术一实施例提供了一种仿冒站点检测方法,包括:获取可疑站点,可疑站点的域名不在白名单中,白名单中包括保护站点的域名;检测可疑站点的站点页面中是否包含敏感内容;获取可疑站点的站点页面的截图,记为第一图像;根据第一方面中的任一方法检测第一图像中是否包含保护站点的特征标识;若第一图像中包含保护站点的特征标识,且可疑站点的站点页面中包含敏感内容,则将可疑站点标记为仿冒站点。第三方面,本专利技术一实施例提供了一种标识检测装置,包括:图像获取模块,用于获取待检测的第一图像;聚类模块,用于对第一图像中相邻的像素点进行聚类;区域分割模块,用于根据聚类结果将第一图像分割为多个有效区域;标识比对模块,用于将多个有效区域分别与特征标识进行比对,以确定第一图像中是否包含特征标识。第四方面,本专利技术一实施例提供了一种仿冒站点检测装置,包括:可疑站点获取模块,用于获取可疑站点,可疑站点的域名不在白名单中,白名单中包括保护站点的域名;敏感内容检测模块,用于检测可疑站点的站点页面中是否包含敏感内容;截图模块,用于获取可疑站点的站点页面的截图,记为第一图像;标识检测模块,用于根据第一方面中的任一方法检测第一图像中是否包含保护站点的特征标识;判断模块,用于若第一图像中包含保护站点的特征标识,且可疑站点的站点页面中包含敏感内容,则将可疑站点标记为仿冒站点。第五方面,本专利技术一实施例提供了一种电子设备,包括收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,收发机用于在处理器的控制下接收和发送数据,处理器执行程序时实现上述任一种方法的步骤。第六方面,本专利技术一实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现上述任一种方法的步骤。本专利技术实施例提供的技术方案,结合了敏感词检测和特征标识比对两种检测方式,当可疑站点中同时包含敏感词和特征标识时才认定该可疑站点为仿冒站点,有效地提高了仿冒站点检测的准确率。此外,在检测特征标识的过程中,先对站点页面截图的像素点进行聚类得到多个区域,再根据区域间相似度对于区域进一步聚合得到有效区域,然后提取有效区域和保护站点的特征标识的特征点,通过比对特征点距离,从而得到站点页面中是否包含保护站点的特征标识的判断,一方面提升了检测性能和效率,另一方面能够有效地检测出被不法分子调色、变形后的特征标识,降低了漏报率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍,显而易见地,下面所介绍的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的标识检测方法的流程示意图;图2为本专利技术一实施例提供的标识检测方法中对像素点进行聚类的流程示意图;图3为本专利技术一实施例提供的标识检测方法中分割有效区域的流程示意图;图4为本专利技术一实施例提供的标识检测方法中特征标识比对的流程示意图;图5为本专利技术实施例提供的仿冒站点检测方法的应用场景示意图;图6为本专利技术一实施例提供的仿冒站点检测方法的流程示意图;图7为本专利技术一实施例提供的标识检测装置的结构示意图;图8为本专利技术一实施例提供的仿冒站点检测装置的结构示意图;图9为本专利技术一实施例提供的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。在具体实践过程中,基于域名特征和内容特征的检测方式存在大量误报,而基于图像比对的检测方式计算量大且漏检率较高。为此,本专利技术的专利技术人考虑到,不法分子虽然会通过修改页面的样式、内容等手段来通过现有的仿冒站点检测,但是,为了迷惑普通网民,大多数情况下仿冒站点还是会保留知名站点的特征标识,如能起到显著标识作用的商标、徽标等。本实施例的方案利用仿冒站点必定会包含知名站点的特征标识的特性,通过将可疑站点的页面与知名站点的特征标识进行比对来检测仿冒站点。此外,考虑到为了窃取用户的钱财或信息,仿冒站点通常会需要用户输入银行卡号、账号、密码、身份信息等重要信息,因此,本实施例的方案在基于特征标识进行检测的基础上,还结合了通过检测可疑站点的页面中是否包含敏感内容来检测仿冒站点的方案,进一步提高检测结果的准确性。而专利技术人考虑到现有的整体图像比对方法存在处理数据量大、效率较低等问题,进一步地提出了先提取可疑站点页面中的有效区域,在将有效区域与知名站点的特征标识进行比较,以便减少比对的数据量,提高检测效率。在介绍了本专利技术的基本原理之后,下面具体介绍本专利技术的各种非限制性实施方式。参考图1,本专利技术实施例提供一种标识检测方法,包括以下步骤:S101、获取待检测的第一图像。S102、对第一图像中相邻的像素点进行聚类。其中,聚类的目的是将相似的像素点划分到一个区域内。本文档来自技高网
...

【技术保护点】
1.一种标识检测方法,其特征在于,包括:获取待检测的第一图像;对所述第一图像中相邻的像素点进行聚类,并根据聚类结果将所述第一图像分割为多个有效区域;将所述多个有效区域分别与特征标识进行比对,以确定所述第一图像中是否包含所述特征标识。

【技术特征摘要】
1.一种标识检测方法,其特征在于,包括:获取待检测的第一图像;对所述第一图像中相邻的像素点进行聚类,并根据聚类结果将所述第一图像分割为多个有效区域;将所述多个有效区域分别与特征标识进行比对,以确定所述第一图像中是否包含所述特征标识。2.根据权利要求1所述的方法,其特征在于,所述对所述第一图像中相邻的像素点进行聚类,具体包括:根据形成边的两个像素点的颜色值计算所述第一图像中各个边的边权重,其中,所述第一图像中的任意两个相邻的像素点相连形成一条边;按所述边权重对所述第一图像中的各个边进行升序排序;按排序结果的顺序依次对所述第一图像中的任一边作如下聚类处理,得到包含多个区域的区域集合:在确认形成所述任一边的两个像素点属于不同的聚类,且所述任一边的边权重不大于所述两个像素点分别所属的聚类的类间距离后,合并所述两个像素点所属的聚类,其中,所述类间距离等于一个聚类中最大的边权重。3.根据权利要求2所述的方法,其特征在于,所述根据聚类结果将所述第一图像分割为多个有效区域,具体包括:计算所述区域集合中任意两个区域的相似度,根据所述相似度对所述区域集合中的区域进行合并,得到有效区域。4.根据权利要求3所述的方法,其特征在于,所述计算所述区域集合中任意两个区域的相似度,根据所述相似度对所述区域集合中的区域进行合并,得到有效区域,具体包括:相似度计算步骤、计算所述区域集合中任意两个区域的相似度;合并步骤、合并相似度最高的两个区域,将合并后的区域添加到所述区域集合中并删除所述相似度最高的两个区域;循环执行所述相似度计算步骤和所述合并步骤直至满足循环终止条件,循环终止后所述区域集合中的区域即为有效区域。5.根据权利要求1所述的方法,其特征在于,所述将所述有效区域与特征标识进行比对,具体包括:提取所述有效区域对应的图像中的特征点,得到第二特征点集合;针对所述第二特征点集合中的任一特征点,从第一特征点集合中找到与所述第二特征点集合中的任一特征点最相似的第一目标特征点,将所述第二特征点集合中的任一特征点与所述第一目标特征点之间的第一距离值加入两点间距离集合,所述第一特征点集合中包特征标识中的特征点;针对所述第一特征点集合中的任一特征点,从所述第二特征点集合中找到与所述第一特征点集合中的任一特征点最相似的第二目标特征点,将所述第一特征点集合中的任一特征点与所述第二目标特征点之间的第二距离值加入所述两点间距离集合;统计所述两点间距离集合中距离值小于最近距离值的预设倍数的元素的数量,记为第一数量,所述最近距离值等于所述两点...

【专利技术属性】
技术研发人员:皮靖袁帅周旭康吴令一
申请(专利权)人:北京神州绿盟信息安全科技股份有限公司北京神州绿盟科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1