System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种针对涉诈网址智能验活分析方法技术_技高网

一种针对涉诈网址智能验活分析方法技术

技术编号:40083272 阅读:8 留言:0更新日期:2024-01-23 15:03
本发明专利技术公开了一种针对涉诈网址智能验活分析方法,包括以下步骤:设置爬虫规则;通过爬虫程序获取目标网址的Html源码、Http状态码和下载的APP安装包;根据Html源码结合特征值库和域名白名单对目标网址打标,根据打标结果判断网址是否为诈骗网站;根据Http状态码判断目标网址是否有效;根据是否能够下载APP判断目标网址是否关联APP。本发明专利技术提供的一种针对涉诈网址智能验活分析方法,通过爬虫技术结合域名白名单及特征值库实现对目标网址全自动智能验活,再从已确认诈骗网站的html中根据规则找共性提取特征值进一步丰富特征值库,从而形成良性循环,提升识别准确率。

【技术实现步骤摘要】

本专利技术涉及互联网监管,更具体涉及一种针对涉诈网址智能验活分析方法


技术介绍

1、随着互联网的快速发展,人们的生活与互联网息息相关,互联网不仅方便了人们生活,给人们带来的更加方便快捷的体验,同时也给诈骗分子带来了可乘之机,其中网络诈骗是指一切利用网络进行诈骗的活动,在各类型诈骗案中,网络诈骗日益猖獗,诈骗的方式也更加隐蔽,所造成的损失也日益严重。

2、人们熟悉的网络诈骗有电信诈骗和网址诈骗,电信诈骗顾名思义是利用手机短信、电话、网络电话、互联网等传播媒介,骗取数额较大的公私财物问题。网址诈骗是恶意种植木马、病毒等恶意程序在网站内,通过伪装的网站服务内容诱导用户去访问,一旦进入这些网站,便会触发网站内种植下的木马、病毒等程序,导致访问者计算机被感染,面临丢失帐号或者隐私信息等危险。

3、而目前大部分对网址是否有效、是否涉诈基本通过人为去判定、存在效率低下判断不全面等弊端。


技术实现思路

1、本专利技术需要解决的技术问题是提供一种针对涉诈网址智能验活分析方法,提升涉诈网址识别的准确率。

2、为解决上述技术问题,本专利技术所采取的技术方案如下。

3、一种针对涉诈网址智能验活分析方法,包括以下步骤:

4、包括以下步骤:b.通过爬虫程序获取目标网址的html源码、http状态码和下载的app安装包;

5、c.根据html源码结合特征值库和域名白名单对目标网址打标,根据打标结果判断网址是否为诈骗网站;根据http状态码判断目标网址是否有效;根据是否能够下载app判断目标网址是否关联app。

6、进一步优化技术方案,所述爬虫规则包括文件下载规则和爬虫设置。

7、进一步优化技术方案,所述爬虫设置包括爬取层设置、关键词设置、下载关键词设置、下载样式设置以及下载文件类型设置。

8、进一步优化技术方案,所述设置爬虫规则的方法为通过访问目标网址查找页面上是否存在下载关键词,如不存在则根据子级菜单关键词查找进入子级菜单,然后在子级菜单页面继续查找下载关键词,如此递归查找,直到找到下载入口或达到爬取层级设置上限为止,如成功找到下载入口则自动下载文件并记录文件md5。

9、进一步优化技术方案,所述步骤c中,特征值库的构建方法为从已确认的诈骗网站源码中提取特定的id、静态资源路径、样式、类名、注释、标题作为特征值,构建特征值库。

10、进一步优化技术方案,所述步骤c中,域名白名单的构建方法为收集已确认的正规域名构建域名白名单。

11、进一步优化技术方案,所述步骤c中,根据http状态码判断网址是否有效的方法为判断http状态码是否以4或者5开头,以4或5开头则网址无效,其他则为网址有效。

12、进一步优化技术方案,所述所述步骤c中,判断目标网址根据目标网址是否下载成功及md5与app库的md5进行匹配。

13、由于采用了以上技术方案,本专利技术所取得技术进步如下。

14、本专利技术提供的一种针对涉诈网址智能验活分析方法,通过爬虫技术结合域名白名单及特征值库实现对目标网址全自动智能验活,再从已确认诈骗网站的html中根据规则找共性提取特征值进一步丰富特征值库,从而形成良性循环,提升识别准确率。

本文档来自技高网...

【技术保护点】

1.一种针对涉诈网址智能验活分析方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种针对涉诈网址智能验活分析方法,其特征在于:所述爬虫规则包括文件下载规则和爬虫设置。

3.根据权利要求2所述的一种针对涉诈网址智能验活分析方法,其特征在于:所述爬虫设置包括爬取层设置、关键词设置、下载关键词设置、下载样式设置以及下载文件类型设置。

4.根据权利要求3所述的一种针对涉诈网址智能验活分析方法,其特征在于:所述设置爬虫规则的方法为通过访问目标网址查找页面上是否存在下载关键词,如不存在则根据子级菜单关键词查找进入子级菜单,然后在子级菜单页面继续查找下载关键词,如此递归查找,直到找到下载入口或达到爬取层级设置上限为止,如成功找到下载入口则自动下载文件并记录文件md5。

5.根据权利要求1所述的一种针对涉诈网址智能验活分析方法,其特征在于:所述步骤C中,特征值库的构建方法为从已确认的诈骗网站源码中提取特定的ID、静态资源路径、样式、类名、注释、标题作为特征值,构建特征值库。

6.根据权利要求1所述的一种针对涉诈网址智能验活分析方法,其特征在于:所述步骤C中,域名白名单的构建方法为收集已确认的正规域名构建域名白名单。

7.根据权利要求1所述的一种针对涉诈网址智能验活分析方法,其特征在于:所述步骤C中,根据Http状态码判断网址是否有效的方法为判断Http状态码是否以4或者5开头,以4或5开头则网址无效,其他则为网址有效。

8.根据权利要求1所述的一种针对涉诈网址智能验活分析方法,其特征在于:所述步骤C中,如何判断目标网址是根据目标网址是否下载成功及md5与APP库的md5进行匹配。

...

【技术特征摘要】

1.一种针对涉诈网址智能验活分析方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种针对涉诈网址智能验活分析方法,其特征在于:所述爬虫规则包括文件下载规则和爬虫设置。

3.根据权利要求2所述的一种针对涉诈网址智能验活分析方法,其特征在于:所述爬虫设置包括爬取层设置、关键词设置、下载关键词设置、下载样式设置以及下载文件类型设置。

4.根据权利要求3所述的一种针对涉诈网址智能验活分析方法,其特征在于:所述设置爬虫规则的方法为通过访问目标网址查找页面上是否存在下载关键词,如不存在则根据子级菜单关键词查找进入子级菜单,然后在子级菜单页面继续查找下载关键词,如此递归查找,直到找到下载入口或达到爬取层级设置上限为止,如成功找到下载入口则自动下载文件并记录文件md5。

5.根据权利要求1...

【专利技术属性】
技术研发人员:苏学武水军唐飞吴海平李建华颜健尹峰黄有升
申请(专利权)人:珠海市新德汇信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1