当前位置: 首页 > 专利查询>重庆大学专利>正文

一种欺诈网站的检测方法技术

技术编号:15542485 阅读:40 留言:0更新日期:2017-06-05 11:24
本发明专利技术公开了一种欺诈网站的检测方法,它包括获取网站统一资源定位符URL,检查网站是否在已有的网站数据库,根据网站流量排名数值进行分类检查,检测的项目有:域名匹配和网站标题、网站页面内容、网站DOM文档对象模型、页面图片中的欺诈信息,获得各个对应的影响因子,将这些影响因子加权求和计算安全系数,并把安全系数与所设定的阈值比较,将待检测网站分为欺诈网站和可信网站两类,网站流量排名排后,则需要检查项目设置越多。本发明专利技术的优点:能既准确又快速地识别未记录在黑名单中的欺诈网站,还能合理分配系统资源。

Method for detecting fraudulent website

The invention discloses a method for detecting fraudulent website, which includes obtaining uniform resource locator website with URL, check whether the site in the existing website database, according to web traffic ranking numerical classification inspection, detection of the project are: domain name, website, website page title and content of the website, the DOM document object model, page pictures the fraudulent information, obtain the factors corresponding to each of these factors, the weighted sum to calculate the factor of safety, and the safety coefficient is compared with the threshold, the test site is divided into two types of fraudulent websites and trusted sites, site traffic rank, the more you need to check the project settings. The invention has the advantages that the fraudulent websites which are not recorded in the blacklist can be accurately and quickly identified, and the system resources can be reasonably allocated.

【技术实现步骤摘要】
一种欺诈网站的检测方法
本专利技术涉及网络安全领域,尤其涉及一种含有欺诈信息网站的检测方法。
技术介绍
在信息技术飞速发展的今天,中国网民的数量的逐年增长,但对于大多数安全意识相对缺乏的网民来说,欺诈网站侵害人民财产安全是一个严重问题。网络欺诈,是指通过声称来自正规或知名机构等的欺骗性垃圾邮件或者仿照正规网站页面等方式,意图引诱收件人给出敏感信息(包括但不限于账号、密码、信用卡信息等)的一种攻击形式。欺诈网站可以是高度模仿真正网站骗取用户输入账号密码,也可以是含有中奖、博彩、虚假广告等欺诈信息的危害人民群众财产安全的网站。对于常见的黑名单过滤技术、利用收集欺诈网站作为数据库,然后使用其匹配新网页相似度从而判断欺诈网站的方法,无法有效辨识新类型的欺诈网站,同时又存在系统检测时资源分配不均匀的问题。因此,如何能够有效检测出未记录在黑名单中的欺诈网站,同时能够合理分配资源利用,从而达到避免或减少用户损失的目的,成为欺诈网站检测系统的重点所在。
技术实现思路
本专利技术所要解决的技术问题就是提供一种欺诈网站的检测方法,它能既准确又快速地识别未记录在黑名单中的欺诈网站,还能合理分配系统资源。本专利技术所要解决的技术问题是通过这样的技术方案实现的,它包括有以下步骤:步骤1、获取网站统一资源定位符URL;步骤2、根据获得的网站统一资源定位符URL在系统已有的网站数据库中匹配,网站URL不存在于数据库中,则执行步骤3;若网站存在于数据库中,则结束;步骤3、检测网站流量排名数值是否大于100万,若获得的网站排名数值大于100万,则执行步骤5;否则,则执行步骤4;步骤4、检测网站流量排名数值是否大于10万,若获得的网站排名数值大于10万,则执行步骤6;若获得的网站排名数值小于10万,则执行步骤7;步骤5、通过获取的统一资源定位符URL经过检测域名是否匹配和检测网站标题、检测网站页面内容、检测网站DOM文档对象模型、检测页面图片中存在的欺诈信息,计算安全系数,返回安全系数的结果与所设定排名数值大于100万的阈值比较,将待检测网站分为欺诈网站和可信网站两类,然后执行步骤8;步骤6、通过检测网站页面内容、检测网站DOM文档对象模型,计算安全系数,返回安全系数的结果与所设定排名数值10万-100万的阈值比较,将待检测网站分为欺诈网站和可信网站两类,然后执行步骤8;步骤7、通过检测网站页面内容,计算安全系数,返回安全系数与所设定的排名数值小于10万的阈值比较,将待检测网站分为欺诈网站和可信网站两类,然后执行步骤8;步骤8、根据识别的结果更新网站数据库。本专利技术的技术效果:本专利技术在步骤2利用已建立的网站数据库,并在步骤5、步骤6和步骤7针对不同流量网站分层次检测,与现有技术中单纯依赖黑白名单和关键词匹配的欺诈网站检测方法相比,提高了欺诈网站检测的准确性,对不同可信度的网站分层次检测,既提高了检测速度,又节省了系统资源。附图说明本专利技术的附图说明如下:图1为本专利技术的流程图;图2为本专利技术在网站流量排名数值大于100万的判别流程图;图3为本专利技术在网站流量排名数值100与10万之间的判别流程图;图4为本专利技术在网站流量排名数值小于10万的判别流程图。具体实施方式下面结合附图和实施例对本专利技术作进一步说明:如图1所示,本专利技术开始于步骤S10,并获取网站统一资源定位符URL;当访问网站时,系统获取即将访问的待检测URL(UniformResourceLocator,网站统一资源定位符),例如,当用户访问、下载互联网资源时,系统会获得即将访问的网络地址的值即为待检测的URL,URL的值不受本专利技术限制。步骤S101,根据获得的网站统一资源定位符URL,在系统已有的网站数据库中匹配,若获得的网站URL不存在于数据库中则执行步骤S102;若存在于数据库中,则跳转至步骤S60退出程序;所述网站数据库由系统不断学习增加得到,网站数据库包含有欺诈网站和可信网站两类,网站数据库中的域名数量等不受本专利技术专利限制。通过获取待检测网站的URL获取对应域名信息,与欺诈网站中的现有欺诈网站域名进行匹配。获取域名的方法为,通过正则表达式做关键词匹配得到。例如在Linux操作系统中就可以使用grep“.*\{1,15\}\..*\{1,15\}\.[a-z]\{2,8\}”,提取出字符串中的值即为网站域名。步骤S102,检测网站流量排名数值是否大于100万,若获得的网站排名数值大于100万,则执行步骤S20;否则,则执行步骤S103;步骤S103,检测网站流量排名数值是否大于10万,若获得的网站排名数值大于10万,则执行步骤S30;若获得的网站排名数值小于10万,则执行步骤S40;上述步骤S102,S103中网站流量排名数值是通过Alexa排名检测得到,Alexa排名是指网站的世界排名,是一种较为权威的网站访问量评价指标,Alexa每三个月公布一次新的网站综合排名。此排名的依据是用户链接数(UsersReach)和页面浏览数(PageViews)三个月累积的几何平均值。Alexa排名可以较好的说明的网站在互联网中的用户访问情况,对于网站页面内容而言访问量可以间接可以体现一个网站的安全性。根据待所提取的网站域名获取Alexa排名值。提取域名部分,例如,当网站的URL为:http://www.boc.cn/fimarkets/fund/201603/t20160322_6581374.html,对应的域名则为boc.cn,通过获取的Alexa用户接口API查询其Alexa排名:http://data.alexa.com/data/+wQ411en8000lAcli=10&dat=snba&ver=7.0&cdt=alx_vw=20&wid=12206&act=00000000000&ss=1680x1050&bw=964&t=0&ttl=35371&vis=1&rq=4&url=TargetURL,使用脚本程序每次检测将其中的TargetURL替换为要检测的网站域名,例如http://www.boc.cn根据其返回值中的<REACHRANK="1957"/>可提取出其全球排名值为1957,如果返回的结果为空,则表示网站创建时间较短或未收录,仍属于检测网站流量排名数值大于100万的情况;若待检测网站的统一资源定位符URL为IP地址形式,例如103.42.31.55,则同样认为其不安全,也按检测网站流量排名数值大于100万的情况处理。步骤S20,通过获取的统一资源定位符URL经过检测域名是否匹配和检测网站标题、检测网站页面内容、检测网站DOM文档对象模型、检测页面图片中存在的欺诈信息,计算安全系数,返回安全系数的结果与所设定排名数值大于100万的阈值比较,将待检测网站分为欺诈网站和可信网站两类,然后执行步骤S50;步骤S30,通过检测网站页面内容、检测网站DOM文档对象模型,计算安全系数,返回安全系数的结果与所设定排名数值10万-100万的阈值比较,将待检测网站分为欺诈网站和可信网站两类,然后执行步骤S50;步骤S40,通过检测网站页面内容,计算安全系数,将返回安全系数与所设定的排名数本文档来自技高网...
一种欺诈网站的检测方法

【技术保护点】
一种欺诈网站的检测方法,其特征是,包括以下步骤:步骤1、获取网站统一资源定位符URL;步骤2、根据获得的网站统一资源定位符URL在系统已有的网站数据库中匹配,网站URL不存在于数据库中,则执行步骤3;若网站存在于数据库中,则结束;步骤3、检测网站流量排名数值是否大于100万,若获得的网站排名数值大于100万,则执行步骤5;否则,则执行步骤4;步骤4、,检测网站流量排名数值是否大于10万,若获得的网站排名数值大于10万,则执行步骤6;若获得的网站排名数值小于10万,则执行步骤7;步骤5、通过获取的统一资源定位符URL经过检测域名是否匹配和检测网站标题、检测网站页面内容、检测网站DOM文档对象模型、检测页面图片中存在的欺诈信息,计算安全系数,返回安全系数的结果与所设定排名数值大于100万的阈值比较,将待检测网站分为欺诈网站和可信网站两类,然后执行步骤8;步骤6、通过检测网站页面内容、检测网站DOM文档对象模型,计算安全系数,返回安全系数的结果与所设定排名数值10万‑100万的阈值比较,将待检测网站分为欺诈网站和可信网站两类,然后执行步骤8;步骤7、通过检测网站页面内容,得到安全系数,返回安全系数与所设定的排名数值小于10万的阈值比较,将待检测网站分为欺诈网站和可信网站两类,然后执行步骤8;步骤8、根据识别的结果更新网站数据库。...

【技术特征摘要】
1.一种欺诈网站的检测方法,其特征是,包括以下步骤:步骤1、获取网站统一资源定位符URL;步骤2、根据获得的网站统一资源定位符URL在系统已有的网站数据库中匹配,网站URL不存在于数据库中,则执行步骤3;若网站存在于数据库中,则结束;步骤3、检测网站流量排名数值是否大于100万,若获得的网站排名数值大于100万,则执行步骤5;否则,则执行步骤4;步骤4、,检测网站流量排名数值是否大于10万,若获得的网站排名数值大于10万,则执行步骤6;若获得的网站排名数值小于10万,则执行步骤7;步骤5、通过获取的统一资源定位符URL经过检测域名是否匹配和检测网站标题、检测网站页面内容、检测网站DOM文档对象模型、检测页面图片中存在的欺诈信息,计算安全系数,返回安全系数的结果与所设定排名数值大于100万的阈值比较,将待检测网站分为欺诈网站和可信网站两类,然后执行步骤8;步骤6、通过检测网站页面内容、检测网站DOM文档对象模型,计算安全系数,返回安全系数的结果与所设定排名数值10万-100万的阈值比较,将待检测网站分为欺诈网站和可信网站两类,然后执行步骤8;步骤7、通过检测网站页面内容,得到安全系数,返回安全系数与所设定的排名数值小于10万的阈值比较,将待检测网站分为欺诈网站和可信网站两类,然后执行步骤8;步骤8、根据识别的结果更新网站数据库。2.根据权利要求1所述的欺诈网站的检测方法,其特征是,在步骤5中,判断待检测网站的步骤如下:步骤S201,检测网站域名与中网可信网站匹配和网站标题得到第一影响因子I1;步骤S202,获取所述URL对应网站页面的内容,对页面内容做敏感关键词及含有通配符的混淆敏感关键词匹配,根据页面含有敏感关键词和混淆敏感关键词的数量,将第二影响因子I2置为2,1或0;步骤S203,获取网站页面访问页面的源代码,利用正则表达式提取出DOM文档对象模型中的所有站外信息,将提取出的非本域名的URL进行网站流量排名检测,当排名数值超过100万的URL数量占提取出的总的URL的比例超过站外URL比例阈值时,将第三影响因子I3置1,否则置0;检测页面中所含有的信息输入框的数量及对应的名称,若含有信息输入框,同时信息输入框的名称为敏感词,则将第四影响...

【专利技术属性】
技术研发人员:刘岳刘剑峰盛杰尹成语杨吉云
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1