恶意网站快速识别方法技术

技术编号:21438373 阅读:29 留言:0更新日期:2019-06-22 13:54
恶意网站快速识别方法涉及信息安全技术领域。实现本发明专利技术的主要步骤包括词库匹配筛选步骤,前端劫持判别筛选步骤,可见区域恶意信息的判别筛选步骤;实现本发明专利技术可以实时、高效地鉴别恶意网站;实现本发明专利技术利用恶意信息分析系统可以有效辨别网页可见区域内的恶意信息,从而识别出隐藏性较强的恶意网站;实现本发明专利技术可以识别劫持网站,避免将其误判为恶意网站,提高恶意网站检测准确率。

【技术实现步骤摘要】
恶意网站快速识别方法
本专利技术涉及信息
,尤其是信息安全

技术介绍
随着互联网的迅速发展,大数据时代下的互联网信息呈指数型增长,大量信息资源通过网络服务共享。网页浏览是当下使用率最高的网络服务之一,同时也成为不法分子进行恶意攻击活动的主要渠道,其中赌博和色情类网站的传播范围广、影响范围大,对信息安全构成严重威胁。在本技术中,恶意网站被狭义定义为赌博和色情类网站,恶意信息表示恶意网站中出现的与赌博、色情相关的内容。过去,恶意网站的攻击手法较为直接,用户只有在访问此类网站时才有可能受到威胁,而现在,攻击者还会劫持一些正规网站来传递恶意信息,利用合法站点的脚本漏洞攻击该站点的访问用户,即使是受信任的网站也可能遭受恶意攻击,如网页部分内容被篡改为赌博信息,或是跳转到指定的恶意网站等情况,同样会造成用户财产和个人信息的泄露,由此引发的信息安全威胁愈加严重,致使用户的信息安全无法得到保障。传统的恶意网站检测方法有:人工检测、基于特征码的检测等,它们通常是通过人为发现恶意网站或是网站源代码中的恶意代码标识进行检测,这类方法实现简单,但过于依赖人工的特征筛选,检测效率与准确率不高。现今,恶意网站的检测常利用特征分析和统计等方法,通过构建文本特征与特征分析来发现网站中的恶意信息。此外,还可以借助虚拟机技术,在虚拟机中模拟真实页面,实现基于行为的恶意信息检测。这些方法可以较为有效的检测到恶意网站,在一定程度上提高了用户访问网页的安全性,但与传统方法相比其效率较低。而且,新型的恶意网站会通过源代码伪装来躲避网络监管,将恶意的代码及文本内容利用技术手段隐藏起来,致使检测器难以发现,现有检测方法无法满足用户访问网页的安全新要求。恶意网站为了躲避网络监管,其恶意信息一般具有较强隐蔽性,通常会在网页源码中利用大量正常的网页内容文本来混淆恶意信息,致使网页检测器难以发现此类网站,当用户访问网站时页面展示的是恶意信息,而网页源码中的正常文本部分对用户是不可见的。另一种恶意信息的传播方法是劫持正规网站,当正规网站被恶意攻击后,会出现网页跳转、网页内容被恶意篡改等情况,其网站源码的内容中会包含有恶意信息,诱导网站检测器将其误认为是恶意网站。针对现有技术的不足,区别于传统的人工检测和基于特征码的检测,并且在效率上优于借助虚拟机技术的恶意网站检测,本专利技术方法通过分析页面可见区域中的恶意信息,可以高效鉴别出隐蔽性较强的恶意网站,同时通过网页劫持系统的判断,可以有效避免将被劫持网站当作恶意网站,保证识别系统的准确率和实时性。共有技术word2vec是Google开源的一款用于词向量计算的工具。word2vec不仅可以在百万数量级的词典和上亿的数据集上进行高效地训练,还可以得到训练结果——词向量(wordembedding),可以很好地度量词与词之间的相似性。其实word2vec算法的背后是一个浅层神经网络,而且还是一个计算wordvector的开源工具。当我们在说word2vec算法或模型的时候,其实指的是其背后用于计算wordvector的CBoW模型和Skip-gram模型。
技术实现思路
为克服现有技术的不足,实现本专利技术的恶意网站快速识别方法主要包含词库匹配筛选步骤,前端劫持判别筛选步骤,可见区域恶意信息的判别筛选步骤组成:1)词库匹配筛选步骤对于恶意网站而言,其源码中必然会出现恶意词语,利用词库的快速匹配,初步筛选出含有恶意信息的网站,减少识别系统需要判断的网站数量,提高识别效率;①构建词库编制恶意词语,人工收集100个恶意信息词,例如‘赌博’、‘澳门葡京’、‘av影院’、‘成人色情’等;导入维基百科公开的语料;应用word2vec模型为已编制的恶意词语从维基百科公开的语料中扩充相似的恶意词语,针对每个恶意词语求取50个近义词,生成扩充的恶意词语;已编制的恶意词语加扩充的恶意词语在去除重复的情况下生成恶意词的词库;②网页文本提取由文本提取器将被检测网站的网页的文本内容提取出来生成网页文本内容;③词库匹配由词库匹配器将网页文本内容与恶意词的词库进行匹配,当网页文本内容包含恶意词的词库中的恶意词时,判定为可疑网站;当网页文本内容未包含恶意词的词库中的恶意词时,判定为正常网站;④将可疑网站的网址作为被测网站传送给JS提取器;2)前端劫持判别筛选前端劫持是指JS劫持,攻击者在网站中插入JS或者修改其配置文件,主要攻击方式有以下两种:一是增加相应的劫持代码;二是在不入侵服务器的情况下植入JS,比如MOTS攻击,攻击者监听通信的流量,并且利用时间差优势在正常的响应包返回之前插入精心构造的数据包来加载对应恶意JS数据,同时利用协议本身的弱点达到欺骗客户端的目的;①通过JS提取器得到被测网站所有JS数据,:②将被测网站所有JS数据输入远程IP归属地判别器,远程IP归属地判别器设置不同地区的IP地址来响应网站的JS代码,当不同IP归属地访问同一网站的同一界面时产生不同跳转时,判定网站遭遇网络劫持;当不同IP归属地访问同一网站的同一界面时产生相同跳转时,判定网站未遭遇网络劫持;③将被测网站所有JS数据输入Referer关键字判别器,Referer关键字判别器分别通过baidu、google、yahoo、bing、soso、360搜索引擎爬虫去调用被测网站,当爬虫去访问时会调用browserRedirect()函数,browserRedirect()函数主要用来实现跳转判断,当browserRedirect()函数调用与直接访问被测网站所响应的JS一致,判定网站未遭遇网络劫持;当browserRedirect()函数调用与直接访问被测网站所响应的JS不一致,判定网站遭遇网络劫持;④将被测网站所有JS数据输入user-agent关键字判别器,user-agent关键字判别器通过ipad、iphoneos、midp、ucweb、android等移动端模拟设备调用被测网站,同时通过web直接访问被测网站,当通过ipad、iphoneos、midp、ucweb、android等移动端模拟设备调用被测网站与通过web直接访问被测网站所响应的JS一致,判定网站未遭遇网络劫持;当通过ipad、iphoneos、midp、ucweb、android等移动端模拟设备调用被测网站与通过web直接访问被测网站所响应的JS不一致,判定网站遭遇网络劫持;⑤远程IP归属地判别器,Referer关键字判别,user-agent关键字判别器组成前端劫持判别系统;前端劫持判别系统将遭遇网络劫持的网站直接判定为遭遇劫持,前端劫持判别系统将未遭遇网络劫持的网站直接判定为未遭遇劫持,前端劫持判别系统将未遭遇劫持的网站的网址传送给恶意信息判别器的可见区域提取器和不可见区域文本提取器;3)可见区域恶意信息的判别筛选①提取网页可见区域由可见区域提取器得到未遭遇劫持的网站的网页源码的JS数据集合和网站框架源码的JS数据集合,其中包括JS框架F与文本集合D;每个JS框架中都含有标题及若干script元素,提取网页可见区域的具体步骤为:a)通过Xpath元素定位网页JS框架F中标题的位置,将其作为提取区域的起点,以10个元素为步长确定提取区域的末点,若提取区域大小不足10则以最后一个元素本文档来自技高网
...

【技术保护点】
1.恶意网站快速识别方法,其特征在于包含词库匹配筛选步骤,前端劫持判别筛选步骤,可见区域恶意信息的判别筛选步骤:1)词库匹配筛选步骤①构建词库编制恶意词语,人工收集100个恶意信息词 ,包括‘赌博’、‘澳门葡京’、‘av影院’、‘成人色情’;导入维基百科公开的语料;应用word2vec模型为已编制的恶意词语从维基百科公开的语料中扩充相似的恶意词语,针对每个恶意词语求取50个近义词,生成扩充的恶意词语;已编制的恶意词语加扩充的恶意词语在去除重复的情况下生成恶意词的词库;②网页文本提取由文本提取器将被检测网站的网页的文本内容提取出来生成网页文本内容;③词库匹配由词库匹配器将网页文本内容与恶意词的词库进行匹配,当网页文本内容包含恶意词的词库中的恶意词时,判定为可疑网站;当网页文本内容未包含恶意词的词库中的恶意词时,判定为正常网站;④将可疑网站的网址作为被测网站传送给JS提取器;2)前端劫持判别筛选①通过JS提取器得到被测网站所有JS数据,:②将被测网站所有JS数据输入远程IP归属地判别器,远程IP归属地判别器设置不同地区的IP地址来响应网站的JS代码,当不同IP归属地访问同一网站的同一界面时产生不同跳转时,判定网站遭遇网络劫持;当不同IP归属地访问同一网站的同一界面时产生相同跳转时,判定网站未遭遇网络劫持;③将被测网站所有JS数据输入Referer关键字判别器,Referer关键字判别器分别通过baidu、google、yahoo、bing、soso、360搜索引擎爬虫去调用被测网站,当爬虫去访问时会调用browserRedirect()函数,browserRedirect()函数主要用来实现跳转判断,当browserRedirect()函数调用与直接访问被测网站所响应的JS一致,判定网站未遭遇网络劫持;当browserRedirect()函数调用与直接访问被测网站所响应的JS不一致,判定网站遭遇网络劫持;④将被测网站所有JS数据输入user‑agent关键字判别器,user‑agent关键字判别器通过ipad、iphone os、midp、ucweb、android等移动端模拟设备调用被测网站,同时通过web直接访问被测网站,当通过ipad、iphone os、midp、ucweb、android等移动端模拟设备调用被测网站与通过web直接访问被测网站所响应的JS一致,判定网站未遭遇网络劫持;当通过ipad、iphone os、midp、ucweb、android等移动端模拟设备调用被测网站与通过web直接访问被测网站所响应的JS不一致,判定网站遭遇网络劫持;⑤远程IP归属地判别器,Referer关键字判别,user‑agent关键字判别器组成前端劫持判别系统;前端劫持判别系统将遭遇网络劫持的网站直接判定为遭遇劫持,前端劫持判别系统将未遭遇网络劫持的网站直接判定为未遭遇劫持,前端劫持判别系统将未遭遇劫持的网站的网址传送给恶意信息判别器的可见区域提取器和不可见区域文本提取器;3)可见区域恶意信息的判别筛选①提取网页可见区域由可见区域提取器得到未遭遇劫持的网站的网页源码的JS数据集合...

【技术特征摘要】
1.恶意网站快速识别方法,其特征在于包含词库匹配筛选步骤,前端劫持判别筛选步骤,可见区域恶意信息的判别筛选步骤:1)词库匹配筛选步骤①构建词库编制恶意词语,人工收集100个恶意信息词,包括‘赌博’、‘澳门葡京’、‘av影院’、‘成人色情’;导入维基百科公开的语料;应用word2vec模型为已编制的恶意词语从维基百科公开的语料中扩充相似的恶意词语,针对每个恶意词语求取50个近义词,生成扩充的恶意词语;已编制的恶意词语加扩充的恶意词语在去除重复的情况下生成恶意词的词库;②网页文本提取由文本提取器将被检测网站的网页的文本内容提取出来生成网页文本内容;③词库匹配由词库匹配器将网页文本内容与恶意词的词库进行匹配,当网页文本内容包含恶意词的词库中的恶意词时,判定为可疑网站;当网页文本内容未包含恶意词的词库中的恶意词时,判定为正常网站;④将可疑网站的网址作为被测网站传送给JS提取器;2)前端劫持判别筛选①通过JS提取器得到被测网站所有JS数据,:②将被测网站所有JS数据输入远程IP归属地判别器,远程IP归属地判别器设置不同地区的IP地址来响应网站的JS代码,当不同IP归属地访问同一网站的同一界面时产生不同跳转时,判定网站遭遇网络劫持;当不同IP归属地访问同一网站的同一界面时产生相同跳转时,判定网站未遭遇网络劫持;③将被测网站所有JS数据输入Referer关键字判别器,Referer关键字判别器分别通过baidu、google、yahoo、bing、soso、360搜索引擎爬虫去调用被测网站,当爬虫去访问时会调用browserRedirect()函数,browserRedirect()函数主要用来实现跳转判断,当browserRedirect()函数调用与直接访问被测网站所响应的JS一致,判定网站未遭遇网络劫持;当browserRedirect()函数调用与直接访问被测网站所响应的JS不一致,判定网站遭遇网络劫持;④将被测网站所有JS数据输入user-agent关键字判别器,user-agent关键字判别器通过ipad、iphoneos、midp、ucweb、android等移动端模拟设备调用被测网站,同时通过web直接访问被测网站,当通过ipad、iphoneos、midp、ucweb、android等移动端模拟设备调用被测网站与通过web直接访问被测网站所响应的JS一致,判定网站未遭遇网络劫持;当通过ipad、iphoneos、midp、ucweb、android等移动端模拟设备调用被测网站与通过web直...

【专利技术属性】
技术研发人员:古元陈耀远陈思萌毛华阳华仲锋于龙林飞王娜熊翱
申请(专利权)人:北京亚鸿世纪科技发展有限公司北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1