恶意网站快速识别方法技术

技术编号：21438373 阅读：29 留言：0更新日期：2019-06-22 13:54

恶意网站快速识别方法涉及信息安全技术领域。实现本发明专利技术的主要步骤包括词库匹配筛选步骤，前端劫持判别筛选步骤，可见区域恶意信息的判别筛选步骤；实现本发明专利技术可以实时、高效地鉴别恶意网站；实现本发明专利技术利用恶意信息分析系统可以有效辨别网页可见区域内的恶意信息，从而识别出隐藏性较强的恶意网站；实现本发明专利技术可以识别劫持网站，避免将其误判为恶意网站，提高恶意网站检测准确率。

全部详细技术资料下载

【技术实现步骤摘要】
恶意网站快速识别方法
本专利技术涉及信息
，尤其是信息安全

技术介绍
随着互联网的迅速发展，大数据时代下的互联网信息呈指数型增长，大量信息资源通过网络服务共享。网页浏览是当下使用率最高的网络服务之一，同时也成为不法分子进行恶意攻击活动的主要渠道，其中赌博和色情类网站的传播范围广、影响范围大，对信息安全构成严重威胁。在本技术中，恶意网站被狭义定义为赌博和色情类网站，恶意信息表示恶意网站中出现的与赌博、色情相关的内容。过去，恶意网站的攻击手法较为直接，用户只有在访问此类网站时才有可能受到威胁，而现在，攻击者还会劫持一些正规网站来传递恶意信息，利用合法站点的脚本漏洞攻击该站点的访问用户，即使是受信任的网站也可能遭受恶意攻击，如网页部分内容被篡改为赌博信息，或是跳转到指定的恶意网站等情况，同样会造成用户财产和个人信息的泄露，由此引发的信息安全威胁愈加严重，致使用户的信息安全无法得到保障。传统的恶意网站检测方法有：人工检测、基于特征码的检测等，它们通常是通过人为发现恶意网站或是网站源代码中的恶意代码标识进行检测，这类方法实现简单，但过于依赖人工的特征筛选，检测效率与准确率不高。现今，恶意网站的检测常利用特征分析和统计等方法，通过构建文本特征与特征分析来发现网站中的恶意信息。此外，还可以借助虚拟机技术，在虚拟机中模拟真实页面，实现基于行为的恶意信息检测。这些方法可以较为有效的检测到恶意网站，在一定程度上提高了用户访问网页的安全性，但与传统方法相比其效率较低。而且，新型的恶意网站会通过源代码伪装来躲避网络监管，将恶意的代码及文本内容利用技术手段隐藏起来，...

【技术保护点】
1.恶意网站快速识别方法，其特征在于包含词库匹配筛选步骤，前端劫持判别筛选步骤，可见区域恶意信息的判别筛选步骤：1）词库匹配筛选步骤①构建词库编制恶意词语，人工收集100个恶意信息词，包括‘赌博’、‘澳门葡京’、‘av影院’、‘成人色情’；导入维基百科公开的语料；应用word2vec模型为已编制的恶意词语从维基百科公开的语料中扩充相似的恶意词语，针对每个恶意词语求取50个近义词，生成扩充的恶意词语；已编制的恶意词语加扩充的恶意词语在去除重复的情况下生成恶意词的词库；②网页文本提取由文本提取器将被检测网站的网页的文本内容提取出来生成网页文本内容；③词库匹配由词库匹配器将网页文本内容与恶意词的词库进行匹配，当网页文本内容包含恶意词的词库中的恶意词时，判定为可疑网站；当网页文本内容未包含恶意词的词库中的恶意词时，判定为正常网站；④将可疑网站的网址作为被测网站传送给JS提取器；2）前端劫持判别筛选①通过JS提取器得到被测网站所有JS数据，：②将被测网站所有JS数据输入远程IP归属地判别器，远程IP归属地判别器设置不同地区的IP地址来响应网站的JS代码，当不同IP归属地访问同一网站的同一界面时...

【技术特征摘要】
1.恶意网站快速识别方法，其特征在于包含词库匹配筛选步骤，前端劫持判别筛选步骤，可见区域恶意信息的判别筛选步骤：1）词库匹配筛选步骤①构建词库编制恶意词语，人工收集100个恶意信息词，包括‘赌博’、‘澳门葡京’、‘av影院’、‘成人色情’；导入维基百科公开的语料；应用word2vec模型为已编制的恶意词语从维基百科公开的语料中扩充相似的恶意词语，针对每个恶意词语求取50个近义词，生成扩充的恶意词语；已编制的恶意词语加扩充的恶意词语在去除重复的情况下生成恶意词的词库；②网页文本提取由文本提取器将被检测网站的网页的文本内容提取出来生成网页文本内容；③词库匹配由词库匹配器将网页文本内容与恶意词的词库进行匹配，当网页文本内容包含恶意词的词库中的恶意词时，判定为可疑网站；当网页文本内容未包含恶意词的词库中的恶意词时，判定为正常网站；④将可疑网站的网址作为被测网站传送给JS提取器；2）前端劫持判别筛选①通过JS提取器得到被测网站所有JS数据，：②将被测网站所有JS数据输入远程IP归属地判别器，远程IP归属地判别器设置不同地区的IP地址来响应网站的JS代码，当不同IP归属地访问同一网站的同一界面时产生不同跳转时，判定网站遭遇网络劫持；当不同IP归属地访问同一网站的同一界面时产生相同跳转时，判定网站未遭遇网络劫持；③将被测网站所有JS数据输入Referer关键字判别器，Referer关键字判别器分别通过baidu、google、yahoo、bing、soso、360搜索引擎爬虫去调用被测网站，当爬虫去访问时会调用browserRedirect()函数，browserRedirect()函数主要用来实现跳转判断，当browserRedirect()函数调用与直接访问被测网站所响应的JS一致，判定网站未遭遇网络劫持；当browserRedirect()函数调用与直接访问被测网站所响应的JS不一致，判定网站遭遇网络劫持；④将被测网站所有JS数据输入user-agent关键字判别器，user-agent关键字判别器通过ipad、iphoneos、midp、ucweb、android等移动端模拟设备调用被测网站，同时通过web直接访问被测网站，当通过ipad、iphoneos、midp、ucweb、android等移动端模拟设备调用被测网站与通过web直接访问被测网站所响应的JS一致，判定网站未遭遇网络劫持；当通过ipad、iphoneos、midp、ucweb、android等移动端模拟设备调用被测网站与通过web直...

【专利技术属性】
技术研发人员：古元，陈耀远，陈思萌，毛华阳，华仲锋，于龙，林飞，王娜，熊翱，
申请(专利权)人：北京亚鸿世纪科技发展有限公司，北京邮电大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人