域识别加主题识别构建机器学习模型检测网页暗链的方法技术

技术编号:17011648 阅读:46 留言:0更新日期:2018-01-11 08:24
本发明专利技术提供了一种域识别加主题识别构建机器学习模型检测网页暗链的方法,包括:收集大量含已被标注为包含暗链的网页源码和标注为正常的网页源码作为训练集,通过可疑域识别、敏感域识别、安全域识别、全域分析和主题识别提取每个网页源码中风险文本、风险度、主题异样度、主题、风险文本向量、风险文本异常概率、以及风险文本长度,将训练集中所有网页源码的特征数据用机器学习算法进行模型训练得到分类判别模型,最后,将待预测网页源码的特征数据导入分类判别模型中,得到待预测网页源码是否包含暗链,因此,本发明专利技术对高混杂暗链代码识别效果好、特征提取的比较完整、且能够很好解决传统方法无法正确区分暗链和页面篡改的问题。

【技术实现步骤摘要】
域识别加主题识别构建机器学习模型检测网页暗链的方法
本专利技术属于网络安全
,具体涉及一种域识别加主题识别构建机器学习模型检测网页暗链的方法。
技术介绍
近年来,互联网行业蓬勃发展,网络已经成为人们主要的信息获取方式,随着各种新网站的出现,网络信息成指数级增长。在这种海量信息下,搜索引擎成为了主要的信息搜索工具,搜索引擎通过爬取网站信息并对网页内容计算权重做排名展示在搜索结果中。由于展示在搜索结果前部的网站有更大概率被用户访问,某些网站管理者为了获取更多访问量,往往采取各种作弊手段。“暗链”就是一种提高网站排名的作弊手段。具体说,“暗链”指的是攻击者获取网站权限后,修改网页源码,插入指向其他网站的反向连接代码,并且用户在正常浏览网页时无法看到此链接,但可被搜索引擎检索计算权重。一旦网页中存在暗链,通常这个网站已经被入侵,网站存在被植入恶意代码、网页被恶意篡改,数据信息泄露等风险。因此,“暗链”相比于其它搜索引擎作弊方式,具体有更大的危害性,并且难于发现。目前传统暗链检测方式都是基于规则的扫描方式,此种方式规则固定,很容易通过使用一些有技巧的代码编写方式绕过,规则扫描方式还需要大量人工维护对规则更新。这种基于规则无法对高技巧编码的识别,以及需要大量人工维护的问题,即是本文需要解决的技术问题。本文设计的基于机器学习的方案能很好的解决此类技术问题。各搜索引擎也对通过页面注入暗链方式提升网站排名行为做了严格管控,但是这种暗链行为还是时有发生。目前在已公布的关于暗链检测的专利中,多数是使用基于规则的检测。如百度公开的暗链检测专利(申请号201210049496.2公布号CN102622435A),是使用基于规则加黑名单识别网页暗链,此方式对于高度混淆的暗链代码识别较弱。目前已公布的暗链检测专利中仅有一篇使用了机器学习算法,专利(申请号201410452221.2公布号CN104239485A)使用了机器学习对页面中提取的所有锚文本作为特征构建模型识别暗链,此种方式提取了页面所有锚文本,会产生很多噪音数据,提取的特征较粗,会降低识别效果,并且由于仅通过锚文本做特征会将不含暗链的页面内容篡改误识别为暗链。
技术实现思路
本专利技术是为了解决上述问题而进行的,目的在于提供一种对高混杂暗链代码识别效果好、特征提取的比较完整、且能够很好区分暗链和页面篡改的域识别加主题识别构建机器学习模型检测网页暗链的方法。本专利技术提供了一种域识别加主题识别构建机器学习模型检测网页暗链的方法,其特征在于,包括以下步骤:步骤1,收集大量网页源码作为训练集,所述训练集中包含已被标注为包含暗链的网页和标注为正常的网页;步骤2,提取训练集中网页源码和待预测网页源码中用于构建机器学习模型的特征数据,所述特征数据包含风险度、主题异样度、主题、风险文本向量、风险文本异常概率、以及风险文本长度,首先,将所述训练集中网页源码和待预测网页源码进行可疑域识别或敏感域识别得到每个网页源码的风险文本和风险度,进行安全域识别得到安全文本,或者,进行全域分析得到每个网页源码的风险文本、风险度和安全文本,根据所述风险文本和所述安全文本基于主题识别模型得到每个网页源码的主题异样度、以及主题,然后,将每个所述风险文本进行处理,并用Doc2vec算法对处理后的风险文本进行训练得到Doc2vec模型,将处理后的风险文本用所述Doc2vec模型处理得到风险文本向量,计算风险文本异常概率,并计算出风险文本长度;步骤3,将训练集中所有网页源码的特征数据用机器学习算法进行模型训练得到分类判别模型;步骤4,将待预测网页源码的特征数据导入所述分类判别模型中,得到待预测网页源码是否包含暗链。进一步,在本专利技术提供的域识别加主题识别构建机器学习模型检测网页暗链的方法中,还可以具有这样的特征:还包括步骤5,对分类判别模型识别的结果,进一步审核,并将已确认识别结果的待预测网页源码扩充到训练集,定期重新训练模型。进一步,在本专利技术提供的域识别加主题识别构建机器学习模型检测网页暗链的方法中,还可以具有这样的特征:其中,得到每个网页源码的风险度、主题异样度、以及主题采用以下方法:步骤21,分析网页源码,提取网页源码中所有可疑域,对每个可疑域进行风险度识别并获取锚文本,首先,对每一个可疑域进行风险度识别,判断该可疑域是否为风险结构,若为风险结构,进一步判断该风险结构中的每个链接是否为风险链接,提取判断为风险链接的锚文本信息,然后,根据判断的每个可疑域是否为风险结构和风险结构中包含的风险链接计算得到该网页源码的风险度,将提取的可疑域中所有风险链接的锚文本信息作为该网页源码的风险文本;步骤22,判断根据可疑域得到的该网页源码的风险度是否为0,如果该网页源码的风险度为0,则进行步骤23,若果网页源码的风险度不为0,则进行步骤25;步骤23,分析网页源码,提取网页源码中所有敏感域,对每个敏感域进行风险度识别并获取锚文本,首先,对每一个敏感域进行风险度识别,判断该敏感域是否为风险结构,若为风险结构,进一步判断该风险结构中的每个连接是否为风险链接,提取判断为风险链接的锚文本信息,然后,根据判断的每个敏感域是否为风险结构和风险结构中包含的风险链接计算得到该网页源码的风险度,将提取的敏感域中所有风险链接的锚文本信息作为该网页源码的风险文本;步骤24,判断根据敏感域得到的该网页源码的风险度是否为0,如果风险度不等于0,则进行步骤25,如果风险度等于0,则进行步骤26;步骤25,分析网页源码,提取网页源码中安全域,分析每个所述安全域,提取所述安全域的锚文本信息,将提取的所有的安全域的锚文本信息作为安全文本,如果根据敏感域得到的该网页源码的风险度不等于0,则还需获取扩展敏感域文本信息,并对所述扩展敏感域文本信息进行主题识别,如果识别出主题为暗链文本常用主题,则提取该扩展敏感域文本信息补充到以敏感域识别得到的风险文本中,如果识别出主题不是暗链文本常用主题,则抛弃该扩展敏感域文本信息;步骤26,对网页源码进行全域分析,提取风险文本和安全文本,并计算风险度;步骤27,将上述步骤得到的安全文本和风险文本导入主题识别模型识别出主题,并计算出主题异样度。进一步,在本专利技术提供的域识别加主题识别构建机器学习模型检测网页暗链的方法中,还可以具有这样的特征:其中,步骤27采用以下步骤得到:步骤271,在识别主题和计算主题异样度前,需将提取到的安全文本和风险文本做特殊符号过滤;步骤272,判断过滤后的风险文本是否为空,如果过滤后的风险文本不为空,进入步骤273,如果过滤后的风险文本为空,则进入步骤2710;步骤273,对安全文本和风险文本进行主题识别并计算主题异样度;步骤274,判断主题异样度是否为0,若主题异样度为0,则执行步骤275,若主题异样度不为0,进入步骤2716;步骤275,判断是否进行过全域分析,如果没有做全域分析,则进入步骤276,否则,进入步骤2711,步骤276,对网页源码进行全域分析,并提取网页源码的风险文本和安全文本;步骤277,对提取的风险文本和安全文本做特殊符号过滤;步骤278,判断风险文本是否非空,并且安全文本是否非空;如果风险文本非空且安全文本非空,则进入步骤279,否则,进入步骤2711;步骤279,对风险文本和本文档来自技高网
...
域识别加主题识别构建机器学习模型检测网页暗链的方法

【技术保护点】
一种域识别加主题识别构建机器学习模型检测网页暗链的方法,其特征在于,包括以下步骤:步骤1,收集大量网页源码作为训练集,所述训练集中包含已被标注为包含暗链的网页和标注为正常的网页;步骤2,提取训练集中网页源码和待预测网页源码中用于构建机器学习模型的特征数据,所述特征数据包含风险度、主题异样度、主题、风险文本向量、风险文本异常概率、以及风险文本长度,首先,将所述训练集中网页源码和待预测网页源码进行可疑域识别或敏感域识别得到每个网页源码的风险文本和风险度,进行安全域识别得到安全文本,或者,进行全域分析得到每个网页源码的风险文本、风险度和安全文本,根据所述风险文本和所述安全文本基于主题识别模型得到每个网页源码的主题异样度、以及主题,然后,将每个所述风险文本进行处理,并用Doc2vec算法对处理后的风险文本进行训练得到Doc2vec模型,将处理后的风险文本用所述Doc2vec模型处理得到风险文本向量,计算风险文本异常概率,并计算出风险文本长度;步骤3,将训练集中所有网页源码的特征数据用机器学习算法进行模型训练得到分类判别模型;步骤4,将待预测网页源码的特征数据导入所述分类判别模型中,得到待预测网页源码是否包含暗链。...

【技术特征摘要】
1.一种域识别加主题识别构建机器学习模型检测网页暗链的方法,其特征在于,包括以下步骤:步骤1,收集大量网页源码作为训练集,所述训练集中包含已被标注为包含暗链的网页和标注为正常的网页;步骤2,提取训练集中网页源码和待预测网页源码中用于构建机器学习模型的特征数据,所述特征数据包含风险度、主题异样度、主题、风险文本向量、风险文本异常概率、以及风险文本长度,首先,将所述训练集中网页源码和待预测网页源码进行可疑域识别或敏感域识别得到每个网页源码的风险文本和风险度,进行安全域识别得到安全文本,或者,进行全域分析得到每个网页源码的风险文本、风险度和安全文本,根据所述风险文本和所述安全文本基于主题识别模型得到每个网页源码的主题异样度、以及主题,然后,将每个所述风险文本进行处理,并用Doc2vec算法对处理后的风险文本进行训练得到Doc2vec模型,将处理后的风险文本用所述Doc2vec模型处理得到风险文本向量,计算风险文本异常概率,并计算出风险文本长度;步骤3,将训练集中所有网页源码的特征数据用机器学习算法进行模型训练得到分类判别模型;步骤4,将待预测网页源码的特征数据导入所述分类判别模型中,得到待预测网页源码是否包含暗链。2.根据权利要求1所述的域识别加主题识别构建机器学习模型检测网页暗链的方法,其特征在于,还包括:步骤5,对分类判别模型识别的结果,进一步审核,并将已确认识别结果的待预测网页源码扩充到训练集,定期重新训练模型。3.根据权利要求1所述的域识别加主题识别构建机器学习模型检测网页暗链的方法,其特征在于:得到每个网页源码的风险度、主题异样度、以及主题采用以下方法:步骤21,分析网页源码,提取网页源码中所有可疑域,对每个可疑域进行风险度识别并获取锚文本,首先,对每一个可疑域进行风险度识别,判断该可疑域是否为风险结构,若为风险结构,进一步判断该风险结构中的每个链接是否为风险链接,提取判断为风险链接的锚文本信息,然后,根据判断的每个可疑域是否为风险结构和风险结构中包含的风险链接计算得到该网页源码的风险度,将提取的可疑域中所有风险连接的锚文本信息作为该网页源码的风险文本;步骤22,判断根据可疑域得到的该网页源码的风险度是否为0,如果该网页源码的风险度为0,则进行步骤23,如果网页源码的风险度不为0,则进行步骤25;步骤23,分析网页源码,提取网页源码中所有敏感域,对每个敏感域进行风险度识别并获取锚文本,首先,对每一个敏感域进行风险度识别,判断该敏感域是否为风险结构,若为风险结构,进一步判断该风险结构中的每个连接是否为风险链接,提取判断为风险链接的锚文本信息,然后,根据判断的每个敏感域是否为风险结构和风险结构中包含的风险链接计算得到该网页源码的风险度,将提取的敏感域中所有风险连接的锚文本信息作为该网页源码的风险文本;步骤24,判断根据敏感域得到的该网页源码的风险度是否为0,如果风险度不等于0,则进行步骤25,如果风险度等于0,则进行步骤26;步骤25,分析网页源码,提取网页源码中安全域,分析每个所述安全域,提取所述安全域的锚文本信息,将提取的所有的安全域的锚文本信息作为安全文本,如果根据敏感域得到的该网页源码的风险度不等于0,则还需获取扩展敏感域文本信息,并对所述扩展敏感域文本信息进行主题识别,如果识别出主题为暗链文本常用主题,则提取该扩展敏感域文本信息补充到以敏感域识别得到的风险文本中,如果识别出主题不是暗链文本常用主题,则抛弃该扩展敏感域文本信息;步骤26,对网页源码进行全域分析,提取风险文本和安全文本,并计算风险度;步骤27,将上述步骤得到的安全文本和风险文本导入主题识别模型识别出主题,并计算出主题异样度。4.根据权利要求3所述的域识别加主题识别构建机器学习模型检测网页暗链的方法,其特征在于:步骤27采用以下步骤得到:步骤271,在识别主题和计算主题异样度前,需将提取到的安全文本和风险文本做特殊符号过滤;步骤272,判断过滤后的风险文本是否为空,如果过滤后的风险文本不为空,进入步骤273,如果过滤后的风险文本为空,则进入步骤2710;步骤273,对安全文本和风险文本进行主题识别并计算主题异样度;步骤274,判断主题异样度是否为0,若主题异样度为0,则执行步骤275,若主题异样度不为0,则进入步骤2716;步骤275,判断是否进...

【专利技术属性】
技术研发人员:孟雷
申请(专利权)人:上海斗象信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1