一种基于访问日志的高危网站识别装置制造方法及图纸

技术编号:35990056 阅读:13 留言:0更新日期:2022-12-17 23:04
一种基于访问日志的高危网站识别装置,涉及信息技术领域。本发明专利技术由访问日志采集器、特征提取器、模型训练器和高危网站判断模型组成;通过对访问日志特征的提取,由样本训练迭代训练生成高危网站判断模型,达到访问日志输入高危网站判断模型就可以自动判断网站是否为高危网站的目的。本发明专利技术在特征提取和模型训练过程具备独创的计算特点,本发明专利技术具备节省人工,利于推广的特点。利于推广的特点。利于推广的特点。

【技术实现步骤摘要】
一种基于访问日志的高危网站识别装置


[0001]本专利技术涉及信息


技术介绍

[0002]随着互联网的快速发展,大数据时代下的互联网信息呈指数型增长;以及PC机、手机等移动终端的普及,人们时时刻刻都在使用台式机、移动终端进行浏览新闻、信息沟通、网上购物等行为。然而信息时代给人们带来便利的同时,伴随而来的是日益猖獗的非法高危网站,严重的影响了人们的正常工作和生活,甚至给人们带来了经济损失。通常这些高危网站信息都隐藏在海量的访问日志里面,要识别这些高危网站需要对访问日志中的网站送到外网进行网络爬取内容进行分析,而网络爬取的内容量大、爬取分析的逻辑复杂、爬取的网站常常混杂有大量正常网站、网络带宽资源有限等限制,无法对上千万甚至亿级别的网站进行爬取分析甚至涉及法律问题。因此有必要研究一种符合安全法规、成本低廉、识别高效精确的基于模型分析识别高危网站的装置。
[0003]传统识别方法包括:人工识别,通过用户的访问日志,将访问日志中的域名网站提取出来,然后将网站无差别的分组,将不同的组分配给大量的后台分析人员,由相关的分析人员通过人工的方式一条一条的点击网站进行人工识别,标准。这种需要人工去验证的,需要耗费大量的人力、物力。利用网络爬虫:通过爬虫程序大量的去爬取网站的内容信息,虽然该方法比人工方法先进,只能对小批量的网站进行爬取分析,无法对上亿级别的网站进行爬取,而且在爬虫的过程中,常常面临网站自身网络安全的考虑,很多网站会将爬虫服务器的ip地址进行屏蔽,导致爬虫服务器无法爬取。由于网络爬取的带宽限制、网站自身安全、爬取效率、实时性限制等原因,无法对千万甚至上亿级别的网站进行爬取分析,因此为解决这些瓶颈,需要研究一种基于访问日志的高危网站识别装置。
[0004]公知技术违法犯罪相关的关键词。违法犯罪相关的关键词包括了法律法规所禁止的,违法犯罪网站经常出现的关键词语。
[0005]网站日志的Referer字段实际上告诉了服务器,用户在访问当前资源之前的位置。
[0006]ip识别器是从ipip.net网站中获取全球ip段信息,将ip段信息加入到内存中,进行ip归属地的识别。

技术实现思路

[0007]鉴于现有技术的不足,本专利技术提供的一种基于访问日志的高危网站识别装置由访问日志采集器、特征提取器、模型训练器和高危网站判断模型组成;访问日志采集器负责收集并存储网站的访问日志;访问日志采集器负责收集并存储样本网站的访问日志,样本网站包括已知正常网站和已知高危网站,在存储访问日志时标记为样本正常网站日志和样本高危网站日志;访问日志采集器负责收集并存储待判断网站的访问日志,标记为待判断网站日志;
特征提取器负责根据样本高危网站日志提取高危用户,高危用户添加高危用户标识并记录其IP地址,提取高危用户的方法是获取源IP访问样本高危网站的平均每天的个数,当源IP访问的高危网站的个数平均每天在0到5区间,该源IP为低危用户;当源IP访问的高危网站的个数平均每天在6到15区间,该源IP为中危用户;当源IP访问的高危网站的个数平均每天在16个以上时,该源IP为高危用户;特征提取器负责提取访问日志的特征,访问日志的特征包括:网站目的IP归属地、网站域名字符占比特征、网站存活周期的值、网站高危用户访问特征、网站所含域名分隔符的个数特征、网站长度合规性、网站的请求参数特征、网站日志的真实请求地址特征、网站域名特征,即网站域名是否包括域名高危关键字;域名高危关键字包括:vip、xyz、top、club、xxx、sx、site、me、sexy、pub、sex、men、mx、fm;网站目的IP归属地特征提取方法是用ip识别器识别网站目的IP归属地;网站域名字符占比特征提取的方法是提取网站中的英文字母和阿拉伯数字个数,英文字母大于阿拉伯数字标识为0,英文字母小于等于阿拉伯数字标识为1;网站存活周期的值的提取方法是特征提取器从访问日志采集器中存储的历史访问日志获取网站近6个月第一次发现时间和最后一次发现时间,此时间差即为网站的存活周期值;网站高危用户访问特征的提取方法是当访问网站的高危用户数量小于1时记为0,当访问网站的高危用户数量大于等于1小于3时记为1,当访问网站的高危用户数量大于等于3时记为2;网站所含域名分隔符的个数特征提取方法是网站域名的域名分隔符超过3个记录为0,网站域名的域名分隔符小于等于3个记录为1;网站长度合规性的提取方法是:当域名中除字母、数字、域名分隔符还含有其他符号,则记录该域名为不合规;当域名分隔符连续出现,则记录该域名不合规;当域名分隔符出现在域名的头,则记录该域名不合规;当域名分隔符出现在域名的尾,则记录该域名为不合规;当域名的总长度大于63个字符,则记录该域名为不合规;除去记录域名不合规的条件后,其他情况记录域名为合规;网站的请求参数特征的提取方法是:当网站的请求参数包含违法犯罪相关的关键词时记录为1,当网站的请求参数未包含违法犯罪相关的关键词时记录为0;网站日志的真实请求地址特征的提取方法是:当网站的真实请求地址包含高危网站时记录为1,当网站的真实请求地址不包含高危网站时记录为0;网站域名特征的提取方式是:当网站域名包含域名高危关键字时记录为1,当网站域名不包含域名高危关键字时记录为0;特征提取器提取所有已知的样本正常网站日志和样本高危网站日志中的访问日志的特征生成训练用特征集;特征提取器将训练用特征集发送给模型训练器;特征提取器提取待判断网站日志中的访问日志的特征,生成待判断网站特征;特征提取器将待判断网站特征发送给高危网站判断模型;模型训练器由子模型特征数据选择器、子模型训练器、子模型训练结合器和模型测试器组成;模型训练器收到训练用特征集后生成t个子特征数据选择器,子特征数据选择器
从训练用特征集随机选择三分之二的数据作为子模型训练的训练数据集,子特征数据选择器从子模型训练的训练数据集中随机选择m个特征作为本次子模型训练的子集;定义每一个子特征数据选择器编号为i,i∈{1,2,3...t},总共有t个子特征数据选择器;已知高危网站个数为errorH,已知正常网站个数为rightH,训练用特征集的特征总数记录为sumH,sumH=errorH+rightH,子模型训练的训练数据集为traitH,每个子模型特征数据选择器选取的特征数记录为ftrait(i) ,子模型训练的子集的特征个数为finalm;finalm<=ftrait(i)<=traitH;fsumh(i)表示随机取训练用特征集三分之二的特征,即三分之二sumH个特征;ftrait(i)表示随机取子模型训练的训练数据集五分之四的特征,即五分之四traitH个特征;子模型训练器为每个子模型计算经验熵,经验熵代表每一个子模型所选择的子模型训练的训练数据集中数据集中结果的分布情况,记录为expH(i),;定义每一个子模型所选择的子模型训练的训练数据集中正常的网站数为,定义每一个子模型所选择的子模型训练的训练数据集中高危的网站数为;;;子模型训练器为每个子模型计算条件经验熵,条件经验熵代表每一个子模型所选择的子模型训本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于访问日志的高危网站识别装置,其特征在于由访问日志采集器、特征提取器、模型训练器和高危网站判断模型组成;访问日志采集器负责收集并存储网站的访问日志;访问日志采集器负责收集并存储样本网站的访问日志,样本网站包括已知正常网站和已知高危网站,在存储访问日志时标记为样本正常网站日志和样本高危网站日志;访问日志采集器负责收集并存储待判断网站的访问日志,标记为待判断网站日志;特征提取器负责根据样本高危网站日志提取高危用户,高危用户添加高危用户标识并记录其IP地址,提取高危用户的方法是获取源IP访问样本高危网站的平均每天的个数,当源IP访问的高危网站的个数平均每天在0到5区间,该源IP为低危用户;当源IP访问的高危网站的个数平均每天在6到15区间,该源IP为中危用户;当源IP访问的高危网站的个数平均每天在16个以上时,该源IP为高危用户;特征提取器负责提取访问日志的特征,访问日志的特征包括:网站目的IP归属地、网站域名字符占比特征、网站存活周期的值、网站高危用户访问特征、网站所含域名分隔符的个数特征、网站长度合规性、网站的请求参数特征、网站日志的真实请求地址特征、网站域名特征,即网站域名是否包括域名高危关键字;域名高危关键字包括:vip、xyz、top、club、xxx、sx、site、me、sexy、pub、sex、men、mx、fm;网站目的IP归属地特征提取方法是用ip识别器识别网站目的IP归属地;网站域名字符占比特征提取的方法是提取网站中的英文字母和阿拉伯数字个数,英文字母大于阿拉伯数字标识为0,英文字母小于等于阿拉伯数字标识为1;网站存活周期的值的提取方法是特征提取器从访问日志采集器中存储的历史访问日志获取网站近6个月第一次发现时间和最后一次发现时间,此时间差即为网站的存活周期值;网站高危用户访问特征的提取方法是当访问网站的高危用户数量小于1时记为0,当访问网站的高危用户数量大于等于1小于3时记为1,当访问网站的高危用户数量大于等于3时记为2;网站所含域名分隔符的个数特征提取方法是网站域名的域名分隔符超过3个记录为0,网站域名的域名分隔符小于等于3个记录为1;网站长度合规性的提取方法是:当域名中除字母、数字、域名分隔符还含有其他符号,则记录该域名为不合规;当域名分隔符连续出现,则记录该域名不合规;当域名分隔符出现在域名的头,则记录该域名不合规;当域名分隔符出现在域名的尾,则记录该域名为不合规;当域名的总长度大于63个字符,则记录该域名为不合规;除去记录域名不合规的条件后,其他情况记录域名为合规;网站的请求参数特征的提取方法是:当网站的请求参数包含违法犯罪相关的关键词时记录为1,当网站的请求参数未包含违法犯罪相关的关键词时记录为0;网站日志的真实请求地址特征的提取方法是:当网站的真实请求地址包含高危网站时记录为1,当网站的真实请求地址不包含高危网站时记录为0;网站域名特征的提取方式是:当网站域名包含域名高危关键字时记录为1,当网站域名不包含域名高危关键字时记录为0;特征提取器提取所有已知的样本正常网站日志和样本高危网站日志中的访问日志的
特征生成训练用特征集;特征提取器将训练用特征集发送给模型训练器;特征提取器提取待判断网站日志中的访问日志的特征,生成待判断网站特征;特征提取器将待判断网站特征发送给高危网站判断模型;模型训练器由子模型特征数据选择器、子模型训练器、子模型训练结合器和模型测试器组成;模型训练器收到训练用特征集后生成t个子特征数据选择器,子特征数据选择器从训练用特征集随机选择三分之二的数据作为子模型训练的训练数据集,子特征数据选择器从子模型训练的训练数据集中随机选择m个特征作为本次子模型训练的子集;定义每一个子特征数据选择器编号为i,i∈{1,2,3...t},总共有t个子特征数据选择器;已知高危网站个数为errorH,已知正常网站个数为rightH,训练用特征集的特征总数记录为sumH,sumH=errorH+rightH,子模型训练的训练数据集为traitH,每个子模型特征数据选择器选取的特...

【专利技术属性】
技术研发人员:林飞谢小超成海王林汝易永波古元毛华阳华仲峰
申请(专利权)人:江苏省互联网行业管理服务中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1