基于网络访问行为分析的互联网托管网站检测方法、系统和可读存储介质技术方案

技术编号:22820175 阅读:12 留言:0更新日期:2019-12-14 14:16
本发明专利技术公开了一种基于网络访问行为分析的互联网托管网站检测方法、系统和可读存储介质,该方法定时提取网络流量中的互联网访问行为特征,并利用将提取的特征计算每个被访问的互联网网址是企业托管网站的概率,实现网站托管检测,以辅助企业安全技术人员进行判断。本方案深度结合企业的一般网络拓扑特点,基于网络流量分析互联网托管网站的访问行为特征,不依赖企业关键词库,无需对网络流量包的负载进行关键词匹配,运算效率高且准确率高。

Detection method, system and readable storage medium of Internet hosting website based on analysis of network access behavior

【技术实现步骤摘要】
基于网络访问行为分析的互联网托管网站检测方法、系统和可读存储介质
本专利技术涉及网络安全领域,特别涉及一种基于网络访问行为分析的互联网托管网站检测方法、系统和可读存储介质。
技术介绍
企业的信息系统存储着企业敏感数据,若将企业信息系统部署在互联网服务器中,则其不受企业网络安全监管和保护,容易受黑客攻击,导致信息泄露甚至数据被篡改等恶劣影响。具有服务器设备及自主运维能力的大型企业通常禁止信息系统的互联网托管行为。目前企业对互联网托管网站的监测技术手段比较单一,主要依靠从互联网爬取数据并进行分析。这种方式的准确性很大程度上取决于所爬取网络数据来源是否丰富,而越丰富的网络数据来源意味着越海量的数据,越海量的数据就需要规模越大的网络爬虫集群规模以及网络带宽来进行数据分析,这对于企业来说成本过高,性价比过低。另外,爬虫数据分析主要依靠关键词匹配等文本分析技术,难以为企业准确定制网站关键词特征库,例如国家电网公司的托管网站为了隐蔽自己可能并不会含有“电力”“电网”等关键词。
技术实现思路
本专利技术提出了一种基于网络访问行为分析的互联网托管网站检测方法,该方法定时提取网络流量中的互联网访问行为特征,并利用将提取的特征计算每个被访问的互联网网址是企业托管网站的概率,实现网站托管检测,以辅助企业安全技术人员进行判断。一种基于网络访问行为分析的互联网托管网站检测方法,包括以下步骤:步骤1:提取访问数据包;从企业互联网出口处筛选出使用http或https协议的数据包,并从中提取每个数据包的位于企业内网的源IP、目的端口、位于互联网的host字段、访问路径path字段以及http方法与字符串;并且利用公司IP分配表查询源IP的所属下级机构代码;步骤2:对提取的访问数据包中的信息进行统计与记录;统计在设定的单位时间内每个互联网host的被访问数据,记录包括每个源IP的访问次数、源IP所属机构代码、访问路径path字段中是否包含“login”、“authen”以及“logon”关键字、http方法是否为“post”、host字符串是否仅包含数字;访问路径path字段中包含“login”、“authen”以及“logon”中任一关键字表示该互联网host支持用户登录行为;若host字符串仅包含数字,说明该网站未购买域名,托管网站倾向于不使用域名;步骤3:提取host访问特征;(1)归一化访问源IP熵:其中,total_acce_times为当前host被访问的总次数,IP_acce_timesi为第i个源IP访问当前host的次数,IP_num是访问当前host的源IP总个数;(2)归一化访问源所属下级机构熵:其中,total_acce_times为当前host被访问的总次数,dep_acce_timesi为第i个源IP所属下级机构访问当前host的次数,dep_num是访问当前host的源IP所属下级机构总数;(3)计算源IP访问次数的归一化RANK值:RANK/100;对所有源IP按访问次数排序,访问次数小于K的源IPRANK值定为0,访问次数大于等于设定次数K的源IP按序平分为99个区段,源IP访问次数所在的区段即为该源IP访问次数的RANK值;访问次数越多,RANK值相对越高,源IP访问次数的归一化RANK值,取值范围为[0,1)。步骤4:计算每个被访问host为互联网托管的分值;score=(1-SIP)*0.1+(1-Sdep)*0.15+(SIP-Sdep)*0.15+num_url_flag*0.1+path_login_flag*0.2+post_method_flag*0.1+acce_times_rank*0.2公式中各部分的权值是由该部分与host是否为互联网托管网站的相关性决定的;其中,score为最终计算的被访问的host为互联网托管网站的分值,取值为[0,1];SIP为归一化访问源IP熵;Sdep为归一化访问源IP所属下级机构熵;num_url_flag表示host字符串是否仅包含数字标签,取值为0或1;path_login_flag表示path中是否包含“login/authen/logon”关键字标签,取值为0或1;post_method_flag表示对互联网Host的请求中是否包含POST方法标签,取值为0或1;acce_times_rank是源IP访问次数的归一化RANK值,取值为{0,0.01,0.02......0.99};步骤5:将在设定的单位时间内SCORE值排在前20位的被访问的host,判定为host疑似互联网托管。score值越高的互联网Host越有可能是公司的互联网托管网站,公司的安全管理员可以此为依据,重点核查具有较高score值的网址,根据网站中的内容是否与公司业务相关或是否存储了公司相关数据来获得最终判断。进一步地,K取值为4。4为经验值,为了排除大量偶然访问请求对RANK值的影响。一种基于网络访问行为分析的互联网托管网站检测系统,包括:公司出口流量探针,用于从企业互联网出口处筛选出使用http或https协议的数据包,并从中提取每个数据包的位于企业内网的源IP、目的端口、位于互联网的host字段、访问路径path字段以及http方法与字符串;并且利用公司IP分配表查询源IP的所属下级机构代码;访问统计单元,从公司出口流量探针服务器中获得访问数据进行统计;访问特征提取单元,从访问统计单元中提取访问特征,所述访问特征包括:归一化访问源IP熵、归一化访问源所属下级机构熵以及源IP访问次数的归一化RANK值;互联网托管网站分值计算单元,利用访问特征提取单元提取的访问特征,计算每个被访问host为互联网托管的分值,并找出在设定的单位时间内SCORE值排在前20位的被访问的host,给出host疑似互联网托管的检测结论。进一步地,所述访问特征的计算公式如下:(1)归一化访问源IP熵:其中,total_acce_times为当前host被访问的总次数,IP_acce_timesi为第i个源IP访问当前host的次数,IP_num是访问当前host的源IP总个数;(2)归一化访问源所属下级机构熵:其中,total_acce_times为当前host被访问的总次数,dep_acce_timesi为第i个源IP所属下级机构访问当前host的次数,dep_num是访问当前host的源IP所属下级机构总数;(3)计算源IP访问次数的归一化RANK值:RANK/100;对所有源IP按访问次数排序,访问次数小于K的源IPRANK值定为0,访问次数大于等于设定次数K的源IP按序平分为99个区段,源IP访问次数所在的区段即为该源IP访问次数的RANK值。进一步地,所述每个被访问host为互联网托管的分值按本文档来自技高网...

【技术保护点】
1.一种基于网络访问行为分析的互联网托管网站检测方法,其特征在于,包括以下步骤:/n步骤1:提取访问数据包;/n从企业互联网出口处筛选出使用http或https协议的数据包,并从中提取每个数据包的位于企业内网的源IP、目的端口、位于互联网的host字段、访问路径path字段以及http方法与字符串;并且利用公司IP分配表查询源IP的所属下级机构代码;/n步骤2:对提取的访问数据包中的信息进行统计与记录;/n统计在设定的单位时间内每个互联网host的被访问数据,记录包括每个源IP的访问次数、源IP所属机构代码、访问路径path字段中是否包含“login”、“authen”以及“logon”关键字、http方法是否为“post”、host字符串是否仅包含数字;/n步骤3:提取host访问特征;/n(1)归一化访问源IP熵:/n

【技术特征摘要】
1.一种基于网络访问行为分析的互联网托管网站检测方法,其特征在于,包括以下步骤:
步骤1:提取访问数据包;
从企业互联网出口处筛选出使用http或https协议的数据包,并从中提取每个数据包的位于企业内网的源IP、目的端口、位于互联网的host字段、访问路径path字段以及http方法与字符串;并且利用公司IP分配表查询源IP的所属下级机构代码;
步骤2:对提取的访问数据包中的信息进行统计与记录;
统计在设定的单位时间内每个互联网host的被访问数据,记录包括每个源IP的访问次数、源IP所属机构代码、访问路径path字段中是否包含“login”、“authen”以及“logon”关键字、http方法是否为“post”、host字符串是否仅包含数字;
步骤3:提取host访问特征;
(1)归一化访问源IP熵:



其中,total_acce_times为当前host被访问的总次数,IP_acce_timesi为第i个源IP访问当前host的次数,IP_num是访问当前host的源IP总个数;
(2)归一化访问源所属下级机构熵:



其中,total_acce_times为当前host被访问的总次数,dep_acce_timesi为第i个源IP所属下级机构访问当前host的次数,dep_num是访问当前host的源IP所属下级机构总数;
(3)计算源IP访问次数的归一化RANK值:RANK/100;
对所有源IP按访问次数排序,访问次数小于K的源IPRANK值定为0,访问次数大于等于设定次数K的源IP按序平分为99个区段,源IP访问次数所在的区段即为该源IP访问次数的RANK值;
步骤4:计算每个被访问host为互联网托管的分值;
score=(1-SIP)*0.1+(1-Sdep)*0.15+(SIP-Sdep)*0.15+num_url_flag*0.1+path_login_flag*0.2+post_method_flag*0.1+acce_times_rank*0.2
其中,score为最终计算的被访问的host为互联网托管网站的分值,取值为[0,1];SIP为归一化访问源IP熵;Sdep为归一化访问源IP所属下级机构熵;num_url_flag表示host字符串是否仅包含数字标签,取值为0或1;path_login_flag表示path中是否包含“login/authen/logon”关键字标签,取值为0或1;post_method_flag表示对互联网Host的请求中是否包含POST方法标签,取值为0或1;acce_times_rank是源IP访问次数的归一化RANK值,取值为{0,0.01,0.02......0.99};
...

【专利技术属性】
技术研发人员:朱宏宇田建伟乔宏陈圣晟
申请(专利权)人:国网湖南省电力有限公司国网湖南省电力有限公司电力科学研究院国家电网有限公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1