一种基于加密流量双向突发序列的网站内容行为识别方法和系统技术方案

技术编号:38162839 阅读:30 留言:0更新日期:2023-07-13 09:36
本发明专利技术涉及一种基于加密流量双向突发序列的网站内容行为识别方法和系统。该方法包括以下步骤:获取加密网站的行为流量数据;将行为流量数据预处理为双向突发序列;建立网站内容行为识别模型,以双向突发序列为输入对网站内容行为识别模型进行训练;利用训练完成的网站内容行为识别模型进行加密网站的网站内容行为识别。本发明专利技术选择双向突发序列作为输入,可以更好地捕获网站内容行为之间的差异;采用卷积神经网络构建流量表示模型,实现了自动地流量表示与特征提取,避免了人工特征提取和选择,最终达到准确识别加密网站内容行为流量的目的。目的。目的。

【技术实现步骤摘要】
一种基于加密流量双向突发序列的网站内容行为识别方法和系统


[0001]本专利技术属于网络测量与行为分析领域,具体涉及一种基于加密流量双向突发序列的网站内容行为识别方法。

技术介绍

[0002]网站内容行为是指用户某网站行为的具体内容,包括以浏览文字为主的行为、以图片为主的行为和以视频为主的行为,即文字行为、图片行为和视频行为。网站内容行为识别主要是通过用户的某网站内容行为产生的流量推测用户在网站上产生某种行为的具体内容。
[0003]近年来,由于隐私保护和数据安全传输至关重要,HTTPS协议正在逐步取代原有的HTTP协议,避免数据在传输的过程中被非法监听和篡改,保证了数据传输安全。越来越多的网站采用https协议进行加密传输。
[0004]随着网站的加密化和TLS1.3的推广,传统基于SNI或证书匹配的加密网站识别方法失效。需要构建更复杂的网站指纹以支撑网站识别。现有的网站识别方法利用流量的时序、包方向、包长度等信息,辅助机器学习、深度学习算法以提取深层特征来实现网站识别。网站指纹指用户在访问网站时发送数据和接受数据中产生流量所本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于加密流量双向突发序列的网站内容行为识别方法,其特征在于,包括以下步骤:获取加密网站的行为流量数据;将行为流量数据预处理为双向突发序列;建立网站内容行为识别模型,以双向突发序列为输入对网站内容行为识别模型进行训练;利用训练完成的网站内容行为识别模型进行加密网站的网站内容行为识别。2.根据权利要求1所述的方法,其特征在于,所述加密网站的行为流量数据,通过在线捕获流量的方式获取,或者使用采集好的离线数据,以.pcap为文件扩展名保存流量数据。3.根据权利要求1所述的方法,其特征在于,所述获取加密网站的行为流量数据,包括:读取目标加密网站的URL列表以及对应网站的相应行为操作,从URL列表中读入一条目标URL地址;启动Web dirver程序,自动化打开浏览器,输入读取的URL地址;从网站对应的行为列表中读取一个行为,调用相应行为的自动化模拟操作的脚本,同时开启tcpdump数据包捕获程序,执行行为自动化操作脚本,模拟网站行为操作;行为操作结束后,结束数据包捕获进程,接着执行下一个行为操作,当一个网站中的行为列表中的行为操作结束,关闭浏览器,读取网站列表中的下一个网站,重复上述操作,直至网站列表读取完毕。4.根据权利要求1所述的方法,其特征在于,所述将行为流量数据预处理为双向突发序列,包括:滤除无关流量;利用基于五元组为单位的网络会话数据包分割方法,将从数据包中提取出流,并按照五元组内容归类,五元组一致的数据包属于同一条上行或下行方向的单向数据流,保存数据包的方向信息,用+1标识上行链路的流量,

1标识下行链路的流量;丢弃由于连接建立失败等原因而长度过短的流,最终得到符合要求的数据流集合;将上行流量和下行流量分别进行处理,上行/下行突发定义为对应于每一条HTTP消息的单向数据包序列,双向突发序列定义为所有上行/下行链路中单向突发长度的序列。5.根据权利要求1...

【专利技术属性】
技术研发人员:鲁睿宋嘉莹时磊王炳旭段荣昌秦颖超王红兵夏耀华佟玲玲王东安马宏远
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1