当前位置: 首页 > 专利查询>厦门大学专利>正文

一种少样本网页指纹学习方法、终端设备及存储介质技术

技术编号:37985214 阅读:23 留言:0更新日期:2023-06-30 09:59
本发明专利技术涉及一种少样本网页指纹学习方法、终端设备及存储介质,该方法中包括:组建预训练数据集和少样本数据集;构建对比网络,对比网络包括数据增强模块、特征提取器、投影头模块和对比损失模块;通过预训练数据集对对比网络进行训练,得到预训练特征提取器;将少样本数据集中的原始流量经过数据增强模块和训练后的特征提取器后得到少样本数据集中各样本的增强流量的特征向量;构建线性分类器,将特征向量作为线性分类器的输入线性分类器进行训练;将训练后的特征提取器和训练后的线性分类器组合得到流量分类模型,通过流量分类模型对待监测网页的流量进行指纹识别。本发明专利技术可以通过收集少量流量快速训练新的分类器,保证了网页指纹识别的准确性。网页指纹识别的准确性。网页指纹识别的准确性。

【技术实现步骤摘要】
一种少样本网页指纹学习方法、终端设备及存储介质


[0001]本专利技术涉及网页监控领域,尤其涉及一种少样本网页指纹学习方法、终端设备及存储介质。

技术介绍

[0002]随着互联网技术的发展,Web服务不断为人们生活提供便利,但数据的激增也带来了一系列网络安全和隐私保护难题。匿名网络原本是一种隐私保护技术,对网络流量进行多层加密以实现通信匿名化,但它也使监管人员无法判断目标用户是否在互联网中进行了非法访问。不法分子常常利用Tor等匿名网络隐秘地浏览和传播不良甚至违法信息,给社会秩序造成了极大威胁。因此,针对匿名通信流量的分析技术迅速发展,例如流量关联分析技术、流水印技术和网页指纹识别(Website Fingerprinting,WF)等。前两种技术存在部署难和成本高的问题,而容易部署的WF技术在流量识别过程中无需任何解密操作,已成为网页浏览监管的有效方法。
[0003]WF技术通过统计和分析加密流量的模式特征来识别被访问的网页。监管者预先确定需要受监视的一系列网页(例如禁止访问的非法网页列表),然后收集各个受监视网页的流量样本,并提取流本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种少样本网页指纹学习方法,其特征在于,包括以下步骤:S1:收集受监视网页的原始流量组成预训练数据集,并设置每个原始流量的标签为其对应的网页的类别;S2:构建对比网络,对比网络包括数据增强模块、特征提取器、投影头模块和对比损失模块;数据增强模块对输入的原始流量进行数据增强处理得到增强流量,特征提取器从增强流量中提取特征向量,投影头模块将特征提取器输出的特征向量映射到对比损失模块,对比损失模块基于投影头的输出计算对比损失;使用预训练数据集训练对比网络,将训练后的特征提取器作为预训练特征提取器;S3:采集与预训练数据集相比数量较少的原始流量组成少样本数据集,并设置每个原始流量的标签为其对应的网页的类别;S4:将少样本数据集中的原始流量经过数据增强模块和S2步骤得到的预训练特征提取器处理后,得到少样本数据集中各样本的增强流量的特征向量;S5:构建线性分类器,将步骤S4得到的特征向量作为线性分类器的输入线性分类器进行训练,得到训练后的线性分类器;S6:组合步骤S2得到的预训练特征提取器和步骤S5得到的训练后...

【专利技术属性】
技术研发人员:谢怡张亦希冯嘉豪许卓斌孙学良熊鑫鑫
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1