【技术实现步骤摘要】
一种加权的暗网资源危险评估分类方法及系统
本专利技术涉及互联网领域,尤其是涉及一种加权的暗网资源危险评估分类方法及系统。
技术介绍
暗网是指不能通过静态链接获取其内容的web页面,这些页面是目前搜索引擎无法直接抓取的网页,且不能直接进行检索的网页,目前用户可以根据暗网域名,利用匿名网络即洋葱路由器(TheOnionRouter,Tor)进入暗网的页面。暗网为用户提供了匿名化的服务,在保证用户隐私的同时也助长了犯罪的行为。暗网中包含了大量重要的隐藏数据信息,为了对暗网网站进行安全性检测和评估,现有的暗网资源评估方法是对暗网资源进行分类,然后对不同分类的暗网进行危险等级排列,进而确定某暗网的危险等级;现有的暗网资源危险评估方法不能准确的体现暗网的危险等级,对于各暗网资源之间的危险等级没有明确的划分。
技术实现思路
针对上述问题,本专利技术提供了一种加权的暗网资源危险评估分类方法及系统,通过计算暗网中词汇的TF-IDF值,精确获取暗网中的中心词汇,同时采用一种加权的手段,通过暗网html文件不同 ...
【技术保护点】
1.一种加权的暗网资源危险评估分类方法,其特征在于,包括:/n爬取暗网网址,获取该网址的html文件;/n按照所述html文件中的标签提取网站内容;/n计算所述网站内容中每个词的TF-IDF值;/n预设html文件中各标签的重要程度值;/n将每个词的所述TF-IDF值与该词所属标签的重要程度值相乘作为网站的文本特征;/n根据网站的文本特征构建网站空间向量;/n将网站空间向量输入训练好的空间向量评估分类模型进行网站危险等级评估,输出网站危险等级。/n
【技术特征摘要】
1.一种加权的暗网资源危险评估分类方法,其特征在于,包括:
爬取暗网网址,获取该网址的html文件;
按照所述html文件中的标签提取网站内容;
计算所述网站内容中每个词的TF-IDF值;
预设html文件中各标签的重要程度值;
将每个词的所述TF-IDF值与该词所属标签的重要程度值相乘作为网站的文本特征;
根据网站的文本特征构建网站空间向量;
将网站空间向量输入训练好的空间向量评估分类模型进行网站危险等级评估,输出网站危险等级。
2.根据权利要求1所述的方法,其特征在于:所述html文件中的标签包括title、link、body、head、h1、b、strong、ahref=“…”和i。
3.根据权利要求2所述的方法,其特征在于:所述预设html文件中各标签的重要程度值,包括:
根据各标签使用位置的不同,设置其标签重要程度值;
标签重要程度值从大到小依次为title>head>h1>body>strong=b>i>link>ahref=“…”。
4.根据权利要求1所述的方法,其特征在于:当所述词所属的标签有多个时,计算多个标签的重要程度值平均值作为该词对应标签的重要程度值。
5.根据权利要求1所述的方法,其特征在于:计算所述网站内容中每个词的TF-IDF值,其中每个词不包括应删除词,应删除词不能表示网页的危险程度,应删除词包括"的"、"是"、"和"、"中"、"地"、"得"。
6.根据权利要求1所述的方法,其特征在于:根据网站的文本特征利用word2vec模型构建网站的空间向量。
7.根据权利要求1所述的方法,其特征在于,所述将网站空间向量输入训练好的空间向量评估分类模型进行网站危险等级评估,输出网站危险...
【专利技术属性】
技术研发人员:何泾沙,他永君,朱娜斐,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。