异常网站分类方法技术

技术编号:39658923 阅读:29 留言:0更新日期:2023-12-09 11:28
本申请提供一种异常网站分类方法

【技术实现步骤摘要】
异常网站分类方法、装置、设备及存储介质


[0001]本申请涉及机器学习
,尤其涉及一种异常网站分类方法

装置

设备及存储介质


技术介绍

[0002]网络信息技术的不断发展,涌现了大量的违法的异常网站,利用异常网站进行违法操作,会对用户利益和社会稳定造成损坏

[0003]在现有技术中,可以获取多个历史异常网站的历史异常链接,根据多个历史异常链接确定各类型异常网站的异常特征,根据各类型异常网站的异常特征确定目标网站的异常标签

然而,在实际应用过程中,通过异常链接确定异常特征较为局限,异常网站的链接可以通过微小的修改,而避开异常特征的检测,使得异常网站的检测分类准确性较差


技术实现思路

[0004]本申请提供一种异常网站分类方法

装置

设备及存储介质,用以解决异常网站的检测分类准确性的技术问题

[0005]第一方面,本申请提供一种异常网站分类方法,包括:
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种异常网站分类方法,其特征在于,包括:确定目标网站的链接特征

文本特征和页面图像特征,所述文本特征中包括链接文本特征和页面文本特征;根据所述链接特征

所述文本特征和所述页面图像特征,确定所述目标网站的融合特征向量;根据所述融合特征向量,判断所述目标网站的链接是否为异常网站;若是,则根据所述融合特征向量和预设分类模型,确定所述目标网站的至少一个分类标签
。2.
根据权利要求1所述的方法,其特征在于,确定所述目标网站的链接特征

文本特征和页面图像特征,包括:获取所述目标网站的统一资源定位标志
URL
,并根据
URL
确定所述链接特征和所述链接文本特征;根据所述
URL
,获取所述目标网站的访问页面;根据所述访问页面确定所述目标网站的页面文本特征和页面图像特征
。3.
根据权利要求2所述的方法,其特征在于,根据所述访问页面确定所述目标网站的页面文本特征和页面图像特征,包括:确定所述访问页面的第一页面文本和第一页面图像,所述第一页面图像中包括第二页面文本和第二页面图像;对所述第一页面文本和所述第二页面文本进行文本处理,得到所述页面文本特征;对所述第二页面图像进行图像处理,得到所述页面图像特征
。4.
根据权利要求3所述的方法,其特征在于,对所述第二页面图像进行图像处理,得到所述页面图像特征,包括:通过预设图像处理模型对第二页面图像进行图像处理,得到所述第二页面图像的多维特征向量;对所述多维特征向量进行池化处理,得到一维特征向量,并将所述一维特征向量确定为页面图像特征
。5.
根据权利要求3或4任一项所述的方法,其特征在于,对所述第一页面文本和所述第二页面文本进行文本处理,得到所述页面文本特征,包括:对所述第一页面文本和所述第二页面文本进行分词处理,得到多个分词,并确定每个分词的第一分词数量;将所述每个分词的分词数量除以所述每个分词的分词数量之和,得到每个分词的分词词频;根据所述每个分词的分词词频确定所述每个分词的重要度;根据所述每个分词的重要度,确定预设分词的重要度,并将所述预设分词的重要度确定为页面文本特征
。6.
根据权利要求1‑5任一项所述的方法,其特征在于,根据所述链接特...

【专利技术属性】
技术研发人员:古丁如史炳荣李思聪王鑫妍张建荣周凯张建桁梁育雷晶王天翔张翔宇管彤
申请(专利权)人:联通数字科技有限公司联通智慧安全科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1