识别异常网站的训练方法、装置及存储介质制造方法及图纸

技术编号：41536706 阅读：37 留言：0更新日期：2024-06-03 23:15

本申请公开了一种识别异常网站的训练方法、装置及存储介质，可以应用于云技术、人工智能、智慧交通、车联网等各种场景，该方法包括：获取样本网站集对应的样本域名集；样本域名集包括正样本域名以及负样本域名；确定样本域名集中各个样本域名对应的域名属性特征；基于样本域名集对应的多个域名属性特征进行聚类，得到多个类簇；根据多个类簇各自对应的域名属性特征，确定目标类簇；将目标类簇对应的正样本域名的标签，更新为异常类别标签，得到更新样本域名集；根据更新样本域名集训练预设模型，得到异常网站识别模型。本申请得到异常网站识别模型可以提高异常网站的检测准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，尤其涉及一种识别异常网站的训练方法、装置及存储介质。

技术介绍

1、由于异常网站的对抗愈发激烈，导致能获取到的文本等有效内容信息极大缺失，导致线上针对内容的文本模型失效，不能及时检出异常网站，导致异常网站的检出覆盖率低。

2、相关技术中，异常网站聚集部署在同一互联网协议地址下，对应互联网协议地址的异常网站占比极其高，因此，通过获取对应互联网协议地址的属性特征，刻画对应互联网协议地址的画像，圈出可疑互联网协议地址，并将其互联网协议地址下网站打上可疑标签。但是，随着异常网站上游的技术团伙对抗，及国内云服务器的普及，导致互联网协议地址画像特征失效，从而使得异常网站绕过检测。还可以从网站的页面中提取到文本信息，通过异常关键词或对文本内容进行分词、词嵌入等方法生成词向量及句向量，通过人工标注标注异常标签，送入文本分类器训练，得到文本分类模型，对线上文本也进行向量化及分类器预测类别，从而将有相似文本的网站判定为异常网站。由于文本相似分类检测技术主要基于文本，因此，能否获取到文本是该检测方法的基石，但线上爬虫能获取到的有...

【技术保护点】

1.一种识别异常网站的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述样本域名集对应的多个所述域名属性特征进行聚类，得到多个类簇，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述多个类簇各自对应的域名属性特征，确定目标类簇，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述预设域名集对应的多个所述预设域名属性特征进行聚类，得到多个预设类簇，包括：

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

6.根据权利要求2所述的方法，其特征在于，所述方法还包...

【技术特征摘要】

1.一种识别异常网站的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述样本域名集对应的多个所述域名属性特征进行聚类，得到多个类簇，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述多个类簇各自对应的域名属性特征，确定目标类簇，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述预设域名集对应的多个所述预设域名属性特征进行聚类，得到多个预设类簇，包括：

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

6.根据权利要求2所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.根据权利要求5所...

【专利技术属性】
技术研发人员：甘晓华，张凯，牛亚峰，张旭，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人