【技术实现步骤摘要】
本申请涉及计算机,尤其涉及一种识别异常网站的训练方法、装置及存储介质。
技术介绍
1、由于异常网站的对抗愈发激烈,导致能获取到的文本等有效内容信息极大缺失,导致线上针对内容的文本模型失效,不能及时检出异常网站,导致异常网站的检出覆盖率低。
2、相关技术中,异常网站聚集部署在同一互联网协议地址下,对应互联网协议地址的异常网站占比极其高,因此,通过获取对应互联网协议地址的属性特征,刻画对应互联网协议地址的画像,圈出可疑互联网协议地址,并将其互联网协议地址下网站打上可疑标签。但是,随着异常网站上游的技术团伙对抗,及国内云服务器的普及,导致互联网协议地址画像特征失效,从而使得异常网站绕过检测。还可以从网站的页面中提取到文本信息,通过异常关键词或对文本内容进行分词、词嵌入等方法生成词向量及句向量,通过人工标注标注异常标签,送入文本分类器训练,得到文本分类模型,对线上文本也进行向量化及分类器预测类别,从而将有相似文本的网站判定为异常网站。由于文本相似分类检测技术主要基于文本,因此,能否获取到文本是该检测方法的基石,但线上爬虫能获取到的有
...【技术保护点】
1.一种识别异常网站的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述样本域名集对应的多个所述域名属性特征进行聚类,得到多个类簇,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述多个类簇各自对应的域名属性特征,确定目标类簇,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述预设域名集对应的多个所述预设域名属性特征进行聚类,得到多个预设类簇,包括:
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
6.根据权利要求2所述的方法,其特
...【技术特征摘要】
1.一种识别异常网站的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述样本域名集对应的多个所述域名属性特征进行聚类,得到多个类簇,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述多个类簇各自对应的域名属性特征,确定目标类簇,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述预设域名集对应的多个所述预设域名属性特征进行聚类,得到多个预设类簇,包括:
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
10.根据权利要求5所...
【专利技术属性】
技术研发人员:甘晓华,张凯,牛亚峰,张旭,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。