【技术实现步骤摘要】
非法网站识别方法、装置、电子装置和存储介质
[0001]本申请涉及网络安全领域,特别是涉及一种非法网站识别方法、装置、电子装置和存储介质。
技术介绍
[0002]随着互联网快速发展,各种类型的非法网站层出不穷,给群众带来了一定的受害风险。由于非法经营网站存在变化快、分布广等特点,且一些网页篡改网站与非法经营网站存在共性,容易导致判断失误,而网络安全维护人员需要快速取证并及时准确地封堵该类网站。因此需要一种快速准确的识别非法经营网站的方法,协助侦查人员精准发现、及时封堵,降低群众受害风险。
[0003]相关技术中存在着两种非法网站识别方法:
[0004]一是通过积累非法经营关键词,采用关键词匹配的网站识别方法;但是该方法识别准确率太低。
[0005]二是结合自然语义和图像处理模型的网站识别方法,先通过自然语义算法初步识别非法网站,再利用图像处理模型进一步识别出非法网站;但是该方法识别效率较低、性能要求较高,由于图像识别算法复杂度高,因此不利于识别海量数据。
[0006]针对相关技术中存在的网站识 ...
【技术保护点】
【技术特征摘要】
1.一种非法网站识别方法,其特征在于,包括:获取待识别网站的第一特征向量,所述第一特征向量基于所述待识别网站的网页文本内容生成;将所述待识别网站的第一特征向量输入至预先训练得到的网站分类模型进行识别,以获得疑似非法网站;获取所述疑似非法网站的第二特征向量,所述第二特征向量基于所述疑似非法的网页要素生成;将所述疑似非法网站的第二特征向量输入至预先训练得到的集成算法模型进行识别,以获得所述非法网站。2.根据权利要求1所述的非法网站识别方法,其特征在于,所述获取待识别网站的第一特征向量包括:获取所述待识别网站的源码数据,并对所述待识别网站的源码数据进行预处理,以获得所述待识别网站的网页文本内容;对所述待识别网站的网页文本内容按字粒度进行分割,得到所述待识别网站的第一特征;对所述待识别网站的第一特征进行向量化处理,得到所述第一特征向量。3.根据权利要求1所述的非法网站识别方法,其特征在于,所述获取所述疑似非法网站的第二特征向量包括:获取所述疑似非法网站的源码数据,基于所述疑似非法网站的源码数据,提取所述疑似非法网站的网页要素作为所述第二特征;对所述疑似非法网站的第二特征进行向量化处理,得到所述第二特征向量。4.根据权利要求1所述的非法网站识别方法,其特征在于,所述网站分类模型为基于注意力机制的双向长短期记忆网络模型;所述集成算法模型采用Boosting集成算法。5.根据权利要求1
‑
4任一项所述的非法网站识别方法,其特征在于,所述网站分类模型的训练方法包括:获取第一样本网站的源码数据,并对所述第一样本网站的源码数据进行预处理,以获得所述第一样本网站的网页文本内容,其中所述第一样本网站包括合法网站和非法网站;对所述第一样本网站的网页文本内容按字粒度进行分割,得到所述第一样本网站的第一特征;对所述第一样本网站的第一特征进行向量化处理,得到所述第一样本网站的第一...
【专利技术属性】
技术研发人员:陈兰兰,宓晨希,范渊,黄进,
申请(专利权)人:杭州安恒信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。