一种基于深度学习的非法网站识别方法技术

技术编号：41191854 阅读：2 留言：0更新日期：2024-05-07 22:21

本发明专利技术涉及网站筛选技术领域，公开了一种基于深度学习的非法网站识别方法，S100：将网站的HTML内容输入至BERT‑CNN模型中，输出网站为非法网站的概率；S200：将网站的图片输入至ResNet‑18模型中，输出网站为非法网站的概率；S300：获取BERT‑CNN模型和ResNet‑18模型的输出，通过融合算法对这两个分类结果进行融合，待识别网站被预测为非法网站的概率；S400：对已判断其为非法网站的待识别网站的网站URL进行标记，并录入至非法网站库内储存。本发明专利技术使用BERT模型和ResNet模型研究了非法网站不同维度信息的特征分析和提取，并对BERT模型在局部特征提取存在的问题进行了改进，在公开的数据集上进行实验测试，模型的评价指标表现出良好的性能，能够有效地检测和识别非法网站。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网站筛选领域，更具体地说，它涉及一种基于深度学习的非法网站识别方法。

技术介绍

1、在互联网迅速发展的背景下，网络安全问题变得日益突出。在一些非法网站的html内容中，通常具有长文本、大量信息和复杂结构，并可能包含动态生成的javascript脚本，增加了页面的复杂性，让文本内容变得难以阅读和理解，增加模型的识别难度。

2、尤其是，一些非法网站的网页的html会通过 javascript 来动态修改页面内容，具体的，使用 javascript 设置一个定时器，每隔一定时间更换文字内容，实现文字的动态变化效果，会使网页的html在被文本特征提取模型进行文本特征提取时，提取的文本特征和从网站截图提取的图像特征并非完全是网页的首页，使非法网站的判断结果存在偏差。

技术实现思路

1、本专利技术提供一种基于深度学习的非法网站识别方法，解决相关技术中非法网站会使用 javascript 设置一个定时器，每隔一定时间更换文字内容，实现文字的动态变化效果，会使网页的html在被文本特征提取模型进行文本特征提取时，提取的文本特征和从网站截图提取的图像特征并非完全是网页的首页，造成非法网站的判断结果存在偏差的技术问题。

2、本专利技术提供了一种基于深度学习的非法网站识别方法，包括以下步骤：

3、s100：将网站的html内容输入至bert（bidirectional encoder representationsfrom transformers）-c

4、s200：将网站的图片输入至resnet-18模型中，输出网站为非法网站的概率；

5、s300：获取bert-cnn模型和resnet-18模型的输出，通过融合算法对这两个分类结果进行融合，待识别网站被预测为非法网站的概率，当该被预测为非法网站的概率大于0.5，则该待识别网站为非法网站；

6、融合算法的计算公式如下：

7、；

8、表示考虑文本和图像特征后，第i个待识别网站被预测为非法网站的概率，和分别表示第一特征权重系数和第二特征权重系数，是基于bert-cnn模型预测的测试集中第i个网站为非法网站的概率，是基于resnet-18模型预测的测试集中第i个网站为非法网站的概率；

9、s400：对已判断其为非法网站的待识别网站的网站url进行标记，并录入至非法网站库内储存。

10、进一步地，在步骤s100中还包括：

11、s110，将第一网页文本和第二网页文本分别进行分句，生成第一句子集合和第二句子集合，第一句子集合包括第一网页文本分句的所有句子，第二句子集合包括第二网页文本分句的所有句子；

12、每间隔一段时间提取一次网页文本，直至提取到一个与第一次提取的网页文本不完全相同的网页文本为止，最后一次提取的网页文本即是第二网页文本，第一次提取的网页文本是第一网页文本；

13、s120，删除第一句子集合和第二句子集合中属于否定句的句子；

14、s130，将第一句子集合中的句子与第二句子集合中的句子分别进行一一对比，在每次对比时进行以下操作：

15、删除重复的词，然后将不重复的词放入第一词库；

16、s140，识别第一词库中属于敏感词的词来放入第二词库中；

17、s150，在步骤s110中的第一句子集合中提取包含第二词库的词的句子生成第三句子集合；

18、在步骤s110中的第二句子集合中提取包含第二词库的词的句子生成第四句子集合；

19、s160，从第一网页文本中删除不属于第三句子集合的句子获得第一文本；

20、从第二网页文本中删除不属于第四句子集合的句子获得第二文本；

21、将第二文本组合到第一文本之后获得第三文本，第三文本作为网站的html内容输入bert-cnn模型。

22、进一步地，在步骤s120中否定句的定义是：一个句子中包含了奇数个否定词；

23、判断词语是否定词时将句子进行分词，然后将分词后的词与否定词的词库中的词进行匹配，如果匹配到相同的词，则判断该词为否定词；

24、否定词的词库为包括所有否定词的词库。

25、进一步地，步骤s100还包括以下步骤：

26、s101：将首页图片中的文本特征进行分词，并添加分类标记和分段标记，以及对应的位置编码；

27、s102：将编码后的文本输入bert模型，获取模型在文本上的隐藏状态，通常是提取最后一层的隐藏状态作为文本嵌入；

28、bert模型的注意力机制的计算公式为：

29、；

30、q代表query矩阵，也称为查询向量矩阵，表示目标字或待生成标注的词；v代表value矩阵，也称为值向量矩阵，表示上下文中各个字的原始value表示；k代表key矩阵，也称为键向量矩阵，表示上下文中各个字的key向量表示，q和k矩阵中向量的维度为；

31、s103：获得的文本嵌入作为第一文本特征向量；

32、s104：将第一文本特征向量输入cnn模型，cnn模型包括基于卷积神经网络的局部特征卷积层、全连接层和分类器层，局部特征卷积层使用卷积核来提取文本中包含的关键短语局部显著特征，作为第二文本特征向量；

33、s105：高级特征向量输入到全连接层，全连接层的输出输入分类器层，在分类器层中使用softmax函数输出网站为非法网站的概率。

34、进一步地，在步骤s104中，局部特征卷积层包含多个卷积操作，每个卷积操作产生一个显著特征，将这些特征串联起来形成高级特征向量，高级特征向量表示为：

35、；

36、、、分别表示第1、2、y个卷积操作获得的显著特征，这个高级特征向量作为局部特征卷积模块的输出，并被用于最终的文本分类任务；

37、对于一个卷积操作，采用一维卷积操作来生成特征图；

38、再对特征图进行最大化池化，提取最大值作为对应的显著特征；

39、使用卷积操作来提取文本中包含的关键短语局部显著特征。

40、在步骤s200中，还包括以下步骤：

41、s201：经过resnet-18模型的卷积层和池化层对网站的图片进行初步降维和特征提取，得到网站的图片中的图像特征；

42、s202：resnet-18模型通过一系列堆叠的残差块构成了四个阶段，每个阶段都包含多个残差块，其中每个残差块由两个3×3大小的卷积层组成；

43、残差的计算公式为：

44、；

45、为当前残差块的输入，为当前残差块的输出，表示用来调整卷积层的权重参数，影响当前残差块的输入的变换，是残差部分，由两个或三个卷积层组成，将的输出与相加后，通过非线性激活relu本文档来自技高网...

【技术保护点】

1.一种基于深度学习的非法网站识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的非法网站识别方法，其特征在于，在步骤S120中否定句的定义是：一个句子中包含了奇数个否定词；

3.根据权利要求2所述的一种基于深度学习的非法网站识别方法，其特征在于，步骤S100还包括以下步骤：

4.根据权利要求3所述的一种基于深度学习的非法网站识别方法，其特征在于，在步骤S104中，局部特征卷积层包含多个卷积操作，每个卷积操作产生一个显著特征，将这些特征串联起来形成高级特征向量，高级特征向量表示为：

5.根据权利要求1所述的一种基于深度学习的非法网站识别方法，其特征在于，在步骤S200中，还包括以下步骤：

6.根据权利要求5所述的一种基于深度学习的非法网站识别方法，其特征在于，该识别方法还包括用于性能标准评价的混淆矩阵，性能标准评价的指标包括准确率、精确度、召回率以及统计量，混淆矩阵由真正例、真负例、假正例和假负例四个值组成。

7.根据权利要求6所述的一种基于深度学习的非法网站识别方法，其特征在于，准确率的表达式为：

8.根据权利要求7所述的一种基于深度学习的非法网站识别方法，其特征在于，F-measure是召回率和精确度的调和平均数，其表达式为：

9.一种基于深度学习的非法网站识别系统，其特征在于，其通过如权利要求1-8任一所述的基于深度学习的非法网站识别方法进行非法网站识别，包括：

10.一种存储介质，其特征在于，其存储了非暂时性计算机可读指令，当非暂时性计算机可读指令由计算机执行时，能够执行如权利要求1-8中任一所述的一种基于深度学习的非法网站识别方法中的步骤。

...

【技术特征摘要】

1.一种基于深度学习的非法网站识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的非法网站识别方法，其特征在于，在步骤s120中否定句的定义是：一个句子中包含了奇数个否定词；

3.根据权利要求2所述的一种基于深度学习的非法网站识别方法，其特征在于，步骤s100还包括以下步骤：

4.根据权利要求3所述的一种基于深度学习的非法网站识别方法，其特征在于，在步骤s104中，局部特征卷积层包含多个卷积操作，每个卷积操作产生一个显著特征，将这些特征串联起来形成高级特征向量，高级特征向量表示为：

5.根据权利要求1所述的一种基于深度学习的非法网站识别方法，其特征在于，在步骤s200中，还包括以下步骤：

6.根据权利要求5所述的一种基于深度学习的非法网站识别方法，其特征在于...

【专利技术属性】
技术研发人员：熊凌龙，何月顺，陈杰，
申请(专利权)人：江西珉轩大数据有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人