一种基于模型级联的网络公害网站发现方法及系统技术方案

技术编号：40542694 阅读：5 留言：0更新日期：2024-03-05 18:59

本发明专利技术公开了一种基于模型级联的网络公害网站发现方法及系统，属于网络安全领域，第一步，通过网站数据库来对待测网站进行初步判断，初步判断如有结果则输出网站类型，如无结果则进行下一步；第二步，进行特征对比，若满足特征对比则输出网站类型，不满足则进行下一步；第三步，进行关键点对比，若达到关键点数量则输出网站类型，未达到则进行下一步；第四步，进行分类对比，通过不同的网站特征表现，将无害网站归类为无效样本，然后进行下一步；第五步，进行同源对比，判断待测网站信息和注册域名是否一致，若一致则判断为公害网站，否则保持前面四步的判断结果；解决了现有技术对公害网站的识别准确率较低的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于网络安全，具体涉及一种基于模型级联的网络公害网站发现方法及系统。

技术介绍

1、随着互联网的快速发展和普及，人们越来越依赖于网络，从而带来了许多好处和便利。然而，与此同时，互联网也带来了一些负面影响，其中之一就是网络公害。网络公害是指通过互联网传播的各种有害信息和行为，对个人、社会和环境产生不利影响的现象。

2、但是，现有的技术都是利用网络公害网站的一种或者两种特征（例如：文本、图像或者文本加图像）进行识别，由于随着技术的升级和公害团伙的发展，该识别方式存在一定的片面性，不能更好的发现公害网站，导致对网络公害网站的识别结果的准确率比较低。

技术实现思路

1、针对现有技术中存在的识别准确率低问题，本专利技术提出了一种基于模型级联的网络公害网站发现方法，其目的为：提高对公害网站的识别率。

2、第一步，通过网站数据库来对待测网站进行初步判断，初步判断如有结果则输出网站类型，如无结果则进行下一步；第二步，进行特征对比，若满足特征对比则输出网站类型，不满足则进行下一步；第三步，进行关键点对比，若达到关键点数量则输出网站类型，未达到则进行下一步；第四步，进行分类对比，通过不同的网站特征表现，将无害网站归类为无效样本，然后进行下一步；第五步，进行同源对比，判断待测网站信息和注册域名是否一致，如若一致则判断为公害网站，否则保持前面四步的判断结果；至此流程结束。

3、较优的，网站数据库采集并记录公害网站的基本信息，包括：网站地址、网站 ip、网站源码

4、较优的，特征对比首先对采集的公害网站的图片进行基于autoencoder算法的特征对比模型构建，并基于构建的模型进行公害网站图片的特征提取，然后将提取的特征存入特征数据库；通过特征对比模型对待识别网站的截图提取图片特征，并在特征数据库对提取的图片特征进行搜索对比，若满足预设阈值则输出结果，不满足则进行下一步。

5、较优的，关键点对比首先通过已有的公害网站图片进行基于 superpoint 算法的关键点模型构建，并通过该关键点模型提取待识别网站的图片，和特征对比步骤中不满足预设阈值但和待识别网站的图片最相近的公害网站的图片，然后通过该关键点模型提取这两张图片的关键点特征和关键点数，如果该关键点数满足预设的关键点对比阈值，则该待识别网站和最相近的公害网站为同一类型，不满足则进行下一步。

6、较优的，关键点对比使用了k-最近邻算法，将待识别网站的关键点特征和最相近的公害网站的关键点特征进行对比。

7、较优的，分类对比首先构建基于 swin-transformerv2算法的多标签分类模型，从图片细粒度特征信息、文本特征信息和不同涉诈类型的网站特征表现形式来判断该待识别网站的涉诈类型，将无公害元素的网站判定为无效样本，将不满足分类模型的样本进行下一步判断。

8、较优的，构建多标签分类模型之前，需要对已有的公害网站图片进行分析、人工标注以及多标签标注。

9、较优的，同源对比是将公害网站的关系数据构建同源分析模型，将待识别网站的关系数据和已有公害网站的关系数据进行关系规则匹配，用于判断关系数据是否一致，如果一致则说明待识别的网站和已有的公害网站为同样的公害类型。

10、较优的，关系数据包括网站地址、网站注册域名、网站的跳转地址、网站 ip以及网站的网页结构 hash。

11、较优的，采集公害网站的多维结构数据，包含网站基本信息、网站注册信息、公害类型、时序信息，然后构建网站数据库，该网站数据库可以记录公害网站的时序变化过程，提高对公害网站的研判能力和分析能力。

12、较优的，基于autoencoder算法构建的特征对比模型，可以从公害网站图片的直观展示来提取公害网站的全局表示特征，然后通过该模型按照公害类型构建公害网站特征数据库，可以提高公害网站的识别结果准确度。

13、较优的，基于 superpoint 算法构建的关键点模型，是从公害网站图片的关键点来提取公害网站的关键表示特征，并结合图片间的关键点特征相似性对比策略构成关键点比对模型，从关键特征的角度，识别各种公害网站的变体，提高了对新生或者变异后的公害网站的识别准确率。

14、较优的，通过对公害网站的分析结合已有的公害类型，对具有相同特性或者特定公害类型的公害网站构建不同的分类模型，并将这些模型融合成一个分类模型组对公害网站进行补充识别，降低了对公害网站识别的误报率和漏报率。

15、较优的，网站数据库会随着数据的更新，根据最终的识别结果进行构建对应的数据形式去补充给网站数据库，同时特征数据库也会根据识别结果不断的自动更新，自动添加涉诈网站的新样本特征。

16、一种基于模型级联的网络公害网站发现系统，包括以下模块：

17、数据库模块：采集公害网站相关的数据并存入数据库；获取待识别网站的信息，并于数据库中进行检索，如若存在则输出结果，如若不存在则进入特征对比模块；

18、特征对比模块：对公害网站进行特征提取，建立特征数据库将提取的特征存入，提取待识别网站的特征，并在特征数据库进行搜索比对，若满足预设阈值则输出结果，不满足则进入关键点对比模块。

19、关键点对比模块：在数据库中检索与待识别网站相似的网站，并一同与待识别网站进行关键点提取，然后进行关键点比对，若满足预设阈值则输出结果，如不满足则进入分类对比模块；

20、分类对比模块：从图片细粒度特征信息、文本特征信息和不同涉诈类型的网站特征表现形式来判断该待识别网站的涉诈类型，并将无公害元素的网站判定为无效样本，并将不满足以上条件的待识别网站输出到同源对比模块；

21、同源对比模块：将待识别网站的信息与已有公害网站的信息进行关系规则的匹配，判断待识别网站的网站hash、跳转地址、网站ip、注册域名和已有公害网站的网站hash、跳转地址、网站ip、注册域名是否一致，如若一致则输出为公害网站，不一致则判定为无效样本，流程结束。

22、相比现有技术，本专利技术的技术方案具有如下优点/有益效果：

23、1.从关键特征的角度，识别各种公害网站的变体，提高了对新生或者变异后的公害网站的识别准确率。

24、2.构建分类模型组对公害网站进行补充识别，降低了对公害网站识别的误报率和漏报率。

25、3.通过网站数据库的建立，提高了对网络公害网站的研判能力和分析能力。

26、4. 基于autoencoder算法构建的特征对比模型，可以从公害网站图片的直观展示来提取公害网站的全局表示特征，然后通过该模型按照公害类型构建公害网站特征数据库，可以提高公害网站的识别结果准确度。

27、5. 基于 superpoint 算法构建的关键点模型，是从公害网站图片的关键点来提取公害网站的关键表示特征，并结合图片间的关键点特征相似性对比策略构成关键点比对本文档来自技高网...

【技术保护点】

1.一种基于模型级联的网络公害网站发现方法，其特征在于，第一步，通过网站数据库来对待测网站进行初步判断，初步判断如有结果则输出网站类型，如无结果则进行下一步；第二步，进行特征对比，若满足特征对比则输出网站类型，不满足则进行下一步；第三步，进行关键点对比，若达到关键点数量则输出网站类型，未达到则进行下一步；第四步，进行分类对比，通过不同的网站特征表现，将无害网站归类为无效样本，然后进行下一步；第五步，进行同源对比，判断待测网站信息和注册域名是否一致，如若一致则判断为公害网站，否则保持前面四步的判断结果；至此流程结束。

2.根据权利要求1所述的一种基于模型级联的网络公害网站发现方法，其特征在于，所述网站数据库采集并记录公害网站的基本信息，包括：网站地址、网站IP、网站源码、网站图片、注册域名、网页结构hash、Whois 信息。

3.根据权利要求1所述的一种基于模型级联的网络公害网站发现方法，其特征在于，所述特征对比步骤，首先对采集的公害网站的图片进行基于AutoEncoder算法的特征对比模型构建，并基于构建的模型进行公害网站图片的特征提取，然后将提取的特征

4.根据权利要求3所述的一种基于模型级联的网络公害网站发现方法，其特征在于，所述关键点对比步骤，首先通过已有的公害网站图片进行基于 SuperPoint 算法的关键点模型构建，并通过该关键点模型提取待识别网站的图片，和特征对比步骤中不满足预设阈值但和待识别网站的图片最相近的公害网站的图片，然后通过该关键点模型提取这两张图片的关键点特征和关键点数，如果该关键点数满足预设的关键点对比阈值，则该待识别网站和最相近的公害网站为同一类型，不满足则进行下一步。

5.根据权利要求4所述的一种基于模型级联的网络公害网站发现方法，其特征在于，所述关键点对比步骤，使用了k-最近邻算法，将待识别网站的关键点特征和最相近的公害网站的关键点特征进行对比。

6.根据权利要求1所述的一种基于模型级联的网络公害网站发现方法，其特征在于，所述分类对比步骤，首先构建基于 swin-transformerV2算法的多标签分类模型，从图片细粒度特征信息、文本特征信息和不同涉诈类型的网站特征表现形式来判断该待识别网站的涉诈类型，将无公害元素的网站判定为无效样本，将不满足分类模型的样本进行下一步判断。

7.根据权利要求6所述的一种基于模型级联的网络公害网站发现方法，其特征在于，构建多标签分类模型之前，需要对已有的公害网站图片进行分析、人工标注以及多标签标注。

8.根据权利要求1所述的一种基于模型级联的网络公害网站发现方法，其特征在于，所述同源对比步骤，将公害网站的关系数据构建同源分析模型，将待识别网站的关系数据和已有公害网站的关系数据进行关系规则匹配，用于判断关系数据是否一致，如果一致则说明待识别的网站和已有的公害网站为同样的公害类型。

9.根据权利要求8所述的一种基于模型级联的网络公害网站发现方法，其特征在于，所述关系数据包括网站地址、网站注册域名、网站的跳转地址、网站 IP以及网站的网页结构hash。

10.一种基于模型级联的网络公害网站发现系统，其特征在于，包括以下模块：

...

【技术特征摘要】

2.根据权利要求1所述的一种基于模型级联的网络公害网站发现方法，其特征在于，所述网站数据库采集并记录公害网站的基本信息，包括：网站地址、网站ip、网站源码、网站图片、注册域名、网页结构hash、whois 信息。

3.根据权利要求1所述的一种基于模型级联的网络公害网站发现方法，其特征在于，所述特征对比步骤，首先对采集的公害网站的图片进行基于autoencoder算法的特征对比模型构建，并基于构建的模型进行公害网站图片的特征提取，然后将提取的特征存入特征数据库；通过特征对比模型对待识别网站的截图提取图片特征，并在特征数据库对提取的图片特征进行搜索对比，若满足预设阈值则输出结果，不满足则进行下一步。

4.根据权利要求3所述的一种基于模型级联的网络公害网站发现方法，其特征在于，所述关键点对比步骤，首先通过已有的公害网站图片进行基于 superpoint 算法的关键点模型构建，并通过该关键点模型提取待识别网站的图片，和特征对比步骤中不满足预设阈值但和待识别网站的图片最相近的公害网站的图...

【专利技术属性】
技术研发人员：漆伟，张瑞冬，童永鳌，朱鹏，马永霄，
申请(专利权)人：成都无糖信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人