恶意网址识别方法、网址样本生成方法及相关设备技术

技术编号：41258863 阅读：3 留言：0更新日期：2024-05-11 09:17

本发明专利技术实施例涉及信息安全技术领域，公开了一种恶意网址识别方法，该方法包括：获取待识别网址；将所述待识别网址输入恶意网址识别模型中，得到识别结果；其中，所述恶意网址识别模型根据网址训练样本输入预设的融合模型中训练得到；所述网址训练样本基于样本信息量对初始网址样本进行选择后进行标注处理得到；所述融合模型包括多个异质基模型；所述样本信息量包括网址密度、网址相似性、网址不确定性及基于网址类别的度量。通过上述方式，本发明专利技术实施例实现了对恶意网址的准确识别。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及信息安全，具体涉及一种恶意网址识别方法、恶意网址样本生成方法、恶意网址识别装置、计算机设备及计算机可读存储介质。

技术介绍

1、目前随着互联网的快速发展以及网民数量的不断攀升，信息在高速交互过程中恶意网址严重威胁用户的隐私和信息安全，随着人工智能技术的发展，往往采用机器学习技术来快速、准确地识别恶意网址。

2、然而，由于一方面，恶意网址样本的数量少，使得恶意网址样本的资源有限；另一方面，对于网址样本，通过人工判研确定样本时，恶意网址容易识别，而正常网址则需要排除所有不可能，这在事实上当前黑色产业隐匿能力较强的情况下是难以真正做到的。

3、因此，在资源有限的前提下，在恶意网址检测领域存在时间成本高、获取难度大、存在误差、数据质量差、假设理想化等问题，导致恶意网址识别的准确率较低。

技术实现思路

1、鉴于上述问题，本专利技术实施例提供了一种恶意网址识别方法、恶意网址样本生成方法、恶意网址识别装置、计算机设备及计算机可读存储介质，用于解决现有技术中存在的由于在资源有限的前提下，在恶意网址检测领域存在时间成本高、获取难度大、存在误差、数据质量差、假设理想化等问题，导致的恶意网址识别的准确率较低问题。

2、根据本专利技术实施例的一个方面，提供了一种恶意网址识别方法，所述方法包括：

3、获取待识别网址；

4、将所述待识别网址输入恶意网址识别模型中，得到识别结果；其中，所述恶意网址识别模型根据网址训练样本输入预设的融

5、在一种可选的方式中，所述将所述待识别网址输入恶意网址识别模型中，得到识别结果之前，所述方法包括：

6、对用户的网址访问行为数据进行预处理，得到初始网址样本集；

7、基于样本信息量对所述初始网址样本集中的初始网址样本进行选择，得到所述网址初始训练样本；

8、对所述网址初始训练样本进行标注处理，得到所述网址训练样本。

9、在一种可选的方式中，所述基于样本信息量对所述初始网址样本集中的初始网址样本进行选择，得到所述网址初始训练样本，进一步包括：

10、根据实时融合模型的准确率及初始值确定度量参数；

11、根据所述度量参数、所述网址密度、所述网址相似性、所述网址不确定性及基于网址类别的度量，确定所述样本信息量。

12、在一种可选的方式中，所述对所述网址初始训练样本进行标注处理，得到所述网址训练样本，包括：

13、步骤001：获取标注后的网址初始训练样本；所述标注后的网址初始训练样本包括正样本集、可靠负样本集以及待确认样本集；所述正样本集为通过多种渠道标注确认的正样本；所述可靠负样本集为通过多种渠道标注确认的负样本；所述待确认样本集为未被所有渠道标注确认的样本；

14、步骤002：将正样本子集放入所述待确认样本集中，作为间谍样本；所述正样本子集为从所述正样本集中随机选择的第一比例的正样本；

15、步骤003：将所述正样本集减去所述正样本子集作为新的正样本集，将所述待确认样本集及所述所述正样本子集作为新的负样本集，对所述融合模型进行训练，得到训练后的融合模型；

16、步骤004：将所述新的负样本集输入所述训练后的融合模型，输出样本的条件概率分布；

17、步骤005：将所述待确认样本集中所有条件概率低于预设概率阈值的样本放入所述可靠负样本集；所述预设概率阈值位所述间谍样本中正样本条件概率分位值；

18、步骤006：迭代执行步骤002至步骤005，得到最终的负样本集；

19、步骤007：根据所述最终的负样本集及所述正样本集，得到所述网址训练样本。

20、在一种可选的方式中，所述方法还包括：

21、将所述网址训练样本输入所述预设的融合模型进行训练，得到输出结果；

22、根据输出结果及代价敏感损失函数，计算所述预设的融合模型的损失；所述代价敏感损失函数包括正样本惩罚因子及负样本惩罚因子；所述正样本惩罚因子及所述负样本惩罚因子基于交叉验证选取；

23、根据所述损失调整所述预设的融合模型的参数，并继续执行所述将所述网址训练样本输入所述预设的融合模型进行训练，得到输出结果，根据输出结果及代价敏感损失函数，计算所述预设的融合模型的损失，以及根据所述损失调整所述预设的融合模型的参数的步骤，直至所述损失最小或达到预设的迭代次数，得到恶意网址识别模型。

24、在一种可选的方式中，所述方法还包括：

25、当所述识别结果确定所述待识别网址为恶意网址时，对所述待识别网址进行拦截。

26、在一种可选的方式中，所述当所述识别结果确定所述待识别网址为恶意网址时，对所述待识别网址进行拦截之后，所述方法还包括：

27、将所述待识别网址推送至判研人员，以使所述判研人员进行进一步判研；

28、根据判研结果，将所述待识别网址更新至网址库中，以作为初始样本集中的样本。

29、根据本专利技术实施例的另一方面，提供了一种恶意网址样本生成方法，所述方法包括：

30、对用户的网址访问行为数据进行预处理，得到初始网址样本集；

31、基于样本信息量对所述初始网址样本集中的初始网址样本进行选择，得到所述网址初始训练样本；所述样本信息量包括网址密度、网址相似性、网址不确定性及基于网址类别的度量；

32、对所述网址初始训练样本进行标注处理，得到所述网址训练样本。

33、根据本专利技术实施例的另一方面，提供了一种恶意网址识别装置，包括：

34、获取模块，用于获取待识别网址；

35、识别模块，用于将所述待识别网址输入恶意网址识别模型中，得到识别结果；其中，所述恶意网址识别模型根据网址训练样本输入预设的融合模型中训练得到；所述网址训练样本基于样本信息量对初始网址样本进行选择后进行标注处理得到；所述融合模型包括多个异质基模型。

36、根据本专利技术实施例的另一方面，提供了一种计算机设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

37、所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行所述的恶意网址识别方法的操作。

38、根据本专利技术实施例的又一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令在计算机设备上运行时，使得计算机设备执行所述的恶意网址识别方法的操作。

39、本专利技术实施例通过获取待识别网址；将所述待识别网址输入恶意网址识别模型中，得到识别结果；其中，所述恶意网址识别模型根据网址训练样本输入预设的融本文档来自技高网...

【技术保护点】

1.一种恶意网址识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述待识别网址输入恶意网址识别模型中，得到识别结果之前，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述基于样本信息量对所述初始网址样本集中的初始网址样本进行选择，得到所述网址初始训练样本，进一步包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述网址初始训练样本进行标注处理，得到所述网址训练样本，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

7.一种恶意网址样本生成方法，其特征在于，所述方法包括：

8.一种恶意网址识别装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

10.一种计算机可读存储介质，其特征在于，所述存储介质中

...

【技术特征摘要】

1.一种恶意网址识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述待识别网址输入恶意网址识别模型中，得到识别结果之前，所述方法包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述网址初始训练样本进行标注处理，得到所述网址训练样本，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

6...

【专利技术属性】
技术研发人员：胡泽远，
申请(专利权)人：中国移动通信集团浙江有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人