System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 网站类别的识别方法及装置、设备、存储介质制造方法及图纸_技高网

网站类别的识别方法及装置、设备、存储介质制造方法及图纸

技术编号:41322490 阅读:2 留言:0更新日期:2024-05-13 15:01
本申请提供了一种网站类别的识别方法及装置、设备、存储介质,其中,所述方法包括:将待识别的第一网站的第一网页信息输入至训练好的第一网络模型;其中,所述训练好的第一网络模型的模型参数是基于第一训练样本集训练得到的,所述第一训练样本集包括多个样本网站的第二网页信息,所述第二网页信息包括所述样本网站的至少一个网页的以下信息中的至少两种:内容信息、所述内容信息的语义、所述至少一个网页的属性;基于所述训练好的第一网络模型,输出所述第一网站的网站类别。

【技术实现步骤摘要】

本申请涉及互联网技术应用领域,涉及但不限于网站类别的识别方法及装置、设备、存储介质


技术介绍

1、近年来,随着互联网的迅速发展以及网络业务的不断增长,恶意网站给用户的隐私和财产安全造成的威胁日趋严重。恶意网站通过伪造信息,非法跟踪、盗窃用户身份信息或敏感信息等,造成用户财务损失,私人信息丢失,品牌声誉受损等问题。恶意网站识别技术作为抵御网络攻击的核心安全技术,可以帮助用户有效避免因恶意网站而导致的安全威胁,从而保护用户的隐私和财产安全。


技术实现思路

1、本申请提供的网站类别的识别方法及装置、设备、存储介质,能够识别出更多的恶意网站,从而提高恶意网站的识别准确度。

2、第一方面,本申请实施例提供一种网站类别的识别方法,所述方法包括:将待识别的第一网站的第一网页信息输入至训练好的第一网络模型;其中,所述训练好的第一网络模型的模型参数是基于第一训练样本集训练得到的,所述第一训练样本集包括多个样本网站的第二网页信息,所述第二网页信息包括所述样本网站的至少一个网页的以下信息中的至少两种:内容信息、所述内容信息的语义、所述至少一个网页的属性;基于所述训练好的第一网络模型,输出所述第一网站的网站类别。

3、第二方面,根据本申请实施例提供一种网站类别的识别装置,所述装置包括:第一输入模块,用于将待识别的第一网站的第一网页信息输入至训练好的第一网络模型;其中,所述训练好的第一网络模型的模型参数是基于第一训练样本集训练得到的,所述第一训练样本集包括多个样本网站的第二网页信息,所述第二网页信息包括所述样本网站的至少一个网页的以下信息中的至少两种:内容信息、所述内容信息的语义、所述至少一个网页的属性;第一输出模块,用于基于所述训练好的第一网络模型,输出所述第一网站的网站类别。

4、在本申请实施例中,提供一种网站类别的识别方法,使用的网络模型为基于多个样本网站的内容信息、内容信息的语义和/或网页的属性信息中的至少两种训练得到,即使用多模态数据对本申请所使用的网络模型进行训练;如此,使得提取的网页的特征信息更加丰富,从而有益于模型能够挖掘不同类别的网站的潜在特征,而非是使用基于网页的单一信息训练得到的网络对网站类别进行识别,因此有益于模型学习到其他模型无法学习到的隐藏的,有恶意的特征,使得模型能够更好地适应不同类别的网站,进而提高网站类别的识别准确性。

5、第三方面,根据本申请实施例提供一种网站类别的识别方法,所述方法包括:将待识别的第二网站的第三网页信息输入至训练好的第二网络模型;其中,所述训练好的第二网络模型的模型参数是基于第二训练样本集训练得到的,所述训练好的第二网络模型在训练之前包括训练好的第一网络模型的第一子模型或第三子模型,以及分类层,所述第二训练样本集包括多个样本网站的至少一个网页的内容信息;基于所述训练好的第二网络模型,输出所述第二网站的网站类别。

6、第四方面,根据本申请实施例提供一种网站类别的识别装置,所述装置包括:第二输入模块,用于将待识别的第二网站的第三网页信息输入至训练好的第二网络模型;其中,所述训练好的第二网络模型的模型参数是基于第二训练样本集训练得到的,所述训练好的第二网络模型在训练之前包括训练好的第一网络模型的第一子模型或第三子模型,以及分类层,所述第二训练样本集包括多个样本网站的至少一个网页的内容信息;第二输出模块,用于基于所述训练好的第二网络模型,输出所述第二网站的网站类别。

7、在本申请实施例中,提供一种网站类别的识别方法,该方法包括第一网络模型的第一子模型或第三子模型;如此,能够仅使用第一子模型所需的输入信息或第三子模型所需的输入信息,对所述输入信息对应的网站的网站类别进行识别,从而有益于提高网站类别的识别效率。

8、第五方面,根据本申请实施例提供的一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请实施例第一方面所述的方法,或者所述处理器执行所述程序时实现本申请实施例第三方面所述的方法。

9、第六方面,根据本申请实施例提供的一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请实施例第一方面所述的方法,或者该计算机程序被处理器执行时实现本申请实施例第二方面所述的方法。

10、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

本文档来自技高网...

【技术保护点】

1.一种网站类别的识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述内容信息包括第一网页文本信息和/或第一网页截图;所述至少一个网页的属性包括第一网页排版结构。

3.根据权利要求2所述的方法,其特征在于,所述第一网页信息包括至少一个网页的以下信息中的至少之一:第二网页截图、第二网页排版结构、第二网页文本信息。

4.根据权利要求3所述的方法,其特征在于,所述训练好的第一网络模型包括第一子模型、第二子模型、第三子模型和类别识别层;

5.根据权利要求4所述的方法,其特征在于,所述类别识别层包括第一融合层、第二融合层和类别输出层;

6.根据权利要求5所述的方法,其特征在于,所述第一条件是得到的所述融合特征值中的最大值。

7.根据权利要求5所述的方法,其特征在于,所述第一融合运算是将所述第一结构特征向量与所述第一文本特征向量同一维度的值进行加和,所述第二融合运算是点乘运算。

8.根据权利要求3所述的方法,其特征在于,所述训练好的第一网络模型包括第一子模型、第二子模型或第三子模型,以及特征匹配层和输出层;

9.根据权利要求8所述的方法,其特征在于,所述向量数据库中的特征向量包括所述第一网络模型对多个所述第二网页信息进行特征提取,得到的文本特征向量、图像特征向量和/或结构特征向量。

10.根据权利要求5-7任一项所述的方法,其特征在于,在得到所述训练好的第一网络模型的模型参数之前对所述第一网络模型进行训练所使用的损失函数值是基于所述第一融合层的输出值与所述第二子模型的输出值确定的。

11.根据权利要求10所述的方法,其特征在于,所述损失函数值是基于所述第一融合层的输出值与所述第二子模型的输出值得到的相似度矩阵以及所述相似度矩阵的对角矩阵确定的。

12.一种网站类别的识别方法,其特征在于,所述方法包括:

13.根据权利要求12所述的方法,其特征在于,所述第二训练样本集还包括所述多个所述样本网站的类别标签。

14.根据权利要求12所述的方法,其特征在于,所述第三网页信息包括至少一个网页以下信息中的至少之一:第三网页文本信息、第三网页截图。

15.根据权利要求14所述的方法,其特征在于,所述基于所述训练好的第二网络模型,输出所述第二网站的网站类别,包括:

16.一种网站类别的识别装置,其特征在于,包括:

17.一种网站类别的识别装置,其特征在于,包括:

18.一种电子设备,其特征在于,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至9任一项所述的方法,或者所述处理器执行所述程序时实现权利要求12至15任一项所述的方法。

19.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至9任一项所述的方法,或者该计算机程序被处理器执行时实现权利要求12至15任一项所述的方法。

...

【技术特征摘要】

1.一种网站类别的识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述内容信息包括第一网页文本信息和/或第一网页截图;所述至少一个网页的属性包括第一网页排版结构。

3.根据权利要求2所述的方法,其特征在于,所述第一网页信息包括至少一个网页的以下信息中的至少之一:第二网页截图、第二网页排版结构、第二网页文本信息。

4.根据权利要求3所述的方法,其特征在于,所述训练好的第一网络模型包括第一子模型、第二子模型、第三子模型和类别识别层;

5.根据权利要求4所述的方法,其特征在于,所述类别识别层包括第一融合层、第二融合层和类别输出层;

6.根据权利要求5所述的方法,其特征在于,所述第一条件是得到的所述融合特征值中的最大值。

7.根据权利要求5所述的方法,其特征在于,所述第一融合运算是将所述第一结构特征向量与所述第一文本特征向量同一维度的值进行加和,所述第二融合运算是点乘运算。

8.根据权利要求3所述的方法,其特征在于,所述训练好的第一网络模型包括第一子模型、第二子模型或第三子模型,以及特征匹配层和输出层;

9.根据权利要求8所述的方法,其特征在于,所述向量数据库中的特征向量包括所述第一网络模型对多个所述第二网页信息进行特征提取,得到的文本特征向量、图像特征向量和/或结构特征向量。

10.根据权利要求5-7任一项所述的方法,其特征在于,在得到所述训练好的第一网络模型的模型参数...

【专利技术属性】
技术研发人员:于乐张峰马禹昇丰阳露钱湖海鲁银冰
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1