【技术实现步骤摘要】
一种网页分类方法、装置、电子设备及存储介质
[0001]本申请涉及网络安全
,特别涉及一种网页分类方法、装置、一 种电子设备及一种存储介质。
技术介绍
[0002]网络安全监控通过实时监控主机活动分析用户和系统的行为,进而识别 攻击行为。网络安全监控能够使管理员有效地监视、控制和评估网络或主机 系统的安全状态。
[0003]在网络安全监控的过程中,可以通过对网页进行分类确定网页类型,进 而判断该网页是否受到黑客攻击。相关技术中,基于关键词匹配统计网页中 命中词语的词频和概率分布来实现网页分类,但是这种仅关注网页文本内容 的检测方式的分类准确率较低。
[0004]因此,如何提高网页分类的准确率是本领域技术人员目前需要解决的技 术问题。
技术实现思路
[0005]本申请的目的是提供一种网页分类方法、装置、一种电子设备及一种存 储介质,能够提高网页分类的准确率。
[0006]为解决上述技术问题,本申请提供一种网页分类方法,该网页分类方法 包括:
[0007]对目标网页执行网页内 ...
【技术保护点】
【技术特征摘要】
1.一种网页分类方法,其特征在于,包括:对目标网页执行网页内容解析操作,得到网页信息组;其中,所述网页信息组包括网页标签和所述网页标签对应的文本内容;对所述网页信息组执行编码操作,得到标签语义向量和文本语义向量;根据所述网页标签和所述文本内容的对应关系对所述标签语义向量和所述文本语义向量执行向量整合操作,得到标签文本对语义向量;利用所述标签文本对语义向量训练网页分类模型,并利用训练后的网页分类模型执行网页分类操作。2.根据权利要求1所述网页分类方法,其特征在于,所述对目标网页执行网页内容解析操作,得到网页信息组包括:获取所述目标网页的网页源代码,将所述网页源代码中的关键字标签设置为所述网页标签;确定所述目标网页中与所述网页标签对应的文本内容;根据所述网页标签与所述文本内容的对应关系生成所述网页信息组。3.根据权利要求2所述网页分类方法,其特征在于,将所述网页源代码中的关键字标签设置为所述网页标签包括:将所述网页源代码与预设关键字表进行匹配操作;将所述网页源代码中匹配命中的内容作为所述关键字标签,并将所述关键字标签设置为网页标签。4.根据权利要求1所述网页分类方法,其特征在于,对所述网页信息组执行编码操作,得到标签语义向量和文本语义向量,包括:对所述网页标签执行第一编码操作得到所述网页标签对应的标签语义向量;对所述文本内容执行第二编码操作得到所述文本内容对应的文本语义向量。5.根据权利要求4所述网页分类方法,其特征在于,根据所述网页标签和所述文本内容的对应关系对所述标签语义向量和所述文本语义向量执行向量整合操作,得到标签文本对语义向量,包括:根据所述网页标签和所述文本内容的对应关系对每一网页信息组中网页标签的标签语义向量和文本内容的文本语义向量执行向量整合操作,得到所述标签文本对语义向量...
【专利技术属性】
技术研发人员:杨荣海,何嘉伟,
申请(专利权)人:深信服科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。