【技术实现步骤摘要】
一种网页篡改检测方法及相关装置
本专利技术涉及网路安全
,更具体地说,涉及一种网页篡改检测方法、系统、装置及计算机可读存储介质。
技术介绍
随着网络的发展,人们已习惯通过上网浏览各个网站提供的网页来获取信息。网站都会在搜索引擎中有排名,黑客为了提高恶意网站的排名,会通过黑帽搜索引擎优化的方式来实现,黑帽搜索引擎优化是指使用作弊手段欺骗搜索引擎,从而非法提升恶意网站在搜索引擎中的排名。而网页篡改时黑帽搜索引擎优化的常见手段,黑客入侵一批高权重的合法网站,篡改其网页内容,插入恶意文本,如博彩广告等,或者插入恶意链接指向恶意网站。网页篡改可以增加恶意网站在搜索引擎中的排名,为恶意网站获取更多的流量。但是,这会降低合法网站在搜索引擎的排名,给其造成巨大的经济损失,同时也会影响企业的形象。目前主流安全厂商都提供了对网页篡改的检测,其检测技术主要是基于关键词匹配。即预先确定恶意关键词,然后检测网页中是否有恶意关键词,并结合恶意关键词的统计特征和联合概率分布来判定网页是否被篡改。但是这种检测手段比较单一,无法应对未收 ...
【技术保护点】
1.一种网页篡改检测方法,其特征在于,包括:/n解析待检测网页得到对应待检测网页的标签信息,将所述标签信息作为待检测信息;/n在所述待检测信息中提取篡改特征信息;/n利用深度学习模型对所述篡改特征信息进行计算,得到所述待检测网页的篡改检测结果;其中,所述深度学习模型为预先利用与所述篡改特征信息对应的训练样本进行训练得到的深度学习模型。/n
【技术特征摘要】
1.一种网页篡改检测方法,其特征在于,包括:
解析待检测网页得到对应待检测网页的标签信息,将所述标签信息作为待检测信息;
在所述待检测信息中提取篡改特征信息;
利用深度学习模型对所述篡改特征信息进行计算,得到所述待检测网页的篡改检测结果;其中,所述深度学习模型为预先利用与所述篡改特征信息对应的训练样本进行训练得到的深度学习模型。
2.根据权利要求1所述的方法,其特征在于,所述在所述待检测信息中提取篡改特征信息之前,还包括:
判断所述标签信息的文本信息中是否包括预设敏感词;
若是,则执行所述在所述待检测信息中提取篡改特征信息的步骤;
若否,则确定所述待检测网页的篡改检测结果为未被篡改。
3.根据权利要求2所述的方法,其特征在于,所述判断所述标签信息的文本信息中是否包括预设敏感词,包括:
利用预设规则对所述标签信息的文本信息进行匹配,判断所述标签信息中是否包括满足所述预设规则的词;其中所述预设规则对应预设敏感词,每条所述预设规则中包括预设敏感词的核心敏感词与所述核心敏感词之间的关系。
4.根据权利要求3所述的方法,其特征在于,所述利用预设规则对所述标签信息的文本信息进行匹配,判断所述标签信息中是否包括满足所述预设规则的词之前,还包括:
判断所述标签信息是否包括所述核心敏感词;
若是,则执行所述利用预设规则对所述标签信息的文本信息进行匹配,判断所述标签信息中是否包括满足所述预设规则的词的步骤;
若否,则确定所述待检测网页的篡改检测结果为未被篡改。
5.根据权利要求1所述的方法,其特征在于,所述篡改特征信息包括:
对所述标签信息的文本信息进行情感分析的结果和/或对所述标签信息的文本信息进行语义分析的结果和/或对所述标签信息的链接信息的可疑性检测结果和/或专家预设篡改特征。
6.根据权利要求1所述的方法,其特征在于,所述利用深度学习模型对所述篡改特征信息进行计算,得到所述待检测网页的篡改检测结果,包括:
将至少两个深度学习模型作为弱分类器对所述篡改特征信息进行计算,得到对应每个弱分类器的计算结果;
集成学习每个所述计算结果得到所述待检测网页的篡改结果。
7.根据权利要求6所述的方法,其特征在于,当所述篡改特征信息包括至少两种时,所述至少两个深度学习模型包括:
分别利用一种所述篡改特征信息的训练样本进行...
【专利技术属性】
技术研发人员:杨荣海,王大伟,黄志伟,何嘉伟,
申请(专利权)人:深信服科技股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。