一种恶意网页识别方法和装置制造方法及图纸

技术编号：17249123 阅读：50 留言：0更新日期：2018-02-11 07:27

本发明专利技术公开了一种恶意网页识别方法和装置；本方法为：1)对正常网页集、恶意网页集中每一网页数据进行分词处理，得到若干字符串；2)对于每一字符串，计算该字符串分别在该正常网页集中的出现概率、在该恶意网页集中的出现概率；3)将该待识别网页数据进行分词处理，得到N个字符串，对于该N个字符串中每一个字符串，计算该字符串使得该待识别网页被识别为恶意网页的概率；4)选取概率最高的若干概率，计算该待识别网页为恶意网页的联合概率；如果该联合概率大于事先设置好的阈值，则判断该待识别网页为恶意网页，否则判断为正常网页。

全部详细技术资料下载

【技术实现步骤摘要】
一种恶意网页识别方法和装置
本专利技术属于计算机软件
，涉及一种恶意网页识别方法和装置。
技术介绍
贝叶斯定理是统计学中非常重要的一个定理，以贝叶斯定理为基础的统计学派在统计学世界里占据着重要的地位。条件概率，就是指在事件B发生的情况下，事件A发生的概率，用P(A|B)来表示。公式中的P(A∩B)，指的是事件A和事件B同时发生的概率。根据公式可以推导出：P(A∩B)＝P(A|B)P(B)P(A∩B)＝P(B|A)P(A)所以：P(A|B)P(B)＝P(B|A)P(A)即得到条件概率的计算公式：使用P(A′)表示为P(A)的互补事件，P(A′)+P(A)＝1，则：P(B)＝P(B∩A)+P(B∩A′)P(B)＝P(B|A)P(A)+P(B|A′)P(A′)所以，条件概率的计算公式，可以推导为：则得到了贝叶斯公式。现有的恶意网页识别方法，是基于特征关键词的匹配。例如专利“恶意网页的识别方法以及识别装置”(申请号：201110345080.0)，是使用关键词匹配的技术来实现恶意网页的识别。不同的技术在特征关键词的提取方法和关键词匹配的处理方法上，有着不同的见解。但...
一种恶意网页识别方法和装置

【技术保护点】
一种恶意网页识别方法，其步骤包括：1)选取一正常网页集和一恶意网页集；2)对该正常网页集中每一网页数据进行分词处理，得到若干字符串；对该恶意网页集中每一网页数据进行分词处理，得到若干字符串；3)对于步骤2)得到的每一字符串，计算该字符串分别在该正常网页集中的出现概率、在该恶意网页集中的出现概率；4)针对一待识别网页，将该待识别网页中的数据进行分词处理，得到N个字符串，对于该N个字符串中每一个字符串，根据步骤3)的计算结果计算该字符串使得该待识别网页被识别为恶意网页的概率；5)从步骤4)的结果中选取概率最高的若干概率，计算该待识别网页为恶意网页的联合概率；如果该联合概率大于事先设置好的阈值，则判...

【技术特征摘要】
1.一种恶意网页识别方法，其步骤包括：1)选取一正常网页集和一恶意网页集；2)对该正常网页集中每一网页数据进行分词处理，得到若干字符串；对该恶意网页集中每一网页数据进行分词处理，得到若干字符串；3)对于步骤2)得到的每一字符串，计算该字符串分别在该正常网页集中的出现概率、在该恶意网页集中的出现概率；4)针对一待识别网页，将该待识别网页中的数据进行分词处理，得到N个字符串，对于该N个字符串中每一个字符串，根据步骤3)的计算结果计算该字符串使得该待识别网页被识别为恶意网页的概率；5)从步骤4)的结果中选取概率最高的若干概率，计算该待识别网页为恶意网页的联合概率；如果该联合概率大于事先设置好的阈值，则判断该待识别网页为恶意网页，否则判断为正常网页。2.如权利要求1所述的方法，其特征在于，根据步骤3)的计算结果基于贝叶斯公式计算该字符串使得该待识别网页被识别为恶意网页的概率。3.如权利要求2所述的方法，其特征在于，采用公式计算该字符串使得该待识别网页被识别为恶意网页的概率P(Y|W)；其中，P(W|Y)为该字符串在恶意网页集中的出现概率，P(W|N)为该字符串在正常网页集中的出现概率，P(Y)为该待识别网页为恶意网页的概率，P(N)为该待识别网页为正常网页的概率。4.如权利要求1或2或3所述的方法，其特征在于，选取概率最高的10个概率P1、P2、P3、…、P10，采用公式计算所述联合概率P。5.如权利要求1所述的方法，其特征在于，所述步骤4)中，如果该待识别网页的分词中出现了新的字符串，则设定该字符串使得该待识别网页被识别为恶意网页的概率为一设定值。6.如权利要求1所述的方法，其特征在于，所述步骤2)、步骤4)中，对网页head部分中的...

【专利技术属性】
技术研发人员：练晓谦，
申请(专利权)人：北京知道未来信息技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人