一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质制造方法及图纸

技术编号:26419184 阅读:25 留言:0更新日期:2020-11-20 14:14
本发明专利技术提供了一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质,属于互联网内容安全监测技术领域。所述方法应用于服务器,从网页中抽取网页特征,通过分类算法构建篡改二分类模型,利用fasttext算法对模型进行机器学习分类训练,并通过DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析多个维度进行监测,对模型训练数据和各维度监测数据进行综合评分,最终得到监测结果。本技术方案将DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析、篡改二分类模型分析技术相融合,相比传统仅采用一项分析技术的监测方法而言,从多个维度、多个特质综合多项分析技术进行监测和统一分析,能有效减少误报、漏报情况;并且,通过制定和采用一定规则,同时实施多项分析技术,将近时间内分析结果存入缓存中,能有效避免重复计算,高并发处理海量网页,使处理速度远高于常规监测手段。

【技术实现步骤摘要】
一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质
本专利技术涉及互联网内容安全监测
,尤其涉及一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质。
技术介绍
随着互联网和网络应用的普及与发展,大量的黑客攻击随之而来,特别是针对互联网的网络攻击。网页篡改是目前较为普遍的一类网站攻击形式,它是指黑客利用特定手段入侵网站,将网站内容部分或完全替代。据统计,在政府网站中,有大量网站被篡改,特别是已关停的网站,绝大部分已关停网站被篡改成黄赌毒网站。页面被篡改不仅导致正常的业务无法运营,更损害了政府或公共机构的形象,有些站点甚至被间接利用,成为非法牟利的工具。当前,互联网网页篡改监测是热门研究方向。传统方式是局部变化性的网页篡改识别,基于词库规则的方式,但是这些处理方式存在一些问题,比如需要大量人力维护词库,漏报严重,数据结构复杂,执行时间速度慢等特点。另外,单纯依赖一种经典算法或处理方式,缺乏良好的预处理和事后信息过滤等手段时,易造成误报率较高,导致系统实用性差。在目前形势下,政府对全互联网监控提出了更高的要求,传统的网页篡改算法,不管从准确度还是处理速度,都难以满足现实应用的需求。
技术实现思路
本专利技术为了弥补现有技术的不足,提供一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质,该技术主要解决在海量网页实时过滤的高并发问题,解决机械匹配,单一处理方式产生的高误报、高漏报问题。网页篡改通常有以下现象:<br>1、页面全部篡改:整个页面都是黄色或赌博网页;2、页面局部篡改:用户浏览网页时看到的还是正常网站,但实际页面中插入了恶意地址,主要表现为:<title>/<meta>这类标签中包含有恶意文字,或网站内部有大量的暗链;3、网页打不开;4、页面反复跳转的情况。综合上述现象,本专利技术提供了一种基于多维度分析的数据篡改监测和识别方法,实现原理是:系统通过从DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析、篡改二分类模型分析多个维度对页面是否篡改进行监测,并通过统一打分机制对监测结果进行统计,最后将安全评审结果存放在缓存中。本技术方案可以有效减少误报、漏报情况,在处理速度上快于常规监测手段,能避免重复计算,解决高并发问题。本专利技术的实施例是这样实现的:第一方面,本专利技术实施例提供了一种基于多维度分析的数据篡改监测和识别方法,应用于服务器,实现步骤如下:从网页中抽取网页特征,通过分类算法构建篡改二分类模型,利用fasttext算法对模型进行机器学习分类训练,并通过DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析多个维度进行监测,对模型训练数据和各维度监测数据进行综合评分,最终得到监测结果。进一步地,所述“从网页中抽取网页特征”主要是通过爬虫技术采集全国所有政府网站的数据,即对2万多正常网站、6万多已关停网站首页进行分析,将分析数据放入异步队列中。进一步地,对所述“各维度监测数据”,可将其中一般不容易变化的或者分析耗时的监测数据放入缓存队列中。进一步地,所述“DNS分析”主要是针对网页打不开,拿不到源码进行分析的情况,进而减少因此产生的漏报情况。进一步地,所述“网页结构分析”主要是针对有些篡改网页反复跳转,或每次打开都不是同一个页面的情况,连续几次网页突变即有可能网页发生了篡改。进一步地,所述“暗链/外链分析”主要是通过暗链/外链监测,如果经分析发现存在恶意网页或大量连续外链/暗链,则该页面很可能被篡改了。进一步地,所述“词库/规则匹配分析”主要是抽取<title>/<meta>标签中的文本域内容,通过双数组tries树匹配对应的词库规则,如果匹配上“bat365”、“在线网上赌城”这类词库的重点词汇,很大可能该页面已被篡改。第二方面,本专利技术实施例还提供了一种基于多维度分析的数据篡改监测和识别装置,应用于服务器,该装置包括如下结构:采集模块:用于通过爬虫技术从政府网站中抓取相关页面;页面解析模块:用于对抓取的页面进行代码解析,即将网页源码转化为document对象,遍历document对象,去掉无关的HTML代码和标签;特征提取模块:用于从解析后的页面中提取相关的网页特征,即从document对象中抽取相关标签中的内容,对抽取的内容与特征词库进行匹配,保留所需的文本和网页特征;多特征识别模块:用于通过分析IP是否指向国外,域名是否恶意域名,识别域名是否有问题;通过分析网页SimHash值,识别网页结构是否突变;通过分析是否有连续的外链/暗链,识别是否为恶意网页;通过分析是否插入大量恶意链接,识别是否存在局部篡改情况;通过分析和匹配词库/规则,识别<title>/<meta>等关键部分是否存在局部篡改;通过分析篡改二分类模型训练数据,识别网页是否全部被篡改;综合评分模块:用于综合多特征识别模块中每种分析的识别数据,计算出组合得分,得到网页篡改可能性结论;模型构建和训练模块:用于先人工整理少量数据集,使用kNN和朴素贝叶斯分类算法对文本进行分类,利用TF-IDF、BM25算法建立和训练小模型,以小模型为基础获取更丰富大量的训练数据,生成篡改二分类模型,再以fasttext算法对篡改二分类模型进行训练。进一步地,模型构建和训练模块还包括模型训练器、分词子模块、计算子模块和特征词库。进一步地,SimHash算法是计算文本间的相似度,用于网页去重的最常用Hash方法,通过比较各个文本的SimHash值之间的汉明距离的大小,来判断其相似度,SimHash值越小,则相似度越大。进一步地,kNN分类算法是k-NearestNeighbor的缩写,意指k最邻近分类算法,用于判断一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,而k值的选择直接影响分类准确性;朴素贝叶斯分类算法是NaiveBayesianClassification的缩写,用于对给出的分类项,计算其在各个类别中出现的概率,进而判断此分类项属于哪个类别。进一步地,TF-IDF算法是TermFrequency-InverseDocumentFrequency的缩写,意指词频(TF)和逆文档频率(IDF),用于计算一个字词相对于特征词库中一份文档的重要程度;BM25算法是一种基于概率检索模型提出的算法,用于评价搜索词和文档间相关性。进一步地,fasttext算法是一种监督学习方法,多用于同义词挖掘和文本分类。第三方面,本专利技术实施例还提供了一种电子设备,包括:存储器和处理器,存储器与处理器连接,存储器用于存储程序,处理器用于调用存储于存储器中的程序,以执行第一方面实施例提供的方法。第四方面,本专利技术实施例还提供了一种存储介质,该存储介质存储有处理器可执行的程序代码于计算本文档来自技高网...

【技术保护点】
1.一种基于多维度分析的数据篡改监测和识别方法,其特征在于:应用于服务器,包括如下步骤:/nS1、从网页中抽取网页特征;/nS2、通过分类算法生成篡改二分类模型;/nS3、通过fasttext算法对模型进行机器学习分类训练;/nS4、通过DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析多个维度进行监测;/nS5、对模型训练数据和各维度监测数据进行综合评分;/nS6、得到最终监测结果。/n

【技术特征摘要】
1.一种基于多维度分析的数据篡改监测和识别方法,其特征在于:应用于服务器,包括如下步骤:
S1、从网页中抽取网页特征;
S2、通过分类算法生成篡改二分类模型;
S3、通过fasttext算法对模型进行机器学习分类训练;
S4、通过DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析多个维度进行监测;
S5、对模型训练数据和各维度监测数据进行综合评分;
S6、得到最终监测结果。


2.如权利要求1所述的一种基于多维度分析的数据篡改监测和识别方法,其特征在于:所述步骤S2进一步包括:
S2.1、人工整理少量精确数据;
S2.2、通过kNN和朴素贝叶斯分类算法,对文本进行分类;
S2.3、使用TF-IDF、BM25算法计算相似度,分别构建和训练小模型;
S2.4、以小模型为基准,在一个大数据集合中不断迭代,得到大量训练数据;
S2.5、将通过TF-IDF、BM25算法计算的训练数据结合,得到大量精确分类数据;
S2.6、生成篡改二分类模型。


3.如权利要求2所述的一种基于多维度分析的数据篡改监测和识别方法,其特征在于:所述步骤S2.2进一步包括:
S2.2.1、人工整理和选择出各类文本样本;
S2.2.2、对文本样本进行预处理;
S2.2.3、利用分词工具进行中文文本分词;
S2.2.4、将分词结果打包形成特征词库;
S2.2.5、计算特征词的tf-idf值;
S2.2.6、统计特征词库的词频矩阵;
S2.2.7、将预测的文本与样本进行计算;
S2.2.8、对计算结果进行测试,判断是否满足准确率;
S2.2.9、若不满足则调整参数k值,若满足则确定最终k值;
S2.2.10、根据具体情况确定文本的特征属性,对每个特征属性进行适当划分,由人工对一部分待分类的特征项进行分类,形成训练样本集合;
S2.2.11、通过词袋模型或TF-IDF模型计算并提取每个类别的文本特征,记录提取结果,生成分类器;
S2.2.12、使用分类器对待分类的特征项进行分类。


4.如权利要求3所述的一种基于多维度分析的数据篡改监测和识别方法,其特征在于:所述步骤S2.2.5进一步包括:
S2.2.5.1、构建特征词库;
S2.2.5.2、使用TfidfVectorizer初始化向量空间模型,创建词袋;
S2.2.5.3、特征项的个数是所有文本文档集合的总体去掉重复的单词;
S2.2.5.4、去掉停用词;
S2.2.5.5、保存词汇表;
S2.2.5.6、创建tf-idf值的持久化。


5.如权利要求3所述的一种基于多维度分析的数据篡改监测和识别方法,其特征在于:S2.2.9中所述当k值为21时,文本的准确率最高;S2.2.10是整个朴素贝叶斯分类算法中唯一需要人工完成的阶段,其质量对整个过程将有重要影响;
S2.2.11是机械性阶段,根据公式可以由程序自动计算完成;S2.2.12是机械性阶段,由程序自动完成;S2.2.11、S2.2.12中所述分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。


6.如权利要求1所述的一种基于多维度分析的数据篡改监测和识别方法,其特征在于:所述步骤S3进一步包括:
S3.1、对分类数据进行筛选和标记;
S3.2、遍历网页,抽取网页关键结构文本域中的内容;
S3.3、利用fasttext算法对模型进行训练;
S3.4、对训练结果进行分析。


7.如权利要求6所述的一种基于多维度分析的数据篡改监测和识别方法,其特征在于:所述步骤S3.1进一步包括:
S3.1.1、对分类数据进行分词统计,得到分词结果;
S3.1.2、对分词结果进行筛选,筛选出每个分类特有的特征词,形成特征词库;
S3.1.3、对特征词库中数据标记标签,拆分训练集,测试集,验证集。


8.如权利要求6所述的一种基于多维度分析的数据篡改监测和识别方法,其特征在于:所述步骤S3.2进一步包括:
S3.2.1、将网页源码转化为document对象,遍历document对象,去掉无关标签;
S3.2.2、依次抽取各个标签中内容;
S3.2.3、将抽取的内容与特征词库进行匹配;
S3.2.4、匹配则保留,不匹配则删除。


9.如权利要求6所述的一种基于多维度分析的数据篡改监测和识别方法,其特征在于:所述步骤S3.3进一步包括:
S3.3.1、使用fasttext算法对标签中内容进行分类;
S3.3.2、根据召回率以及精准率的数值调整模型训练参数;
S3.3.3、每次模型生成后,进行验证集测试,根据测试结果决定是否继续调整模型;
S3.3.4、当训练集的召回率和精准率、验证集的准确率都已调整至最佳状态,则对测试集进行测试;
S3.3.5、若测试集结果不太理想,则重复S3.3.1,并调整训练集、验证集和测试集的数据。


10.如权利要求1所述的一种基于多维度分析的数据篡改监测和识别方法,其特征在于:所述步骤S4进一步包括:
S4.1、通过网站的域名获取网站的IP和真实注册地域信息,以及网站备案信息,判断网站是否一个疑似异常站点;
S4.2、通过SimHash算法记录网站当时的结构特征和历史记录中的网站结构信息进行比较,判断网站是否被恶意修改;
S4.3、通过dom4j解析源码抽取的内部链接、外部链接...

【专利技术属性】
技术研发人员:汪敏严妍肖国泉裴非肖克彭祖剑邵罗树尹娜
申请(专利权)人:开普云信息科技股份有限公司北京开普云信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1