一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质制造方法及图纸

技术编号：26419184 阅读：25 留言：0更新日期：2020-11-20 14:14

本发明专利技术提供了一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质，属于互联网内容安全监测技术领域。所述方法应用于服务器，从网页中抽取网页特征，通过分类算法构建篡改二分类模型，利用fasttext算法对模型进行机器学习分类训练，并通过DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析多个维度进行监测，对模型训练数据和各维度监测数据进行综合评分，最终得到监测结果。本技术方案将DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析、篡改二分类模型分析技术相融合，相比传统仅采用一项分析技术的监测方法而言，从多个维度、多个特质综合多项分析技术进行监测和统一分析，能有效减少误报、漏报情况；并且，通过制定和采用一定规则，同时实施多项分析技术，将近时间内分析结果存入缓存中，能有效避免重复计算，高并发处理海量网页，使处理速度远高于常规监测手段。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质
本专利技术涉及互联网内容安全监测
，尤其涉及一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质。
技术介绍
随着互联网和网络应用的普及与发展，大量的黑客攻击随之而来，特别是针对互联网的网络攻击。网页篡改是目前较为普遍的一类网站攻击形式，它是指黑客利用特定手段入侵网站，将网站内容部分或完全替代。据统计，在政府网站中，有大量网站被篡改，特别是已关停的网站，绝大部分已关停网站被篡改成黄赌毒网站。页面被篡改不仅导致正常的业务无法运营，更损害了政府或公共机构的形象，有些站点甚至被间接利用，成为非法牟利的工具。当前，互联网网页篡改监测是热门研究方向。传统方式是局部变化性的网页篡改识别，基于词库规则的方式，但是这些处理方式存在一些问题，比如需要大量人力维护词库，漏报严重，数据结构复杂，执行时间速度慢等特点。另外，单纯依赖一种经典算法或处理方式，缺乏良好的预处理和事后信息过滤等手段时，易造成误报率较高，导致系统实用性差。在目前形势下，政府对全互联网监控提出了更高的要求，传统的网页篡改算法，不管从准确度还是处理速度，都难以满足现实应用的需求。
技术实现思路
本专利技术为了弥补现有技术的不足，提供一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质，该技术主要解决在海量网页实时过滤的高并发问题，解决机械匹配，单一处理方式产生的高误报、高漏报问题。网页篡改通常有以下现象：<...

【技术保护点】
1.一种基于多维度分析的数据篡改监测和识别方法，其特征在于：应用于服务器，包括如下步骤：/nS1、从网页中抽取网页特征；/nS2、通过分类算法生成篡改二分类模型；/nS3、通过fasttext算法对模型进行机器学习分类训练；/nS4、通过DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析多个维度进行监测；/nS5、对模型训练数据和各维度监测数据进行综合评分；/nS6、得到最终监测结果。/n

【技术特征摘要】
1.一种基于多维度分析的数据篡改监测和识别方法，其特征在于：应用于服务器，包括如下步骤：
S1、从网页中抽取网页特征；
S2、通过分类算法生成篡改二分类模型；
S3、通过fasttext算法对模型进行机器学习分类训练；
S4、通过DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析多个维度进行监测；
S5、对模型训练数据和各维度监测数据进行综合评分；
S6、得到最终监测结果。

2.如权利要求1所述的一种基于多维度分析的数据篡改监测和识别方法，其特征在于：所述步骤S2进一步包括：
S2.1、人工整理少量精确数据；
S2.2、通过kNN和朴素贝叶斯分类算法，对文本进行分类；
S2.3、使用TF-IDF、BM25算法计算相似度，分别构建和训练小模型；
S2.4、以小模型为基准，在一个大数据集合中不断迭代，得到大量训练数据；
S2.5、将通过TF-IDF、BM25算法计算的训练数据结合，得到大量精确分类数据；
S2.6、生成篡改二分类模型。

3.如权利要求2所述的一种基于多维度分析的数据篡改监测和识别方法，其特征在于：所述步骤S2.2进一步包括：
S2.2.1、人工整理和选择出各类文本样本；
S2.2.2、对文本样本进行预处理；
S2.2.3、利用分词工具进行中文文本分词；
S2.2.4、将分词结果打包形成特征词库；
S2.2.5、计算特征词的tf-idf值；
S2.2.6、统计特征词库的词频矩阵；
S2.2.7、将预测的文本与样本进行计算；
S2.2.8、对计算结果进行测试，判断是否满足准确率；
S2.2.9、若不满足则调整参数k值，若满足则确定最终k值；
S2.2.10、根据具体情况确定文本的特征属性，对每个特征属性进行适当划分，由人工对一部分待分类的特征项进行分类，形成训练样本集合；
S2.2.11、通过词袋模型或TF-IDF模型计算并提取每个类别的文本特征，记录提取结果，生成分类器；
S2.2.12、使用分类器对待分类的特征项进行分类。

4.如权利要求3所述的一种基于多维度分析的数据篡改监测和识别方法，其特征在于：所述步骤S2.2.5进一步包括：
S2.2.5.1、构建特征词库；
S2.2.5.2、使用TfidfVectorizer初始化向量空间模型，创建词袋；
S2.2.5.3、特征项的个数是所有文本文档集合的总体去掉重复的单词；
S2.2.5.4、去掉停用词；
S2.2.5.5、保存词汇表；
S2.2.5.6、创建tf-idf值的持久化。

5.如权利要求3所述的一种基于多维度分析的数据篡改监测和识别方法，其特征在于：S2.2.9中所述当k值为21时，文本的准确率最高；S2.2.10是整个朴素贝叶斯分类算法中唯一需要人工完成的阶段，其质量对整个过程将有重要影响；
S2.2.11是机械性阶段，根据公式可以由程序自动计算完成；S2.2.12是机械性阶段，由程序自动完成；S2.2.11、S2.2.12中所述分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

6.如权利要求1所述的一种基于多维度分析的数据篡改监测和识别方法，其特征在于：所述步骤S3进一步包括：
S3.1、对分类数据进行筛选和标记；
S3.2、遍历网页，抽取网页关键结构文本域中的内容；
S3.3、利用fasttext算法对模型进行训练；
S3.4、对训练结果进行分析。

7.如权利要求6所述的一种基于多维度分析的数据篡改监测和识别方法，其特征在于：所述步骤S3.1进一步包括：
S3.1.1、对分类数据进行分词统计，得到分词结果；
S3.1.2、对分词结果进行筛选，筛选出每个分类特有的特征词，形成特征词库；
S3.1.3、对特征词库中数据标记标签，拆分训练集，测试集，验证集。

8.如权利要求6所述的一种基于多维度分析的数据篡改监测和识别方法，其特征在于：所述步骤S3.2进一步包括：
S3.2.1、将网页源码转化为document对象，遍历document对象，去掉无关标签；
S3.2.2、依次抽取各个标签中内容；
S3.2.3、将抽取的内容与特征词库进行匹配；
S3.2.4、匹配则保留，不匹配则删除。

9.如权利要求6所述的一种基于多维度分析的数据篡改监测和识别方法，其特征在于：所述步骤S3.3进一步包括：
S3.3.1、使用fasttext算法对标签中内容进行分类；
S3.3.2、根据召回率以及精准率的数值调整模型训练参数；
S3.3.3、每次模型生成后，进行验证集测试，根据测试结果决定是否继续调整模型；
S3.3.4、当训练集的召回率和精准率、验证集的准确率都已调整至最佳状态，则对测试集进行测试；
S3.3.5、若测试集结果不太理想，则重复S3.3.1，并调整训练集、验证集和测试集的数据。

10.如权利要求1所述的一种基于多维度分析的数据篡改监测和识别方法，其特征在于：所述步骤S4进一步包括：
S4.1、通过网站的域名获取网站的IP和真实注册地域信息，以及网站备案信息，判断网站是否一个疑似异常站点；
S4.2、通过SimHash算法记录网站当时的结构特征和历史记录中的网站结构信息进行比较，判断网站是否被恶意修改；
S4.3、通过dom4j解析源码抽取的内部链接、外部链接...

【专利技术属性】
技术研发人员：汪敏，严妍，肖国泉，裴非，肖克，彭祖剑，邵罗树，尹娜，
申请(专利权)人：开普云信息科技股份有限公司，北京开普云信息科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人