【技术实现步骤摘要】
本专利技术涉及网络信息
的方法,具体涉及一种,更具体涉及一种基于简化特征的一类特征向量机的检测网络流量中的敏感信息的方法。
技术介绍
互联网在近几十年迅猛发展,使得网络已经成为了信息化的重要组成部分,然而随之而来的却是良莠不齐的信息充斥着互联网空间。传统的网络流量敏感信息检测方法只能检测部分未编码的或者非乱序的数据包,在检测这部分信息也都是基于字符串匹配程序实现的。但是随着网络服务的日益更新,传统的文本敏感信息检测方法已经不能满足时代的需求。传统检测方法的缺点主要体现在如下几点:1、无法处理有编码的或者乱序抵达的数据包许多网络协议为了压缩传输数据大小,或者保证传输的正确率,往往使用约定的某些编码方式来传输数据包。传统的检测信息并不能理解传送双方的协议格式,因此无法正确对数据进行解码。而对于由于网络路径的选择不同而乱序,重复抵达的数据包,更是无法进行重组以获取原始信息。2、全文匹配,浪费资源传统技术对于进入系统内的文本进行全文匹配才能得出其是否包含不良信息的结论,虽然研究人员为了优化搜索难度,提出了 KMP算法,Boyer-Moore算法等,降低 ...
【技术保护点】
一种多协议网络文件内容检查方法,用于基于简化特征的一类特征向量机来检测网络流量中的敏感信息,其特征在于包括:首先识别数据包的网络协议,进行数据包重组、解码、文本提取和复原;然后,对于复原的文本进行分词,使用特征简约算法提取特征向量,并进行分类。
【技术特征摘要】
1.一种多协议网络文件内容检查方法,用于基于简化特征的一类特征向量机来检测网络流量中的敏感信息,其特征在于包括:首先识别数据包的网络协议,进行数据包重组、解码、文本提取和复原;然后,对于复原的文本进行分词,使用特征简约算法提取特征向量,并进行分类。2.根据权利要求1所述的多协议网络文件内容检查方法,其特征在于,特征向量为一些名词和动词。3.根据权利要求1或2所述的多协议网络文件内容检查方法,其特征在于,特征简约算法分别包括基于文档频率方法、信息增益方法、开方拟和检验方法。4.根据权利要求3所述的多协议网络文件内容检查方法,其特征在于,基于文档频率方法使用特征词在一个类别中出现的文档数量来表示这个特征词与该类别的相关度,而且在某个类别中的越多的文档中出现的特征词被保留的可能性越大。5.根据权利要求3所述的多协议网络文件内容检查方法,其特征在于,信息增益方法通过计算系统引入该特征和未引入该特征的前后信息量的差值定义这个特征给系统带来的信息量来作为其对检测某个类别的依据。6.根据权利要求3所述的多协议网络文件内容检查方法,其特征在于,开方拟和检验方法通过观察实际值与理论值的偏差来确定假设该特征对系统有很大影响的假定是否正确。7.一种多协议网络文件内容检查方法,用于基于简化特征的一类特征向量机来检测网络流量中的敏感信息,其特征在于包括: 第一步,使用已经完成人为 标记的文本数据库,对其进行分词,提取所有的名词和动词作为候选特征向量; 第二步,使用特征简约算法对候选特征向量进行提取; 第三步,使用一类支持向量机对已经完成人为标记的文本数据库进行训练,其中使用在第二步中从所有向量中提取出的特征向量,由此获得分类的标准; 第四步,确定数据包的传输协议,并根据...
【专利技术属性】
技术研发人员:刘功申,丁宵云,苏波,孟魁,宁蔚,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。