【技术实现步骤摘要】
一种基于舆情分析的网络流量检测方法
本专利技术涉及信息源影响力评估及深度学习
,尤其涉及一种基于舆情分析的网络流量检测方法。
技术介绍
信息源质量是舆情大数据的准确性及质量保证的前提条件,为了舆情数据能够为舆情分析以及舆情预测提供准确的数据支撑,于是如何从海量信息源中评估出优质信息源也成为了重中之重。如何有效评估舆情信息源是一项极具挑战性的任务,国内外的网站影响力评价方法主要有两种:定性方法和定量方法。当前大多数的影响力评价的研究都是使用定量的方法:即基于网络计量学的角度,通过入链接数、出链接数、网络影响因子、网站的访问量等一些可量化的指标来对网站影响力进行评价分析。但是,很少有对网络舆情信息源影响力的评价工作,并且几乎未有将深度学习技术应用到舆情信息源影响力评估上的方法。舆情信息的发出者是信息源,收受者是网民。信息源通过发布信息、转载信息或引用信息等方式向网民传播舆情信息。同时,网民通过发表文章、点击、回复等方式表达对各种舆情信息的感兴趣程度,这些方式也隐含了网民被信息源影响的程度。因此,在评价网络舆 ...
【技术保护点】
1.一种基于舆情分析的网络流量检测方法,其特征在于,包括:/n将原始的流量数据读入,获取时序特征数据,根据五元组信息将所有流量数据按照数据流进行划分;/n提取数据流统计特征与负载特征,结合时序特征数据初步预测舆情流量;/n对特征集进行数据清洗,去除孤立森林提取的噪声样本,通过不放回的随机抽样方法将去噪后的特征集分为训练集和测试集;/n根据训练集和测试集,对初步预测的舆情流量进行确认,并基于所述舆情流量的影响力确定所述舆情流量的舆情流量类型。/n
【技术特征摘要】
1.一种基于舆情分析的网络流量检测方法,其特征在于,包括:
将原始的流量数据读入,获取时序特征数据,根据五元组信息将所有流量数据按照数据流进行划分;
提取数据流统计特征与负载特征,结合时序特征数据初步预测舆情流量;
对特征集进行数据清洗,去除孤立森林提取的噪声样本,通过不放回的随机抽样方法将去噪后的特征集分为训练集和测试集;
根据训练集和测试集,对初步预测的舆情流量进行确认,并基于所述舆情流量的影响力确定所述舆情流量的舆情流量类型。
2.根据权利要求1所述的舆情流量检测方法,其特征在于,所述将原始的流量数据读入,获取时序特征数据,根据五元组信息将所有流量数据按照数据流进行划分包括:
对获取的时序特征数据进行预处理;
提取数据包头部的五元组信息<源IP地址,目的IP地址,源端口,目的端口,传输层协议>,并将提取到的端口号与表中的信息进行对照即完成对该数据包流量的识别,统计数据流发生的时间,判断各数据流发生时间是否超过设定的时间阈值,如果大于时间阈值,对数据流进行特征加权计算;
根据预处理后的时序特征数据初步预测舆情流量。
3.根据权利要求2所述的舆情流量检测方法,其特征在于,所述提取数据流统计特征与负载特征,结合时序特征数据初步预测舆情流量包括:
提取数据包的应用层负载内容中的特定字段、字符、字符串;
针对数据流中各流向的前N个数据包的小范围负载进行检测。
4.根据权利要求3所述的舆情流量检测方法,其特征在于,所述对特征集进行数据清洗,去除孤立森林提取的噪声样本,通过不放回的随机抽样方法将去噪后的特征集分为训练集和测试集包括:
使用训练集和测试集对基于Spark的Bagging学习算法模型进行训练和测试,并得到测试结...
【专利技术属性】
技术研发人员:张志伟,李钢锋,梁卫国,郭栋,王文辉,刘达,孙衡,徐晓强,王淦,吕显斌,曹华,齐云雷,闫昊,刘震,李鑫,王少伟,焦健,
申请(专利权)人:国网山东省电力公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。