一种基于校园网流量的用户画像方法及系统技术方案

技术编号:20390724 阅读:39 留言:0更新日期:2019-02-20 03:11
本发明专利技术提出了一种基于校园网流量的用户画像方法及系统,采集校园网中的流量数据,对数据进行清洗和预处理,使用机器学习算法建立分类器,训练并优化分类器,分析数据集中网络的整体状态,使用训练好的分类器对校园网中的用户进行用户画像,将用户画像结果可视化呈现给管理员,提高了网络的稳定性,方便管理员进行网络的监测和维护,能对突发的网络威胁或异常用户进行及时的排查与响应。

【技术实现步骤摘要】
一种基于校园网流量的用户画像方法及系统
本专利技术属于数据分析与互联网技术的交叉领域,特别涉及一种基于校园网流量的用户画像方法及系统。
技术介绍
随着互联网的发展,网络中产生的数据越来越多,特征工程和机器学习算法的出现,使得分析数据变得越来越方便,此外,通过分析数据得到的结果也越来越有价值。用户画像实际上是特征工程的一种应用,其目的是通过分析用户产生的数据,挖掘其中隐藏的价值信息,分析和总结用户的特征行为。构建用户画像的关键点,是利用存储在数据库里的海量的用户数据进行整理、挖掘和分析,然后通过训练模型,对用户行为进行分类,给用户贴“标签”,从而达到用户画像的方法。目前常用的用户画像方法是根据用户人口学特征、网络访问行为、社交行为和消费行为等信息而抽象出的一个标签化的用户模型。但是,传统的方法,仍存在一些不足,首先,是数据的真实性保证问题,许多方法中数据来源于多种渠道,这样会导致数据源混乱,数据格式不统一,信息来源不准确等问题,从而影响到分析的结果。其次,部分方法的数据源存在局部性问题,由于运营商或应用之间的封闭性,很多方法很难获得用户所有的数据,使得分析无法在用户整个网络活动范围内进行,从而无法准确的进行用户画像。另外对数据分类所选择的方法也极为重要,传统的基于统计的方法和单一的机器学习分类方法都不能很好地对数据进行准确的分类。
技术实现思路
针对以上问题,本专利技术提供了一种基于校园网流量的用户画像方法及系统,解决上述面临的问题。本专利技术是在校园网服务的基础上,通过采集,集成校园网内用户的网络行为数据,然后使用多种机器学习方法,建立并训练针对校园网流量的用户画像模型。并将画像结果可视化呈现给网络管理员,方便网络管理员快速查看网络状态,及时发现网络威胁并作出响应。为实现上述目的,本专利技术采用的技术方案如下:首先通过流量捕获工具,在校园网的服务器上采集流量,包括用户的访问数据和行为数据,如访问时间,访问频率,访问地址,访问链接等;然后将采集到的数据进行清洗和预处理,选择最能反映网络状态和用户行为的特征;在预处理好的数据中选择一些具有代表性的数据进行人工标记,生成训练样本,将训练样本放到贝叶斯分类器和SVM分类器中,建立机器学习模型,并进行训练和优化。然后使用训练好的模型对其他数据进行训练和分类,按照结果生成用户画像,将用户画像的结果可视化呈献给管理员,并指出是否在网络中存在安全隐患。具体的,本专利技术一种基于校园网流量的用户画像方法,包括以下步骤:1)数据采集阶段:通过采集校园网服务器中的流量数据,对采集到的数据进行清洗和预处理;2)建模阶段:分析并处理数据,选择能准确描述网络状态和用户行为的特征,结合相关机器学习算法生成模型,并对模型进行训练和优化;3)数据画像阶段:使用训练好的模型对整体运行状态和用户数据分别进行分析,从多个方向描述网络状态及用户行为特征;4)应用及分析阶段:对数据画像得到的结果进行分析,并将分析结果可视化呈现给网络管理员,方便管理员能够更好地管理网络,监控网络状态,同时能够对有异常行为的用户进行分析查看并作出响应。作为本专利技术的进一步改进,步骤1)中,所述的流量数据包括校园网中的用户的起始访问时间点、访问持续时间、访问目标、访问数据量的大小以及访问内容。作为本专利技术的进一步改进,步骤2)中,在处理数据时,首先选取具有代表性的数据进行人工标记,生成训练样本,之后使用标记好的数据训练分类器,同时使用多个分类器对不同类型的数据集分别进行分类,直到分类器产生较好的分类效果,然后将训练好的模型保存到磁盘中。作为本专利技术的进一步改进,步骤3)中,所述的多方面描述网络状态包括描述该时段内产生的网络流量总量、网络访问总次数及网络访问峰值;所述的用户行为特征包括用户的网络地址、网络访问时间、网络访问频率、网络访问链接、网络访问内容和网络访问量。作为本专利技术的进一步改进,步骤3)中,主要进行的是针对校园网数据中的每个用户进行用户画像,将用户的流量数据和网站访问历史数据放入各自训练好的的分类器中,分析得出每个用户的行为特征,并打上对应的标签进行标记分类,每个用户可以根据分类的结果打上多个标签。作为本专利技术的进一步改进,所述的数据画像得到的结果包括用户行为标签、用户网络行为特征及用户潜在安全威胁。一种基于校园网流量的用户画像系统,包括:数据采集模块,用于采集校园网服务器中的流量数据,对数据进行采集,清洗和预处理;建模模块,用于分析并预处理数据,寻找最能描述网络和用户行为的特征,结合相关机器学习算法生成模型,并对模型进行训练和优化;数据画像模块,用于使用训练的模型对整体和用户数据分别进行分析,从多个方向描述网络状态及用户行为特征;应用及分析模块,用于对数据画像得到的结果进行分析,并将分析结果可视化呈现给网络管理员,方便管理员能够更好地管理网络,监控网络,同时可对异常用户进行分析查看并作出响应。作为本专利技术的进一步改进,所述的数据采集模块包括:校园网数据处理单元:用于在捕获流量数据的过程中将采集校园网中不同种类的数据;存储数据单元:用于使用Hadoop分布式框架来存放并访问数据,将采集到的多种数据分布式存储在Hadoop集群中,使用Hbase随时查看并调用,同时结合Hadoop生态中其他的软件协调合作共同管理数据。作为本专利技术的进一步改进,所述的数据采集模块包括:预处理数据单元,用于去掉对分析无用的字段,对部分数据格式进行转换;训练模型单元,用于使用机器学习算法,生成分类器,并对流量进行初步的人工标注,然后使用标注好的数据训练并优化模型。作为本专利技术的进一步改进,所述的数据画像模块包括:整体数据分析单元,用于对当前状态下的网络数据进行整体的分析;用户画像及标签化单元,用于使用训练好的模型和数据对用户进行标签化,生成用户画像。与现有的技术相比,本专利技术的优点在于:本专利技术的方法主要以校园网内的用户访问互联网产生的流量作为分析画像的基础,通过数据处理、机器学习算法、数据可视化,将网络状态和校园网用户的画像描述出来。其数据来源于校园网服务器,使得数据真实可靠,并且全面包含了校园网内用户的各种网络行为的数据,从而可以通过分析从多个方面得到完整的用户画像;此外,通过可视化方法,使得分析的用户画像结果更加的全面直观,方便管理员随时进行查看和作出决策。本专利技术的系统通过数据采集模块、建模模块、数据画像模块、应用及分析模块实现了数据层、处理层和展示层的硬件连接,最终通过采集校园网中的流量数据,对数据进行清洗和预处理,使用机器学习算法建立分类器,训练并优化分类器,分析数据集中网络的整体状态,使用训练好的分类器对校园网中的用户进行用户画像,将用户画像结果可视化呈现给管理员,提高了网络的稳定性,方便管理员进行网络的监测和维护,能对突发的网络威胁或异常用户进行及时的排查与响应。附图说明图1为本专利技术中构建用户画像方法的系统框架图;图2为本专利技术中建立及训练用户画像模型的流程图;图3为本专利技术中用户画像中使用的贝叶斯分类器训练及分类的流程图;图4为本专利技术中用户画像特征及标签示意图。具体实施方式下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。本专利技术提供一种基于校园网流量的用户画像方系统,通过构建流量数据分析系统,收集校园网中用户的流量,结合多种机器学习算法生本文档来自技高网...

【技术保护点】
1.一种基于校园网流量的用户画像方法,其特征在于,包括以下步骤:1)数据采集阶段:通过采集校园网服务器中的流量数据,对采集到的数据进行清洗和预处理;2)建模阶段:分析并处理数据,选择能准确描述网络状态和用户行为的特征,结合相关机器学习算法生成模型,并对模型进行训练和优化;3)数据画像阶段:使用训练好的模型对整体运行状态和用户数据分别进行分析,从多个方向描述网络状态及用户行为特征;4)应用及分析阶段:对数据画像得到的结果进行分析,并将分析结果可视化呈现给网络管理员,方便管理员能够更好地管理网络,监控网络状态,同时能够对有异常行为的用户进行分析查看并作出响应。

【技术特征摘要】
1.一种基于校园网流量的用户画像方法,其特征在于,包括以下步骤:1)数据采集阶段:通过采集校园网服务器中的流量数据,对采集到的数据进行清洗和预处理;2)建模阶段:分析并处理数据,选择能准确描述网络状态和用户行为的特征,结合相关机器学习算法生成模型,并对模型进行训练和优化;3)数据画像阶段:使用训练好的模型对整体运行状态和用户数据分别进行分析,从多个方向描述网络状态及用户行为特征;4)应用及分析阶段:对数据画像得到的结果进行分析,并将分析结果可视化呈现给网络管理员,方便管理员能够更好地管理网络,监控网络状态,同时能够对有异常行为的用户进行分析查看并作出响应。2.根据权利要求1所述的基于校园网流量的用户画像方法,其特征在于,步骤1)中,所述的流量数据包括校园网中的用户的起始访问时间点、访问持续时间、访问目标、访问数据量的大小以及访问内容。3.根据权利要求1所述的基于校园网流量的用户画像方法,其特征在于,步骤2)中,在处理数据时,首先选取具有代表性的数据进行人工标记,生成训练样本,之后使用标记好的数据训练分类器,同时使用多个分类器对不同类型的数据集分别进行分类,直到分类器产生较好的分类效果,然后将训练好的分类器保存到磁盘中。4.根据权利要求1所述的一种基于校园网流量的用户画像方法,其特征在于,步骤3)中,所述的多方面描述网络状态包括描述该时段内产生的网络流量总量、网络访问总次数及网络访问峰值;所述的用户行为特征包括用户的网络地址、网络访问时间、网络访问频率、网络访问链接、网络访问内容和网络访问量。5.根据权利要求1所述的一种基于校园网流量的用户画像方法,其特征在于,步骤3)中,主要进行的是针对校园网数据中的每个用户进行用户画像,将用户的流量数据和网站访问历史数据放入各自训练好的的分类器中,分析得出每个用户的行为特征,并打上对应的标签进行标记分类,每个...

【专利技术属性】
技术研发人员:李卫张晛磊
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1