基于海量用户行为数据的通讯网络报文分类系统及方法技术方案

技术编号:8107675 阅读:165 留言:0更新日期:2012-12-21 07:44
本发明专利技术提供一种基于海量用户行为数据的通讯网络报文分类系统及方法,其特征在于:包括用户数据采集系统,所述用户数据采集系统将收集到的数据传输给数据清洗模块,所述数据清洗模块将清洗和抽取后的报文特征生成特征矩阵传输给分类算法模块,所述分类算法模块和分类模型相互交换数据,所述分类模型通过模型输出模块输出最终用于与报文比对的模型,该系统及方法能对各类报文准确识别,满足报文分析中数据的细粒度需求,通过报文分类能有效的对用户行为数据,包括用户的访问、搜索数据进行细致分析。

【技术实现步骤摘要】

本专利技术涉及领域包括,海量用户使用各种网络设备和终端访问网络产生的通讯网络报文的分析、根据用户的行为抽取报文特征、使用数据挖掘和机器学习技术对通讯网络报文进行正确的分类预测,特别设计一种。
技术介绍
大部分传统的报文分类使用的都是基于规则的系统,也就是统计不同报文中出现的关键词,然后形成一规则库,当下一个报文出现时,就去规则库中匹配,得出报文的大概类别。这种方法的缺点是很明显的(I)有大量的报文存在,不可能得到一个很精确的规则库;(2)不同规则库中规则的可能重复性,使用匹配策略可能得到不准确的报文类别 当报文数量巨大时,匹配策略将不能满足时间上的有效性。
技术实现思路
本专利技术目的为提供一种,该系统及方法能对各类报文准确识别,满足报文分析中数据的细粒度需求,通过报文分类能有效的对用户行为数据,包括用户的访问、搜索数据进行细致分析。本专利技术的技术方案如下一种基于海量用户行为数据的通讯网络报文分类系统,包括用户数据采集系统,所述用户数据采集系统将收集到的数据传输给数据清洗模块,所述数据清洗模块将清洗和抽取后的报文特征生成特征矩阵传输给分类算法模块,所述分类算法模块和分类模型相互交换数据,所述分类模型通过模型输出模块输出最终用于与报文比对的模型。所述用户数据采集模块将网络收集的数据存储进用户数据存储系统。所述分类算法模块还接收训练数据集的数据,所述分类模型还接收评估数据集的验证数据。一种基于海量用户行为数据的通讯网络报文分类方法,通过如下步骤实现报文分类(I)将用户数据采集模块内的信息导入数据清洗模块对用户数据进行清洗,抽取用户通讯网络报文的特征,生成特征矩阵,并导入分类算法模块中生成分类模型;(2)同时使用人工方式对每个通讯网络报文的类别进行标注,建立训练数据集和评估数据集;将训练数据集生成的特征矩阵也同时输入到分类算法模块,分类算法模块对训练数据集进行学习关于报文的分类模型,将评估数据集生产的特征矩阵输入到分类模型中间结果中,验证模型输出结果和人工标注结果,根据所得的正确率和召回率来判断模型的准确度;(3)将分类模型验证后的参数反馈给分类算法模块,不断的对分类算法模块进行优化,以提高系统在现实复杂情况下的鲁棒性和模型精度;(4)建立最终模型并通过模型输出模块输出用于与新报文连接,预测通讯网络报文的类别。所述人工方式所区分的网络报文类别标注包括搜索引擎报文,网页浏览报文,资源下载页报文,广告素材报文。通过用户数据采集模块对用户行为数据进行收集并将信息存储入用户数据存储系统。本专利技术的技术效果在于在通讯网络报文中存在大量的各式各样的报文类型,为了能对这些报文进行深度 的分析和挖掘,必须能正确的识别各类报文。由于数据量的巨大,所以在目标时间内和目标准确率内完成这个任务变得非常困难。本专利技术通过细致分析通讯网络报文,根据用户行为抽取了报文的特征,然后使用来自数据挖掘和机器学习的技术构建了一整套准确识别各类报文的系统,包括从原始报文收集到最终在线使用的完整流程,确保了在目标时间内报文的准确识别。附图说明图I为本专利技术所述步骤流程图。具体实施例方式以下结合附图对本专利技术做进一步说明。如图I所示,一种基于海量用户行为数据的通讯网络报文分类系统,包括用户数据采集系统,所述用户数据采集系统将收集到的数据传输给数据清洗模块,所述数据清洗模块将清洗和抽取后的报文特征生成特征矩阵传输给分类算法模块,所述分类算法模块和分类模型相互交换数据,所述分类模型通过模型输出模块输出最终用于与报文比对的模型。所述用户数据采集模块将网络收集的数据存储进用户数据存储系统。所述分类算法模块还接收训练数据集的数据,所述分类模型还接收评估数据集的验证数据。一种基于海量用户行为数据的通讯网络报文分类方法,通过如下步骤实现报文分类(I)将用户数据采集模块内的信息导入数据清洗模块对用户数据进行清洗,抽取用户通讯网络报文的特征,生成特征矩阵,并导入分类算法模块中生成分类模型;(2)同时使用人工方式对每个通讯网络报文的类别进行标注,建立训练数据集和评估数据集;将训练数据集生成的特征矩阵也同时输入到分类算法模块,分类算法模块对训练数据集进行学习关于报文的分类模型,将评估数据集生产的特征矩阵输入到分类模型中间结果中,验证模型输出结果和人工标注结果,根据所得的正确率和召回率来判断模型的准确度;(3)将分类模型验证后的参数反馈给分类算法模块,不断的对分类算法模块进行优化,以提高系统在现实复杂情况下的鲁棒性和模型精度;(4)建立最终模型并通过模型输出模块输出用于与新报文连接,预测通讯网络报文的类别。所述人工方式所区分的网络报文类别标注包括搜索引擎报文,网页浏览报文,资源下载页报文,广告素材报文。通过用户数据采集模块对用户行为数据进行收集并将信息存储入用户数据存储系统。分类算法模块优化过程所述分类算法模块接收电脑与人工所生成的报文分类特征矩阵,并生成分类模型,所述分类模型接收人工输入的评估数据集生成都验证用报文分类特征矩阵,分类模型再将验证后的数据反馈给分类算法模块,以对其分类算法模块进行优化,以便之后更精确的分类。·清洗模块的作用是去除数据中一些噪音,包括两个部分(I)去除一些不必要的样本;(2)去除某些样本中的某些噪音信息。所述训练数据集包含两部分,一是人工标注的网络报文类别,再就是表示网络报文的特征向量,一般用稀疏向量表示,为了符合具体分类算法的要求,可以进行相应的格式转换。特征主要是能区别开各类报文的一些信息,通过人工分析和统计得出,比如广告url特征可以由三部分组成(1)包含特定关键词、alimama、doubleclick、ad等;(2) —般处于用户访问树的叶子节点;(3)用户直接输入比例一般比较小。特征矩阵指的是各个样本的特征值构成的矩阵。评价分类系统的性能有两个方面,一个是模型精度,一个是算法的效率。其中影响模型精度的一个重要因素就是特征的充分性,包括特征的强弱和数目。本专利技术在对海量的通讯网络报文进行深度分析的基础上,根据用户行为对报文进行了细致的分类,精心抽取了各类报文的特征,从而保证了模型的精度和预测的准确性。另外在算法效率上,进行了大量的优化,从而保证了海量数据处理的实效性。以上所述仅为本专利技术的较佳实施例而已,并不用以限制本专利技术,凡在本专利技术的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
一种基于海量用户行为数据的通讯网络报文分类系统,其特征在于:包括用户数据采集系统,所述用户数据采集系统将收集到的数据传输给数据清洗模块,所述数据清洗模块将清洗和抽取后的报文特征生成特征矩阵传输给分类算法模块,所述分类算法模块和分类模型相互交换数据,所述分类模型通过模型输出模块输出最终用于与报文比对的模型。

【技术特征摘要】
1.一种基于海量用户行为数据的通讯网络报文分类系统,其特征在于包括用户数据采集系统,所述用户数据采集系统将收集到的数据传输给数据清洗模块,所述数据清洗模块将清洗和抽取后的报文特征生成特征矩阵传输给分类算法模块,所述分类算法模块和分类模型相互交换数据,所述分类模型通过模型输出模块输出最終用于与报文比对的模型。2.根据权利要求I所述的基于海量用户行为数据的通讯网络报文分类系统,其特征在干所述用户数据采集模块将网络收集的数据存储进用户数据存储系统。3.根据权利要求I所述的基于海量用户行为数据的通讯网络报文分类系统,其特征在干所述分类算法模块还接收训练数据集的数据,所述分类模型还接收评估数据集的验证数据。4.一种基于海量用户行为数据的通讯网络报文分类方法,其特征在于通过如下步骤实现报文分类 (1)将用户数据采集模块内的信息导入数据清洗模块对用户数据进行清洗,抽取用户通讯网络报文的特征,生成特征矩阵,并导入分类算法模块中生成分类模型; (2)...

【专利技术属性】
技术研发人员:刘晓亮罗峰黄苏支李娜王琪张玉波阎飞飞刘书良刘生
申请(专利权)人:北京亿赞普网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1