当前位置: 首页 > 专利查询>湖北大学专利>正文

一种基于机器学习的手持终端流量识别方法和系统技术方案

技术编号:15189491 阅读:96 留言:0更新日期:2017-04-19 18:48
本发明专利技术公开一种基于机器学习的手持终端流量识别方法和系统,其方法包括如下步骤:步骤1:对待识别流量进行UA关键字匹配,如果匹配,直接识别为手持设备流量或非手持设备流量;如果不匹配,进入步骤2;步骤2:基于C4.5决策树算法和流量属性,计算各流量属性的信息增益率并构建决策树模型,不匹配的待识别流量通过决策树模型识别为手持设备流量或非手持设备流量。该方法采用C4.5决策树算法对UA方法无法识别的流量进行分类时,仅需进行流量属性值比较,处理相对简单,明显缩短处理时间,同时还能大幅提高手持终端与非手持终端识别准确率。

【技术实现步骤摘要】

本专利技术涉及通信网络
,具体涉及一种基于机器学习的手持终端流量识别方法和系统。
技术介绍
目前移动数据流量已经占全球IP流量的47%,其中WIFI流量已占整个移动数据流量的90%以上。WIFI环境下移动终端流量识别对互联网流量管理具有重要意义。对移动终端及手持设备流量的识别方法主要有三种,IMEI(InternationalMobileEquipmentIdentity)识别、MAC识别和UA(useragent,用户代理)识别。移动通信网络环境下,通过SIM认证方式上网的终端,移动运营商可以获取IMEI信息进行识别,识别的准确率高且比较成熟,但IMEI方法只适用于移动通信网络环境,在WiFi网络环境下无法应用。基于设备二层MAC地址的识别虽然具有一定的识别率,但二层MAC地址传播范围受限,无法穿透三层网络,在广域网上获取整个网络接入设备的MAC地址很难实现。也有一些通过搭建特殊网络环境实现手持与非手持终端流量的区分,比如在设备接入阶段,通过一定的验证使得手持终端与非手持终端接入到不同的交换设备,达到流量区分的目的。这种实现方法较为繁琐,需要增加验证方式,改变原有的网络结构,在实际网络管理中并不适用。用户代理UA识别方法是通过读取http请求中useragent字符串,与已知的UA字符串库进行匹配,识别出设备类型和浏览器类型。手持设备,包括手机、平板电脑、智能手表、手持GPS等,其UA关键字可从已公开的UA列表获取,其中手持设备的关键字有:Android,iPad,iPhone,ARCHOS,BlackBerry,CUPCAKE,FacebookTouch,iPod,Kindle,LG,Links,Linuxarmv6l,Linuxarmv7l,Maemo,Minimo,MobileSafari,Nokia,OperaMini,OperaMobi,PalmSource,PlayStation,SAMSUNG,Symbian,SymbOS,webOS,WindowsCE,WindowsMobile,Zaurus;非手持设备所用到的关键字有:WindowsNT,Windows7,WindowsVista,WindowsXP,WindowsServer,IntelMacOSX,PPCMacOSX,MacBook,iMac,Fedora,Ubuntu,Gentoo,SUSE,Linuxx8664,Linuxi686,WiiConnect。基于UA的识别方法比较容易实现,同时不受上网方式的限制。但这种直接读取useragent字符串并比对已知UA与终端对应的字典的方法准确率一般。同时,UA识别方法受新机型、山寨机和PC的影响比较大,导致在真实网络环境下,识别的准确率较低,且存在大量UA无法识别的类型,并标记为unknown。真实数据分析显示,典型园区网络环境下unknown约占全部连接的35%。
技术实现思路
有鉴于此,有必要提供一种能够提高流量识别准确率的基于机器学习的手持终端流量识别方法和系统。一种基于机器学习的手持终端流量识别方法,包括如下步骤:步骤1:对待识别流量进行UA关键字匹配,如果匹配,直接识别为手持设备流量或非手持设备流量;如果不匹配,进入步骤2;步骤2:基于C4.5决策树算法和流量属性,计算各流量属性的信息增益率并构建决策树模型,不匹配的待识别流量通过决策树模型识别为手持设备流量或非手持设备流量。以及,一种基于机器学习的手持终端流量识别系统,包括:UA匹配单元,对待识别流量进行UA关键字匹配,将匹配的待识别流量识别为手持设备流量或非手持设备流量;训练集构建单元,将UA匹配单元识别出的手持设备流量或非手持设备流量加入用于机器学习的训练集;其中,训练集中每项样本由包含若干个流量属性的属性向量表示;待分类集构建单元,将UA匹配单元中不匹配的待识别流量加入待分类集中;决策树模型构建单元,用于基于C4.5决策树算法,计算训练集中每个流量属性的信息增益率,并构建决策树模型;流量识别单元,将待分类集通过决策树模型,识别出手持设备流量和非手持设备流量。本专利技术的一种基于机器学习的手持终端流量识别方法和系统,采用C4.5决策树算法对不匹配的待识别流量进行分类时,仅需进行流量属性值比较,处理相对简单,明显缩短处理时间;同时,可有效识别UA方法无法识别的设备,使整体的手持终端与非手持终端识别准确率大幅提高。附图说明图1为本专利技术一种基于机器学习的手持终端流量识别方法的流程图;图2为本专利技术一种基于机器学习的手持终端流量识别系统的框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明,应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供的一种基于机器学习的手持终端流量识别方法的流程,如图1所示,具体过程如下:步骤1:对待识别流量进行UA关键字匹配,如果匹配,直接识别为手持设备流量或非手持设备流量;如果不匹配,进入步骤2。其中,将步骤1识别出的手持设备流量或非手持设备流量加入用于机器学习的训练集S,将不匹配的待识别流量加入待分类集T。步骤2:基于C4.5决策树算法和流量属性,计算各流量属性的信息增益率并构建决策树模型,不匹配的待识别流量通过决策树模型识别为手持设备流量或非手持设备流量。具体的过程如下:步骤2.1:训练集和待分类集中每项样本由包含若干个流量属性的属性向量表示。具体的,训练集S={D1,D2,......,Dn本文档来自技高网
...

【技术保护点】
一种基于机器学习的手持终端流量识别方法,其特征在于,包括如下步骤:步骤1:对待识别流量进行UA关键字匹配,如果匹配,直接识别为手持设备流量或非手持设备流量;如果不匹配,进入步骤2;步骤2:基于C4.5决策树算法和流量属性,计算各流量属性的信息增益率并构建决策树模型,不匹配的待识别流量通过决策树模型识别为手持设备流量或非手持设备流量。

【技术特征摘要】
1.一种基于机器学习的手持终端流量识别方法,其特征在于,包括如下步骤:步骤1:对待识别流量进行UA关键字匹配,如果匹配,直接识别为手持设备流量或非手持设备流量;如果不匹配,进入步骤2;步骤2:基于C4.5决策树算法和流量属性,计算各流量属性的信息增益率并构建决策树模型,不匹配的待识别流量通过决策树模型识别为手持设备流量或非手持设备流量。2.根据权利要求1所述的一种基于机器学习的手持终端流量识别方法,其特征在于,将步骤1中识别出的手持设备流量或非手持设备流量加入用于机器学习的训练集,将不匹配的待识别流量加入待分类集。3.根据权利要求2所述的一种基于机器学习的手持终端流量识别方法,其特征在于,步骤2的具体过程为:步骤2.1:训练集中每项样本由包含若干个流量属性的属性向量表示;步骤2.2:基于C4.5决策树算法,计算训练集中每个流量属性的信息增益率,并构建决策树模型;步骤2.3:待分类...

【专利技术属性】
技术研发人员:朱国胜石志凯
申请(专利权)人:湖北大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1