一种流量识别方法及装置、以及计算机可读存储介质制造方法及图纸

技术编号:21576879 阅读:60 留言:0更新日期:2019-07-10 16:53
本发明专利技术公开了一种流量识别方法,包括:获取电子设备被使用时所产生的待识别流量数据包;对所述待识别流量数据包进行特征提取,获得第一内容特征;将所述第一内容特征与预先构建的特征数据库中各App的第二内容特征进行匹配,确定所述待识别流量数据包关联的至少一个App;所述第二内容特征为从App的有效流量样本中提取的内容特征,所述有效流量样本包括App调用本地数据库所产生的流量数据包;根据所述特征数据库中所述至少一个App的第二行为特征,从所述至少一个App中确定所述待识别流量数据包所属的App;所述第二行为特征表征App对第三方数据库的调用行为特征。本发明专利技术同时还公开了一种流量识别装置以及计算机可读存储介质。

A Flow Recognition Method and Device and Computer Readable Storage Media

【技术实现步骤摘要】
一种流量识别方法及装置、以及计算机可读存储介质
本专利技术涉及通信技术,尤其涉及一种流量识别方法及装置、以及计算机可读存储介质。
技术介绍
相关研究分析中发现,人们对于移动互联网设备的依赖性越来越严重,平均每人每天花费在移动电子设备上的时间超过三个小时;其中,花费在智能手机上的时间占了将近两个小时,花费的时间主要集中在智能手机安装的应用程序(App,Application)的使用上。并且,用户对App的使用频率通常与用户的身份有一定的关联性,例如,经常使用金融证券相关App的用户,其身份很有可能就是证券经理、个人或企业投资者;因此,App所对应的属性在某种程度上就反应着用户的个人属性。基于上述的可能性,如果能够可靠地得到用户的App使用行为,并对得到的App使用行为进行分析画像,就能得到具有较高可信度的用户描述。但是,用户的App使用行为属于用户隐私,并且智能手机上App的种类繁多,目前用户常用的App数量,就超过了10万个;因此,常规方法是无法可靠地获取到用户的App使用行为样本。然而,对于移动数据供应商而言,可以获取到用户使用App的流量数据;如果能根据流量数据识别出用户所使用的App,则对于可靠地获取用户的App使用行为就成为了可能。为了根据用户使用App的流量数据识别出用户所使用的App,首先,需要获取App的流量样本;然后,对获得的流量样本进行特征提取,以根据提取的特征构建特征数据库;最后,基于构建的特征数据库对用户使用App的流量数据进行特征匹配,以识别出用户所使用的App。从上述描述可以看出,如何对获得的流量数据进行特征提取,使得提取的特征具有更加优秀的粒度以及抗干扰能力是准确识别App的关键因素。然而,采用现有的流量特征提取方法提取的特征存在识别粒度不够,以及在噪声存在的条件下识别效果不理想的缺陷,使得根据流量数据无法准确识别到用户所使用的App,从而导致流量识别精度较差。
技术实现思路
为解决现有存在的技术问题,本专利技术实施例提供一种流量识别方法及装置、以及计算机可读存储介质,能够根据用户使用电子设备时所产生的流量数据包准确识别到用户所使用的App。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供了一种流量识别方法,所述方法包括:获取电子设备被使用时所产生的待识别流量数据包;对所述待识别流量数据包进行特征提取,获得第一内容特征;所述第一内容特征表征待识别流量数据包关联的应用程序App的内容特征;将所述第一内容特征与预先构建的特征数据库中各App的第二内容特征进行匹配,确定所述待识别流量数据包关联的至少一个App;所述第二内容特征为从App的有效流量样本中提取的内容特征,所述有效流量样本包括App调用本地数据库所产生的流量数据包;根据所述特征数据库中所述至少一个App的第二行为特征,从所述至少一个App中确定所述待识别流量数据包所属的App;所述第二行为特征表征App对第三方数据库的调用行为特征。上述方案中,所述方法还包括:针对每个App,获取相应的原生流量,所述原生流量为相应App在模拟环境运行过程中所产生的流量;对所述原生流量进行过滤,获得所述相应App的有效流量样本;对所述有效流量样本进行内容特征提取,获得所述相应App的第二内容特征;根据预先获取的App的第二内容特征和所述原生流量,获得所述相应App的第二行为特征;利用各App的第二内容特征和第二行为特征,构建所述特征数据库。上述方案中,所述对所述原生流量进行过滤,获得所述相应App的有效流量样本,包括:对所述App的第N个特征信息进行语义分析,获得第一语义信息,所述N为正整数;对待分析流量数据包中与所述第N个特征信息对应的内容进行语义分析,获得所述待分析流量数据包的第二语义信息;所述待分析流量数据包为所述原生流量中通过N-1个特征信息进行过滤后未确定为有效流量数据包的流量数据包;所述有效流量数据包为所述有效流量样本中的流量数据包;计算所述第一语义信息与所述第二语义信息之间的关联度;将所述关联度大于或等于预设值的待分析流量数据包确定为有效流量样本中的流量数据包。上述方案中,所述根据预先获取的App的第二内容特征和所述原生流量,获得所述相应App的第二行为特征,包括:对所述原生流量进行内容特征提取,获得所述原生流量的内容特征;将所述原生流量的内容特征和预先获取的App的第二内容特征进行匹配,确定所述原生流量关联的App;根据所述App的描述信息和所述原生流量关联的App,获得所述第二行为特征。上述方案中,所述根据所述特征数据库中所述至少一个App的第二行为特征,从所述至少一个App中确定所述待识别流量数据包所属的App,包括:从所述至少一个App的第二行为特征中获取目标行为特征,所述目标行为特征中的调用行为关联的App中包括所述待识别流量数据包关联的所有App;从所述特征数据库中获取所述目标行为特征对应的App;将所述目标行为特征对应的App确定为所述待识别流量数据包所属的App。本专利技术实施例还提供了一种流量识别装置,所述装置包括:处理器、用于存储能够在处理器上运行的计算机程序的存储器;其中,所述处理器用于运行所述计算机程序时,执行:获取电子设备被使用时所产生的待识别流量数据包;对所述待识别流量数据包进行特征提取,获得第一内容特征;所述第一内容特征表征待识别流量数据包关联的应用程序App的内容特征;将所述第一内容特征与预先构建的特征数据库中各App的第二内容特征进行匹配,确定所述待识别流量数据包关联的至少一个App;所述第二内容特征为从App的有效流量样本中提取的内容特征,所述有效流量样本包括App调用本地数据库所产生的流量数据包;根据所述特征数据库中所述至少一个App的第二行为特征,从所述至少一个App中确定所述待识别流量数据包所属的App;所述第二行为特征表征App对第三方数据库的调用行为特征。上述方案中,所述处理器用于运行所述计算机程序时,执行:针对每个App,获取相应的原生流量,所述原生流量为相应App在模拟环境运行过程中所产生的流量;对所述原生流量进行过滤,获得所述相应App的有效流量样本;对所述有效流量样本进行内容特征提取,获得所述相应App的第二内容特征;根据预先获取的App的第二内容特征和所述原生流量,获得所述相应App的第二行为特征;利用各App的第二内容特征和第二行为特征,构建所述特征数据库。上述方案中,所述处理器用于运行所述计算机程序时,执行:对所述App的第N个特征信息进行语义分析,获得第一语义信息,所述N为正整数;对待分析流量数据包中与所述第N个特征信息对应的内容进行语义分析,获得所述待分析流量数据包的第二语义信息;所述待分析流量数据包为所述原生流量中通过N-1个特征信息进行过滤后未确定为有效流量数据包的流量数据包;所述有效流量数据包为所述有效流量样本中的流量数据包;计算所述第一语义信息与所述第二语义信息之间的关联度;将所述关联度大于或等于预设值的待分析流量数据包确定为有效流量样本中的流量数据包。上述方案中,所述处理器用于运行所述计算机程序时,执行:对所述原生流量进行内容特征提取,获得所述原生流量的内容特征;将所述原生流量的内容特征和预先获取的App的第二内容特征进行匹配,确定所述原生流量关联的本文档来自技高网
...

【技术保护点】
1.一种流量识别方法,其特征在于,所述方法包括:获取电子设备被使用时所产生的待识别流量数据包;对所述待识别流量数据包进行特征提取,获得第一内容特征;所述第一内容特征表征待识别流量数据包关联的应用程序App的内容特征;将所述第一内容特征与预先构建的特征数据库中各App的第二内容特征进行匹配,确定所述待识别流量数据包关联的至少一个App;所述第二内容特征为从App的有效流量样本中提取的内容特征,所述有效流量样本包括App调用本地数据库所产生的流量数据包;根据所述特征数据库中所述至少一个App的第二行为特征,从所述至少一个App中确定所述待识别流量数据包所属的App;所述第二行为特征表征App对第三方数据库的调用行为特征。

【技术特征摘要】
1.一种流量识别方法,其特征在于,所述方法包括:获取电子设备被使用时所产生的待识别流量数据包;对所述待识别流量数据包进行特征提取,获得第一内容特征;所述第一内容特征表征待识别流量数据包关联的应用程序App的内容特征;将所述第一内容特征与预先构建的特征数据库中各App的第二内容特征进行匹配,确定所述待识别流量数据包关联的至少一个App;所述第二内容特征为从App的有效流量样本中提取的内容特征,所述有效流量样本包括App调用本地数据库所产生的流量数据包;根据所述特征数据库中所述至少一个App的第二行为特征,从所述至少一个App中确定所述待识别流量数据包所属的App;所述第二行为特征表征App对第三方数据库的调用行为特征。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:针对每个App,获取相应的原生流量,所述原生流量为相应App在模拟环境运行过程中所产生的流量;对所述原生流量进行过滤,获得所述相应App的有效流量样本;对所述有效流量样本进行内容特征提取,获得所述相应App的第二内容特征;根据预先获取的App的第二内容特征和所述原生流量,获得所述相应App的第二行为特征;利用各App的第二内容特征和第二行为特征,构建所述特征数据库。3.根据权利要求2所述的方法,其特征在于,所述对所述原生流量进行过滤,获得所述相应App的有效流量样本,包括:对所述App的第N个特征信息进行语义分析,获得第一语义信息,所述N为正整数;对待分析流量数据包中与所述第N个特征信息对应的内容进行语义分析,获得所述待分析流量数据包的第二语义信息;所述待分析流量数据包为所述原生流量中通过N-1个特征信息进行过滤后未确定为有效流量数据包的流量数据包;所述有效流量数据包为所述有效流量样本中的流量数据包;计算所述第一语义信息与所述第二语义信息之间的关联度;将所述关联度大于或等于预设值的待分析流量数据包确定为有效流量样本中的流量数据包。4.根据权利要求2所述的方法,其特征在于,所述根据预先获取的App的第二内容特征和所述原生流量,获得所述相应App的第二行为特征,包括:对所述原生流量进行内容特征提取,获得所述原生流量的内容特征;将所述原生流量的内容特征和预先获取的App的第二内容特征进行匹配,确定所述原生流量关联的App;根据所述App的描述信息和所述原生流量关联的App,获得所述第二行为特征。5.根据权利要求1所述的方法,其特征在于,所述根据所述特征数据库中所述至少一个App的第二行为特征,从所述至少一个App中确定所述待识别流量数据包所属的App,包括:从所述至少一个App的第二行为特征中获取目标行为特征,所述目标行为特征中的调用行为关联的App中包括所述待识别流量数据包关联的所有App;从所述特征数据库中获取所述目标行为特征对应的App;将所述目标行为特征对应的App确定为所述待识别流量数据包所属的App。6.一种流量识别装置,其特征在于,所述装置包括:处理器、用于存储能够在处理器上运行的计算机程序的存储器;其中,所述处理器用于运行所述计算机程序时,执行:获取电子设备被使用时所产生的待识别流量数据包;对所述待识别流量数据包进行特征提取,获得第一内容特征;所述第一内容特征表征待识别流量数据包关联的应用程序App的内容特征;将所述第一内容特征与预先构建的特征数据库中各App的第二内容特征进行匹配,确定所述待识别流量数据包关联的至少一个App;所述第二内容特征为从...

【专利技术属性】
技术研发人员:熊龙
申请(专利权)人:中国移动通信有限公司研究院中国移动通信集团有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1