安卓恶意应用检测方法、装置及设备制造方法及图纸

技术编号:30646364 阅读:26 留言:0更新日期:2021-11-04 00:54
一种安卓恶意应用检测方法、装置及设备,通过获取预设时长内终端设备中各安卓应用产生的网络流量数据包;将五元组信息一致且到达时间的间隔不超过第一预设时长的网络流量数据包汇总生成一个数据流,得到多个数据流;将二元组信息一致且时间间隔不超过第二预设时长的数据流汇总生成一个会话,得到多个会话,第二预设时长大于第一预设时长;确定并获取各会话的预设特征,并将各会话的预设特征输入预先训练好的目标分类模型中,以得到各会话的会话类别,会话类别包括恶意和良性;将会话类别为恶意的会话所属的安卓应用确定为恶意应用,克服了安卓恶意应用选择随机端口的情形,从而提高了安卓恶意应用的检测准确度。提高了安卓恶意应用的检测准确度。提高了安卓恶意应用的检测准确度。

【技术实现步骤摘要】
安卓恶意应用检测方法、装置及设备


[0001]本专利技术涉及应用安全
,具体涉及一种安卓恶意应用检测方法、装置及设备。

技术介绍

[0002]安卓操作系统是谷歌开发的基于Linux的开源操作系统,是当今移动智能终端中最受欢迎的操作系统。系统开源能吸引更多用户参与应用程序的开发,因此安卓应用的种类、数量也正在急速增长。其中,恶意应用的增长尤其迅猛,并且,恶意应用会泄露用户的个人隐私信息,给用户带来了严重损失。为了避免恶意应用对安卓用户的损害,一般需要对恶意应用进行检测。
[0003]目前,可以通过基于恶意应用流量特征分析的机器学习分类方法对恶意应用进行检测。恶意应用流量特征分析的机器学习分类方法是基于不同应用的不同流量行为特征进行流量识别的技术。这种方法往往是根据流量数据源网际互连协议(Internet Protocol,IP)地址、源端口、目的IP地址、目的端口和传输层协议类型组成的“五元组”将流量数据划分为数据流,再根据提取的流特征训练机器学习分类模型进行恶意应用检测。但实际中的一些恶意应用往往是采用端口随机技术,只从“五元组”数据流层面提取统计特征建立机器学习分类模型缺乏全面的、有效的检测效果,导致恶意应用检测的准确度较低。

技术实现思路

[0004]本专利技术实施例提供一种安卓恶意应用检测方法、装置及设备,用以提高安卓恶意应用的检测准确度。
[0005]根据第一方面,一种实施例中提供一种安卓恶意应用检测方法,其特征在于,包括:
[0006]获取预设时长内终端设备中各安卓应用产生的网络流量数据包;
[0007]将五元组信息一致且到达时间的间隔不超过第一预设时长的网络流量数据包汇总生成一个数据流,得到多个数据流,所述五元组信息包括源网际互连协议IP地址、源端口、目的IP地址、目的端口和传输层协议类型;
[0008]将二元组信息一致且时间间隔不超过第二预设时长的数据流汇总生成一个会话,得到多个会话,所述二元组信息包括源IP地址和目的IP地址,所述第二预设时长大于所述第一预设时长;
[0009]确定并获取各会话的预设特征,并将各会话的预设特征输入预先训练好的目标分类模型中,以得到各会话的会话类别,所述目标分类模型基于标注了会话类别的样本数据训练得到,所述会话类别包括恶意和良性;
[0010]将会话类别为恶意的会话所属的安卓应用确定为恶意应用。
[0011]可选的,在所述将五元组信息一致且到达时间的间隔不超过第一预设时长的网络流量数据包汇总生成一个数据流之前,所述方法还包括:
[0012]对所述网络流量数据包进行数据清洗;
[0013]所述对所述网络流量数据包进行数据清洗,包括:
[0014]删除五元组信息错误或者不完整的网络流量数据包;
[0015]删除传输控制协议TCP或者用户数据报协议UDP载荷为空的网络流量数据包。
[0016]可选的,所述预设特征通过以下方法确定:
[0017]获取多个样本会话;
[0018]提取各样本会话的会话特征,所述会话特征包括会话的统计特征,若会话的网络流量数据包中包括用于进行安全传输层协议TLS握手协商的数据包,则所述会话特征还包括会话的TLS特征;
[0019]将所述多个会话特征分别输入至多个预设特征选择模型中,对各会话特征进行打分排序,得到各预设特征选择模型对应的各会话特征的排序;
[0020]针对每个预设特征选择模型,对位于预设排名内的会话特征进行投票;
[0021]将投票总数位于所述预设排名内的会话特征确定为所述预设特征。
[0022]可选的,所述统计特征包括:会话中数据流数量、会话中数据包数量、会话中数据包总长度、会话中数据包到达间隔时间中数、会话连接持续时间、会话中前向包总数量、会话中前向包总长度、会话中后向包总数量、会话中后向包总长度、会话中每秒前向包数量、会话中每秒后向包数量、会话中每个前向包长度、会话中每个后向包长度、会话中每个流的长度、会话中每个流的数据包总量、会话中每个流的前向包数量、会话中每个流的后向包数量、会话中每个流的前向包长度和会话中每个流的后向包长度;所述TLS特征包括安全传输层协议TLS协议版本、TLS加密套件、TLS客户端指纹信息、TLS服务器指纹信息和TLS证书指纹信息。
[0023]可选的,所述预设特征选择模型包括:过滤式特征选择算法模型FisherScore、返回k个最佳特征算法模型SelectKBest、随机森林算法模型、基于直方图的决策树算法模型LightGBM和递归式特征消除算法模型。
[0024]可选的,所述目标分类模型包括:为以下一项:最邻近分类模型、决策树模型、随机森林算法模型、极端随机树模型、梯度下降树模型和极端梯度提升模型。
[0025]根据第二方面,一种实施例中提供一种安卓恶意应用检测装置,包括:
[0026]第一获取模块,用于获取预设时长内终端设备中各安卓应用产生的网络流量数据包;
[0027]第二获取模块,用于将五元组信息一致且到达时间的间隔不超过第一预设时长的网络流量数据包汇总生成一个数据流,得到多个数据流,所述五元组信息包括源网际互连协议IP地址、源端口、目的IP地址、目的端口和传输层协议类型;
[0028]第三获取模块,用于将二元组信息一致且时间间隔不超过第二预设时长的数据流汇总生成一个会话,得到多个会话,所述二元组信息包括源IP地址和目的IP地址,所述第二预设时长大于所述第一预设时长;
[0029]第四获取模块,用于确定并获取各会话的预设特征,并将各会话的预设特征输入预先训练好的目标分类模型中,以得到各会话的会话类别,所述目标分类模型基于标注了会话类别的样本数据训练得到,所述会话类别包括恶意和良性;
[0030]确定模块,用于将会话类别为恶意的会话所属的安卓应用确定为恶意应用。
[0031]可选的,所述装置还包括:
[0032]清洗模块,用于对所述网络流量数据包进行数据清洗;
[0033]所述清洗模块,具体用于删除五元组信息错误或者不完整的网络流量数据包;删除传输控制协议TCP或者用户数据报协议UDP载荷为空的网络流量数据包。
[0034]可选的,所述第四获取模块,具体用于获取多个样本会话;提取各样本会话的会话特征,所述会话特征包括会话的统计特征,若会话的网络流量数据包中包括用于进行安全传输层协议TLS握手协商的数据包,则所述会话特征还包括会话的TLS特征;将所述多个会话特征分别输入至多个预设特征选择模型中,对各会话特征进行打分排序,得到各预设特征选择模型对应的各会话特征的排序;针对每个预设特征选择模型,对位于预设排名内的会话特征进行投票;将投票总数位于所述预设排名内的会话特征确定为所述预设特征。
[0035]可选的,所述统计特征包括:会话中数据流数量、会话中数据包数量、会话中数据包总长度、会话中数据包到达间隔时间中数、会话连接持续时间、会话中前向包总数量、会话中前向包总长度、会话本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种安卓恶意应用检测方法,其特征在于,包括:获取预设时长内终端设备中各安卓应用产生的网络流量数据包;将五元组信息一致且到达时间的间隔不超过第一预设时长的网络流量数据包汇总生成一个数据流,得到多个数据流,所述五元组信息包括源网际互连协议IP地址、源端口、目的IP地址、目的端口和传输层协议类型;将二元组信息一致且时间间隔不超过第二预设时长的数据流汇总生成一个会话,得到多个会话,所述二元组信息包括源IP地址和目的IP地址,所述第二预设时长大于所述第一预设时长;确定并获取各会话的预设特征,并将各会话的预设特征输入预先训练好的目标分类模型中,以得到各会话的会话类别,所述目标分类模型基于标注了会话类别的样本数据训练得到,所述会话类别包括恶意和良性;将会话类别为恶意的会话所属的安卓应用确定为恶意应用。2.如权利要求1所述的方法,其特征在于,在所述将五元组信息一致且到达时间的间隔不超过第一预设时长的网络流量数据包汇总生成一个数据流之前,所述方法还包括:对所述网络流量数据包进行数据清洗;所述对所述网络流量数据包进行数据清洗,包括:删除五元组信息错误或者不完整的网络流量数据包;删除传输控制协议TCP或者用户数据报协议UDP载荷为空的网络流量数据包。3.如权利要求1所述的方法,其特征在于,所述预设特征通过以下方法确定:获取多个样本会话;提取各样本会话的会话特征,所述会话特征包括会话的统计特征,若会话的网络流量数据包中包括用于进行安全传输层协议TLS握手协商的数据包,则所述会话特征还包括会话的TLS特征;将所述多个会话特征分别输入至多个预设特征选择模型中,对各会话特征进行打分排序,得到各预设特征选择模型对应的各会话特征的排序;针对每个预设特征选择模型,对位于预设排名内的会话特征进行投票;将投票总数位于所述预设排名内的会话特征确定为所述预设特征。4.如权利要求3所述的方法,其特征在于,所述统计特征包括:会话中数据流数量、会话中数据包数量、会话中数据包总长度、会话中数据包到达间隔时间中数、会话连接持续时间、会话中前向包总数量、会话中前向包总长度、会话中后向包总数量、会话中后向包总长度、会话中每秒前向包数量、会话中每秒后向包数量、会话中每个前向包长度、会话中每个后向包长度、会话中每个流的长度、会话中每个流的数据包总量、会话中每个流的前向包数量、会话中每个流的后向包...

【专利技术属性】
技术研发人员:吴星樊俊锋李志奇陈平谢东峰黄鑫泰
申请(专利权)人:深圳市纽创信安科技开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1