【技术实现步骤摘要】
一种基于流量指纹的APP个人信息收集行为检测方法及系统
[0001]本专利技术涉及网络安全被动监测领域,特别涉及一种基于流量指纹的APP个人信息收集行为检测方法及系统。
技术介绍
[0002]近年来,随着国家信息化战略的实施和移动互联网的快速发展,APP已经渗透人们日常生活的方方面面,用户在享用便捷高效服务的同时,也承受着个人隐私信息泄露和侵犯的风险。
[0003]然而,现有APP个人信息检测方法主要通过对App进行静态分析和动态分析,不够轻量,也难以实现网络关口环境下的实时监测和复合监测。
技术实现思路
[0004]本专利技术公开了一种APP个人信息收集行为检测方法及系统,旨在能够从被动流量数据层面出发,提取APP流量指纹、第三方SDK流量指纹、个人信息流量指纹三种类型流量指纹形成指纹库。基于所构建指纹库,利用相似度匹配、字符串匹配和正则匹配算法对出入流量数据包进行规则匹配,可实现在网络关口环境下的APP个人信息收集行为检测,输出监测线索,为后续依据相关规定和标准开展APP违法违规收集个人信息提供重 ...
【技术保护点】
【技术特征摘要】
1.一种基于流量指纹的APP个人信息收集行为检测方法,其特征在于,包括以下步骤:从某一个或多个APP分发渠道自动下载APP安装文件到本地存储;调度选取安装文件分发到独立的运行环境进行安装,使用人工方式或者自动化测试工具产生操作事件,驱动APP运行触发网络行为以产生通信流量;启动流量捕获程序,采用中间人代理嗅探的方式对通信流量进行抓包,捕获APP流量通信日志,该APP流量通信日志覆盖HTTP协议和HTTPS协议解密后流量;对捕获的APP流量通信日志进行解析处理,从URI、Host、SNI、User
‑
Agent、Cookie、Referer、X
‑
Requested
‑
With以及其他请求头部字段中提取能用于标识APP或SDK唯一身份的指纹特征,形成APP流量指纹库和SDK流量指纹库;从URI、其他请求头部字段、消息主体中提取能用于标识个人信息的指纹特征,形成个人信息流量指纹库,所述其他请求头部字段为HTTP请求报文中出现的请求字段;基于APP流量指纹库、SDK流量指纹库和个人信息流量指纹库,对待检测的网络流量进行相似度匹配和字符串正则匹配检测,输出APP或者SDK收集个人信息行为线索,该线索说明了哪个APP或SDK收集了哪些个人信息。2.如权利要求1所述的方法,其特征在于,所述运行环境为Android、IOS真机或虚拟机;所述自动化测试工具包括模拟点击脚本、Monkey工具中的一种;所述中间人代理嗅探通过Mitmproxy、Charles、Fiddler、BurpSuite工具中的一种实现。3.如权利要求1所述的方法,其特征在于,对通信流量进行抓包时,利用事先构建好的第三方SDK域名列表对Host字段进行匹配检测,对流量通信日志内逐条记录是否为SDK进行判定,以区分第三方SDK流量与APP自身流量。4.如权利要求1所述的方法,其特征在于,从URI、Host、SNI、User
‑
Agent、Cookie、Referer、X
‑
Requested
‑
With以及其他请求头部字段中提取能用于标识APP或SDK唯一身份的指纹特征的方法包括直接提取和词频筛选提取,其中对Host、SNI以及X
‑
Requested
‑
With进行直接提取,对URI、User
‑
Agent、Cookie、Referer以及其他请求头部字段进行词频筛选提取。5.如权利要求4所述的方法,其特征在于,词频筛选提取分为对键值类型提取和对非键值类型提取;该键值类型包括URI的query部分、Cookie和其他请求头部字段,对该键值类型进行提取时,先进行分割,然后保留所有Key=Value格式的Key值关键词集合;该非键值类型包括URI的path部分、User
‑
Agent和Referer,对该非键值类型进行提取时,利用分隔符进行拆分处理,形成关键词集合。6.如权利要求4或5所述的方法,其特征在于,对于词频筛选提取,在形成各个字段对应的关键词集合后,首先分别过滤停用词和随机词,然后以Top K%方式分别对每个过滤后集合进行关键词保留,筛选形成指纹,...
【专利技术属性】
技术研发人员:窦禹,桑亚飞,常鹏,李书豪,杨昕雨,张博文,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。