一种移动应用APK文件内嵌隐私政策提取方法技术

技术编号:29156950 阅读:92 留言:0更新日期:2021-07-06 22:56
本发明专利技术公开了一种移动应用APK文件内嵌隐私政策提取方法,属于安卓移动端应用软件分析和检测领域,具体为:首先,选择待检测APK文件反编译和规则匹配,获取全部URL链接,分别爬取各网页内容,提取隐私政策文本中的特征词。同时,收集若干网页的特征词提前训练二分类模型;将待检测APK文件的各特征词,逐一输入训练好的二分类模型中,判断输出结果中是否有隐私政策页面,如果有,输出隐私政策并结束;否则,进行自动化动态测试,通过监控流量中的请求地址,提取出对应的各URL链接,爬取各页面内容提取特征词,输入二分类模型判断,直至找到隐私政策页面或者超过设置的遍历深度结束。本发明专利技术通过动静态测试相结合,提高了对隐私政策的提取效率和成功率。

【技术实现步骤摘要】
一种移动应用APK文件内嵌隐私政策提取方法
本专利技术属于安卓移动端应用软件分析和检测领域,涉及一种移动应用APK文件内嵌隐私政策提取方法。
技术介绍
静态分析是指在不运行的情况下,采用词法分析或语法分析等各种手段对程序文件进行扫描,从而生成程序的反编译代码,然后阅读反编译代码来掌握程序功能的一种技术,其本质上是静态的文本分析,因此具有较高的分析效率。常见的静态反编译工具有apktool、backsmali和dex2jar等,其中apktool是静态分析最常用的反编译工具,由Java编写,可以反编译及回编译APK文件,同时还具有安装特定的framework-res框架,清理上次反编译文件夹等功能。经过反编译工具反编译待测样本后,需要对代码进行静态分析,静态分析是数据流分析,通过对代码的语义分析,构建Android系统组件间的数据流图,分析组建间的数据流。该技术是目前国内外应用最成熟最广泛的Android静态分析技术,例如著名的FlowDroid就是典型的数据流分析工具,该工具是基于Java代码分析工具Soot开发的,通过在程序中本文档来自技高网...

【技术保护点】
1.一种移动应用APK文件内嵌隐私政策提取方法,其特征在于,具体步骤如下:/n首先,针对待检测移动应用APK文件,进行反编译和规则匹配,获取APK文件内全部URL链接集合;/n然后,利用爬虫分别爬取各URL链接对应的网页内容,提取隐私政策文本中的特征词;/n同时,收集若干隐私政策网页和非隐私政策网页,同理分别对其进行特征词的提取,用于训练二分类模型;/n最后,将待检测APK文件提炼的特征词,逐一输入训练好的二分类模型中,判断输出结果中是否有隐私政策页面,如果有,输出隐私政策并结束;否则,进行自动化动态测试。/n

【技术特征摘要】
1.一种移动应用APK文件内嵌隐私政策提取方法,其特征在于,具体步骤如下:
首先,针对待检测移动应用APK文件,进行反编译和规则匹配,获取APK文件内全部URL链接集合;
然后,利用爬虫分别爬取各URL链接对应的网页内容,提取隐私政策文本中的特征词;
同时,收集若干隐私政策网页和非隐私政策网页,同理分别对其进行特征词的提取,用于训练二分类模型;
最后,将待检测APK文件提炼的特征词,逐一输入训练好的二分类模型中,判断输出结果中是否有隐私政策页面,如果有,输出隐私政策并结束;否则,进行自动化动态测试。


2.如权利要求1所述的一种移动应用APK文件内嵌隐私政策提取方法,其特征在于,所述的反编译得到APK文件的smali代码、图片、XML配置以及语言资源。


3.如权利要求1所述的一种移动应用APK文件内嵌隐私政策提取方法,其特征在于,所述的规则匹配采用正则表达式。


4.如权利要求1所述的一种移动应用APK文件内嵌隐私政策提取方法,其特征在于,所述的爬取各网页内容并提取隐私政策文本中的特征词的具体过程为:
首先,将爬取到的与网页页面正文不相干的标签及其内容,或页面导航相关短语删除;
然后,将剩余的正文文档转换为markdown格式,并对Unicode字符进行规范化,剥离markdown格式,输出纯文本文档;
接着,对纯文本文档进行分词,并去除与文本类型特征信息无关或者明显关联度很低的词;
最后,将得到的最终所有分词利用卡方检验算法计算各自的权重,并按降幂排序,选择数量为固定长度l的分词作为特征词并形成词向量...

【专利技术属性】
技术研发人员:郭燕慧徐国爱徐国胜张淼王皓月
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1