一种基于特征融合和NLP技术的Android恶意软件分类方法技术

技术编号：33453423 阅读：40 留言：0更新日期：2022-05-19 00:36

本发明专利技术提供了一种基于特征融合和NLP技术的Android恶意软件分类方法。包括：步骤1，将特征集按照十折交叉验证的方法划分为训练集和测试集，使用卡方检验等过滤技术去除符号以及无意义和独立的词；步骤2，使用基于N

全部详细技术资料下载

【技术实现步骤摘要】
一种基于特征融合和NLP技术的Android恶意软件分类方法

[0001]本专利技术属于Android恶意软件检测与分类领域，涉及一种基于特征融合和自然语言处理(NLP，Natural Language Processing)技术的Android恶意软件分类方法。

技术介绍

[0002]随着Android市场的不断扩增和各类软件的迅速扩展，移动产品成为人们信息交流和资金交互的主要平台。各种平台与个人发布的软件层出不穷，而这些软件质量和真实行为也让测试工作受到了很大的挑战。据统计，移动恶意软件主要通过流氓行为、隐私窃取、恶意扣费等行为进行攻击，同时，一些新型的恶意软件能够很好地进行伪装并躲过测试人员的常规检测方法，呈现出多态性和混淆性的特点。由此，资金以及隐私的安全问题随着这类软件规模的增加而变得更加严重，新型伪装恶意软件无时无刻不在获取用户的隐私并威胁用户的资金安全。
[0003]Android恶意软件检测与分类技术是解决这一问题的有效方法，这类方法用有限的资源保证了软件的安全性。通过这类方法，超过90％以上的恶意软...

【技术保护点】

【技术特征摘要】
1.一种基于特征融合和NLP技术的Android恶意软件分类方法，其特征在于，包括如下步骤：步骤1，将数据集按照一定比例划分为训练集和测试集，并通过使用互信息法等过滤技术去除集合中的特殊符号、无意义以及具有独立性质的词，形成特征语料库；步骤2，使用基于N
‑
gram技术的特征分词器Feature
‑
Tokenizer对特征语料库进行分词处理，形成对应的特征词集；步骤3，使用特征哈希、序列填充、归一化技术对特征词集进行特征映射，形成符合支持向量机SVM输入要求且保留了足够多信息的密集特征向量；步骤4，使用本发明提出的多层级特征融合算法MFFA从位级别对特征向量加权后求和，得到最终的融合特征向量；步骤5，将融合特征向量的训练集输入优化的支持向量机分类器进行训练，得到Android恶意软件分类模型；步骤6，使用最终得到的Android恶意软件分类模型对测试集中的特征向量进行Android软件的类型预测。2.如权利要求1所述的方法，其特征在于，所述步骤1具体实现包括如下步骤：步骤1.1，使用replace()函数去除集合中的标点符号和对分词没有影响的特殊字符；步骤1.2，结合互信息分类技术捕获特征与类别之间的相关性，使用mutual_info_classif和mutual_info_regression的类函数返回每个特征与类别之间的信息估计量；步骤1.3，确定信息估计量的范围，接近0表示两个变量独立，接近1表示两个变量相关，从而进一步判断词语与该类型是否独立，去除具有独立性的词语，得到具有最佳词集的特征语料库。3.如权利要求1所述的方法，其特征在于，所述步骤2的具体实现包括如下步骤：步骤2.1，基于N
‑
gram技术构建一个特征分词器Feature
‑
Tokenizer，该分词器的构建过程包括对语料的切分、计算词频与索引、利用nltk的biggrams函数，建立gram矩阵...

【专利技术属性】
技术研发人员：陈锦富，赵子安，蔡赛华，殷上，吕天翔，宋锣，
申请(专利权)人：江苏大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人