一种基于LLM的少样本多标签安卓恶意软件检测方法技术

技术编号:45876451 阅读:15 留言:0更新日期:2025-07-19 11:35
本发明专利技术提出基于LLM的少样本多标签安卓恶意软件检测方法,解决在数据噪声和标签不一致的情况下保持稳健的恶意软件检测性能的重大挑战。提出的LeoDroid框架引入了两个主要的创新来应对这些挑战。首先,它实现了一个复杂的核心集策略,精心选择有代表性的样本,以最大限度地减少噪声的影响。其次,它通过定制的提示工程来利用大型语言模型的高级推理能力。还引入了一种新颖的Multi‑Sample‑ACC度量,该度量为恶意软件检测上下文中的多标签分类性能提供了更有意义的评估。LeoDroid在anonymmouscert、Drebin和VirusShare数据集上实现一致的MS‑ACC得分高于0.93。由于其强大的架构,该框架在anonymmouscert数据集上优于传统机器学习方法300%以上。这些结果验证了框架在不同程度的噪声和数据质量的情况下保持高检测精度的能力。

【技术实现步骤摘要】

本专利技术属于安卓恶意软件检测,提出了一种基于大型语言模型的少样本多标签检测框架,用于提高在噪声数据和数据稀缺环境下的恶意软件检测鲁棒性。


技术介绍

1、数据噪声是android恶意软件检测的一个基本挑战,它会显著降低机器学习模型的性能。使用第三方服务的传统方法会引入恶意软件演变和时间标签变化带来的不一致性,而深度学习方法由于依赖于大型干净数据集,并且倾向于记忆而不是从噪声标签中进行概括,因此难以处理噪声数据。训练数据的质量在决定机器学习模型的有效性方面起着根本性的作用,数据噪声是一个特别重要的挑战,它会严重降低模型的性能。这一挑战在android恶意软件检测系统中变得尤其明显,其中准确标记恶意软件样本是必不可少的,但很难实现。尽管广泛依赖第三方服务,如virustotal通过基于投票机制的恶意软件标记,但这些方法通常会在数据集中引入大量噪声。这种噪声来自于标记方法和不断发展的恶意软件特征的不一致性,这会导致多个安全任务,如恶意软件检测、行为分析和家庭贡献的性能下降。由于恶意软件变体的快速演变及其日益复杂,即使是最先进的降噪技术在保持标签质量方面也面临着持本文档来自技高网...

【技术保护点】

1.一种基于LLM的少样本多标签安卓恶意软件检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于LLM的少样本多标签安卓恶意软件检测方法,其特征在于,其步骤S1包括:API调用:记录应用在运行过程中调用的API函数及其调用频率;权限使用:记录应用请求的权限类型及其使用频率;意图模式:记录应用发送和接收的意图及其模式,其他行为特征:包括网络请求、文件操作、系统调用。

3.根据权利要求1所述的基于LLM的少样本多标签安卓恶意软件检测方法,其特征在于,步骤S2中采用的聚类算法为基于KNN相似性矩阵的层次聚类方法,并通过最大化轮廓系数和Calinski-Ha...

【技术特征摘要】

1.一种基于llm的少样本多标签安卓恶意软件检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于llm的少样本多标签安卓恶意软件检测方法,其特征在于,其步骤s1包括:api调用:记录应用在运行过程中调用的api函数及其调用频率;权限使用:记录应用请求的权限类型及其使用频率;意图模式:记录应用发送和接收的意图及其模式,其他行为特征:包括网络请求、文件操作、系统调用。

3.根据权利要求1所述的基于llm的少样本多标签安卓恶意软件检测方法,其特征在于,步骤s2中采用的聚类算法为基于knn相似性矩阵的层次聚类方法,并通过最大化轮廓系数和calinski-harabasz指数的加权组合,自适应地确定最优簇数,其步骤s2包括:

4.根据权利要求1所述的基于llm的少样本多标签安卓恶意软件检测方法,其特征在于,步骤s3中设计的提示包括:标签描述:明确给出每个恶意软件行为标签的定义;核心集样本示例:将核心样本的特征和标签信息整合到提示中;链式思考模块:通过分解特征与标签之间的关系,引导llm进行结构化的推理过程;其步骤s3包括:

5...

【专利技术属性】
技术研发人员:白裕德刘建卓董敏弘郭奇白宏鹏王赜
申请(专利权)人:天津工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1