模型训练方法、装置及电子设备制造方法及图纸

技术编号:37042701 阅读:23 留言:0更新日期:2023-03-29 19:21
本申请公开了一种模型训练方法、装置及电子设备,属于机器学习技术领域。其中,该方法包括:根据N个应用程序的目标程序文件,确定M个目标特征图像,该目标程序文件为安卓安装包APK中的程序文件,该N个应用程序中的每个应用程序的目标程序文件分别对应至少两个目标特征图像,N、M均为正整数;将M个目标特征图像输入至预训练模型中,得到输出的L个目标样本图像,该预训练模型是采用无监督训练方式进行模型训练得到的,L为大于M的正整数;基于L个目标样本图像,对待训练的分类模型进行模型训练,得到目标分类模型。得到目标分类模型。得到目标分类模型。

【技术实现步骤摘要】
模型训练方法、装置及电子设备


[0001]本申请属于机器学习
,具体涉及一种模型训练方法、装置及电子设备。

技术介绍

[0002]目前,电子设备可以使用训练后的分类模型,识别应用程序是否为恶意广告应用程序,并在识别该应用程序为恶意广告应用程序的情况下拦截该应用程序,以避免用户使用该应用程序。在相关技术中,在训练分类模型的过程中,电子设备可以采用监督训练方式,根据多个应用程序特征,对待训练的分类模型进行模型训练,以得到训练后的分类模型。
[0003]但是,由于可能会出现多个应用程序特征未覆盖某些应用程序特征的情况,这样可能会出现训练后的分类模型无法识别某些应用程序是否为恶意广告应用程序的情况,因此,导致电子设备识别恶意广告应用程序的识别率较低。

技术实现思路

[0004]本申请实施例的目的是提供一种模型训练方法、装置及电子设备,能够解决电子设备识别恶意广告应用程序的识别率较低的问题。
[0005]第一方面,本申请实施例提供了一种模型训练方法,该方法包括:根据N个应用程序的目标程序文件,确定M个目标特征图像,该目标程序文件为安卓安装包APK中的程序文件,该N个应用程序中的每个应用程序的目标程序文件分别对应至少两个目标特征图像,N、M均为正整数;将M个目标特征图像输入至预训练模型中,得到输出的L个目标样本图像,该预训练模型是采用无监督训练方式进行模型训练得到的,L为大于M的正整数;基于L个目标样本图像,对待训练的分类模型进行模型训练,得到目标分类模型。
[0006]第二方面,本申请实施例提供了一种模型训练装置,该模型训练装置包括:确定模块、处理模块以及训练模块。其中,确定模块,用于根据N个应用程序的目标程序文件,确定M个目标特征图像,该目标程序文件为APK中的程序文件,该N个应用程序中的每个应用程序的目标程序文件分别对应至少两个目标特征图像,N、M均为正整数。处理模块,用于将确定模块确定的M个目标特征图像输入至预训练模型中,得到输出的L个目标样本图像,该预训练模型是采用无监督训练方式进行模型训练得到的,L为大于M的正整数。训练模块,用于基于处理模块处理得到的L个目标样本图像,对待训练的分类模型进行模型训练,得到目标分类模型。
[0007]第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,该存储器存储可在处理器上运行的程序或指令,该程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
[0008]第四方面,本申请实施例提供了一种可读存储介质,该可读存储介质上存储程序或指令,该程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
[0009]第五方面,本申请实施例提供了一种芯片,该芯片包括处理器和通信接口,该通信
接口和处理器耦合,该处理器用于运行程序或指令,实现如第一方面所述的方法。
[0010]第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
[0011]在本申请实施例中,电子设备可以先根据N个应用程序的目标程序文件(即APK中的程序文件),确定M个目标特征图像,每个应用程序的目标程序文件分别对应至少两个目标特征图像,N、M均为正整数;然后再将该M个目标特征图像输入至预训练模型(该预训练模型是采用无监督训练方式进行模型训练得到的)中,得到输出的L个目标样本图像,L为大于M的正整数;从而电子设备可以基于该L个目标样本图像,对待训练的分类模型进行模型训练,得到目标分类模型。由于电子设备可以先确定每个应用程序的目标程序文件对应的数量较多的目标特征图像(即至少两个目标特征图像),然后再将每个应用程序的目标程序文件对应的至少两个目标特征图像输入至采用无监督训练方式训练得到的预训练模型中,以得到数量更多、且多样化的目标样本图像(即L个目标样本图像),因此,可以减少出现L个目标样本图像未覆盖某些应用程序特征的情况,从而可以减少出现目标分类模型无法识别某些应用程序是否为恶意广告应用程序的情况,如此,可以提高电子设备识别恶意广告应用程序的识别率。
附图说明
[0012]图1是本申请实施例提供的一种模型训练方法的流程示意图之一;
[0013]图2是本申请实施例提供的一种模型训练方法的流程示意图之二;
[0014]图3是本申请实施例提供的一种模型训练方法的流程示意图之三;
[0015]图4是本申请实施例提供的一种模型训练方法的流程示意图之四;
[0016]图5是本申请实施例提供的一种模型训练方法的流程示意图之五;
[0017]图6是本申请实施例提供的一种模型训练装置的结构示意图之一;
[0018]图7是本申请实施例提供的一种模型训练装置的结构示意图之二;
[0019]图8是本申请实施例提供的一种电子设备的结构示意图;
[0020]图9是本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
[0021]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
[0022]以下将对本申请实施例涉及的术语进行说明。
[0023]1、无监督学习(Unsupervised Learning)、监督学习(Supervised Learning)以及半监督学习(Semi

Supervised Learning)。
[0024]无监督学习,是根据未对应有标签的样本对模型进行训练的。常用的无监督学习的算法有矩阵分解算法、独孤森林算法(IsolationForest)、主成分分析方法(Principal Components Analysis,PCA)、等距映射方法、局部线性嵌入方法、拉普拉斯特征映射方法、黑塞局部线性嵌入方法和局部切空间排列方法等。无监督学习的过程可以理解为是聚类的过程,聚类的目的在于把相似的东西聚在一起,而不关心这一类是什么。
[0025]监督学习,是根据对应有标签的样本对模型进行训练的,也称为监督训练或有教师学习。常见的有监督学习算法:回归分析和统计分类。最典型的算法是k最邻近分类算法(k

NearestNeighbor,KNN)和支持向量机(SupportVector Machine,SVM)。
[0026]半监督学习,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的无标签数据和一部分有标签数据来进行模式识别工作。
[0027]2、对抗样本
[0028]对抗样本是指:在原始样本添加一些人眼无法察觉的扰动(这样的扰动不会影响人类的识别,但是会影响模型的识别),得到的新的样本,该新的样本可以致使模型做出错误的判断。
[0029]3、对抗攻击和白盒模型
[0030]由于机器学习算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:根据N个应用程序的目标程序文件,确定M个目标特征图像,所述目标程序文件为安卓安装包APK中的程序文件,所述N个应用程序中的每个应用程序的目标程序文件分别对应至少两个目标特征图像,N、M均为正整数;将所述M个目标特征图像输入至预训练模型中,得到输出的L个目标样本图像,所述预训练模型是采用无监督训练方式进行模型训练得到的,L为大于M的正整数;基于所述L个目标样本图像,对待训练的分类模型进行模型训练,得到目标分类模型。2.根据权利要求1所述的方法,其特征在于,所述M个目标特征图像包括P个第一特征图像和T个第二特征图像;每个应用程序的目标程序文件分别对应至少一个第一特征图像,每个应用程序的目标程序文件分别对应至少一个第二特征图像;P、T均为正整数;所述根据N个应用程序的目标程序文件,确定M个目标特征图像,包括:根据所述N个应用程序的目标程序文件,确定所述P个第一特征图像;根据所述P个第一特征图像中对应有分类标签的特征图像,对待训练的Q个第一预设模型进行模型训练,Q为大于1的正整数;将所述P个第一特征图像分别输入至训练后的所述Q个第一预设模型中,得到输出的所述T个第二特征图像;其中,所述P个第一特征图像包括以下至少一项:根据所述N个应用程序的目标程序文件得到的特征图像、根据N个应用程序的应用程序编程接口API得到的特征图像;在所述Q个第一预设模型中,不同第一预设模型对应的算法不同。3.根据权利要求2所述的方法,其特征在于,在所述P个第一特征图像包括根据所述N个应用程序的目标程序文件得到的特征图像的情况下,所述P个第一特征图像包括N个第三特征图像;每个应用程序的目标程序文件分别对应一个第三特征图像;所述根据所述N个应用程序的目标程序文件,确定所述P个第一特征图像,包括:根据所述N个应用程序的目标程序文件,生成所述N个第三特征图像,所述N个第三特征图像和所述N个应用程序一一对应。4.根据权利要求3所述的方法,其特征在于,所述N个应用程序包括第一应用程序,所述第一应用程序的目标程序文件包括R个子文件,R为大于1的正整数;所述根据所述N个应用程序的目标程序文件,生成所述N个第一特征图像,包括:根据所述R个子文件,生成R个子特征图像,所述R个子特征图像和所述R个子文件一一对应;依次拼接所述R个子特征图像,得到第四特征图像,所述第四特征图像为:所述N个第三特征图像中,与所述第一应用程序对应的特征图像。5.根据权利要求3所述的方法,其特征在于,所述P个第一特征图像还包括N个第五特征图像;每个应用程序的目标程序文件分别对应一个第五特征图像;在所述根据所述N个应用程序的目标程序文件,生成所述N个第三特征图像之后,所述方法还包括:针对所述N个第三特征图像中的每个第三特征图像,确定一个第三特征图像中的S个图像区域的S个目标信息熵,所述S个目标信息熵和所述S个图像区域一一对应,S为正整数;基于所述S个目标信息熵,生成一个第五特征图像,以生成所述...

【专利技术属性】
技术研发人员:段云欣吴怡陈辉刘陶杜云
申请(专利权)人:中国信息通信研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1