当前位置: 首页 > 专利查询>南开大学专利>正文

一种相似性检测模型的训练方法及装置、应用方法及装置制造方法及图纸

技术编号:26172913 阅读:34 留言:0更新日期:2020-10-31 13:53
本发明专利技术提供了一种相似性检测模型的训练方法及装置、应用方法及装置。该训练方法包括:对第一应用程序和第二应用程序的属性信息进行特征提取,获得属性特征;根据属性特征,获得第一应用程序和第二应用程序之间的相似度;根据相似度和相似度标签的差异,训练相似性检测模型,其中,相似度标签用于标记第一应用程序和第二应用程序之间的相似性,能够利用相似度标签作为训练标签,建立有监督的相似性检测模型,提高相似性检测模型的性能,从而提高应用程序相似性的检测效率和准确性。

Training method and device, application method and device of similarity detection model

【技术实现步骤摘要】
一种相似性检测模型的训练方法及装置、应用方法及装置
本专利技术涉及深度学习
,具体涉及一种相似性检测模型的训练方法及装置、训练方法及装置。
技术介绍
应用程序(Application,APP)相似性检测是软件工程的重要组成部分,被广泛的应用于恶意软件检测、APP推荐和软件需求发现等领域。目前,对APP进行相似性检测的方法主要包括水印法和特征提取法。水印法是将特定的数据(如文字和字符串秘钥等)作为水印添加到APP中,在检测时利用相应算法从APP中提取水印,然后根据提取的水印结果对APP的相似性进行判断。特征提取法是通过对APP的属性进行分析,生成特征向量,并通过距离计算获取相似特征向量之间的相似性或对特征向量进行分类。然而,现有相似性检测方法的检测效率较低、准确性较低。
技术实现思路
有鉴于此,本专利技术实施例提供了一种相似性检测模型的训练方法及装置、训练方法及装置,能够提高应用程序相似性的检测效率和准确性。根据本专利技术实施例的第一方面,提供一种相似性检测模型的训练方法,包括:对第一应用程序和第二应用程序的属性信息进行特征提取,获得属性特征;根据属性特征,获得第一应用程序和第二应用程序之间的相似度;根据相似度和相似度标签的差异,训练相似性检测模型,其中,相似度标签用于标记第一应用程序和第二应用程序之间的相似性。在本专利技术的一些实施例中,相似度标签是基于第一应用程序和第二应用程序的粗粒度类别信息和/或细粒度类别信息建立的。在本专利技术的一些实施例中,相似度标签包括第一相似度标签、第二相似度标签和/或第三相似度标签,其中,第一相似度标签用于标记第一应用程序和第二应用程序的粗粒度类别信息不同;第二相似度标签用于标记第一应用程序和第二应用程序的粗粒度类别信息相同且细粒度类别信息不同;第三相似度标签用于标记第一应用程序和第二应用程序的细粒度类别信息相同。在本专利技术的一些实施例中,相似性检测模型为FM模型、DNN模型或DeepFM模型。在本专利技术的一些实施例中,上述相似性检测模型的训练方法还包括:对第一应用程序和第二应用程序的属性信息进行词嵌入处理,其中,上述对第一应用程序和第二应用程序的属性信息进行特征提取,包括:对第一应用程序和第二应用程序的经过词嵌入处理后的属性信息进行特征提取。在本专利技术的一些实施例中,属性信息包括应用程序的标题信息、描述信息和隐私策略信息,上述相似性检测模型的训练方法还包括:通过长短期记忆网络对第一应用程序和第二应用程序的经过词嵌入处理后的描述信息和隐私策略信息进行预训练,其中,上述对第一应用程序和第二应用程序的经过词嵌入处理后的属性信息进行特征提取,包括:对第一应用程序和第二应用程序的经过词嵌入处理后的标题信息和经过词嵌入处理与预训练后的描述信息和隐私策略信息进行特征提取。在本专利技术的一些实施例中,长短期记忆网络为单向长短期记忆网络、双向长短期记忆网络、基于注意力机制的单向长短期记忆网络或基于注意力机制的双向长短期记忆网络。根据本专利技术实施例的第二方面,提供一种相似性检测模型的应用方法,包括:将待检测的第一应用程序和第二应用程序的属性信息输入相似性检测模型,其中相似性检测模型通过上述任一所述的方法训练得到;利用相似性检测模型对第一应用程序和第二应用程序进行相似性检测。根据本专利技术实施例的第三方面,提供一种相似性检测模型的训练装置,包括:特征提取模块,用于对第一应用程序和第二应用程序的属性信息进行特征提取,获得属性特征;相似度模块,用于根据属性特征,获得第一应用程序和第二应用程序之间的相似度;训练模块,用于根据相似度和相似度标签的差异,训练相似性检测模型,其中,相似度标签用于标记第一应用程序和第二应用程序之间的相似性。根据本专利技术实施例的第四方面,提供一种相似性检测模型的应用装置,包括:输入模块,用于将待检测的第一应用程序和第二应用程序的属性信息输入相似性检测模型,其中相似性检测模型通过上述任一所述的方法训练得到;检测模块,用于利用相似性检测模型对第一应用程序和第二应用程序进行相似性检测。根据本专利技术实施例的第五方面,提供一种计算机可读存储介质,其特征在于,存储介质存储有计算机程序,计算机程序用于执行上述任一所述的方法。根据本专利技术实施例的第六方面,提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;处理器,用于执行上述任一所述的方法。根据本专利技术实施例提供的技术方案,通过对第一应用程序和第二应用程序的属性信息进行特征提取,获得属性特征;根据属性特征,获得第一应用程序和第二应用程序之间的相似度;根据相似度和相似度标签的差异,训练相似性检测模型,能够利用相似度标签作为训练标签,建立有监督的相似性检测模型,提高相似性检测模型的性能,从而提高应用程序相似性的检测效率和准确性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1所示为本专利技术一实施例提供的相似性检测模型的训练方法的流程示意图。图2所示为本专利技术另一实施例提供的相似性检测模型的训练方法的流程示意图。图3所示为本专利技术另一实施例提供的相似性检测模型的训练方法的流程示意图。图4所示为本专利技术另一实施例提供的相似性检测模型的训练方法的流程示意图。图5所示为本专利技术另一实施例提供的相似性检测模型的训练方法的流程示意图。图6所示为本专利技术一实施例提供的相似性检测模型的结构示意图。图7所示为本专利技术一实施例提供的相似性检测模型的应用方法的流程示意图。图8所示为本专利技术一实施例提供的相似性检测模型的训练装置的框图。图9所示为本专利技术一实施例提供的相似性检测模型的应用装置的框图。图10所示为本专利技术一实施例提供的电子设备的框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1所示为本专利技术一实施例提供的相似性检测模型的训练方法的流程示意图。该方法可以由计算机设备(例如,服务器)执行。如图1所示,该方法包括如下内容。S110:对第一应用程序和第二应用程序的属性信息进行特征提取,获得属性特征。具体地,可以将第一应用程序的属性信息和第二应用程序的属性信息拼接后输入相似性检测模型,通过相似性检测模型对属性信息进行特征提取,从而得到属性特征。属性特征可以包括属性信息的低阶特征和/或高阶特征,本专利技术对此不作限定。属性信息可以包括APP的用户设计页面、虚拟机(Dalvik)字节码、APP的元数据信息(例如,由开发者提供的文本描述信息、标题本文档来自技高网...

【技术保护点】
1.一种相似性检测模型的训练方法,其特征在于,包括:/n对第一应用程序和第二应用程序的属性信息进行特征提取,获得属性特征;/n根据所述属性特征,获得所述第一应用程序和所述第二应用程序之间的相似度;/n根据所述相似度和相似度标签的差异,训练所述相似性检测模型,其中,所述相似度标签用于标记所述第一应用程序和所述第二应用程序之间的相似性。/n

【技术特征摘要】
1.一种相似性检测模型的训练方法,其特征在于,包括:
对第一应用程序和第二应用程序的属性信息进行特征提取,获得属性特征;
根据所述属性特征,获得所述第一应用程序和所述第二应用程序之间的相似度;
根据所述相似度和相似度标签的差异,训练所述相似性检测模型,其中,所述相似度标签用于标记所述第一应用程序和所述第二应用程序之间的相似性。


2.根据权利要求1所述的方法,其特征在于,所述相似度标签是基于所述第一应用程序和所述第二应用程序的粗粒度类别信息和/或细粒度类别信息建立的。


3.根据权利要求2所述的方法,其特征在于,所述相似度标签包括第一相似度标签、第二相似度标签和/或第三相似度标签,
其中,所述第一相似度标签用于标记所述第一应用程序和所述第二应用程序的粗粒度类别信息不同;
所述第二相似度标签用于标记所述第一应用程序和所述第二应用程序的粗粒度类别信息相同且细粒度类别信息不同;
所述第三相似度标签用于标记所述第一应用程序和所述第二应用程序的细粒度类别信息相同。


4.根据权利要求1所述的方法,其特征在于,所述相似性检测模型为因子分解机FM模型、深度神经网络DNN模型或深度因子分解机DeepFM模型。


5.根据权利要求1至4中任一项所述的方法,其特征在于,还包括:
对所述第一应用程序和所述第二应用程序的属性信息进行词嵌入处理,
其中,所述对第一应用程序和第二应用程序的属性信息进行特征提取,包括:
对所述第一应用程序和所述第二应用程序的经过词嵌入处理后的属性信息进行特征提取。


6.根据权利要求5所述的方法,其特征在于,所述属性信息包括应用程序的标题信息、描述信息和隐私策略信息,所述方法还包括:
通过长短期记忆网络对所述第一应用程序和所述第二应用程序的经过词嵌入处理后的所述描述信息和所述隐私策略信息进行预训练,
其中,所述对所述第一应用程序和所述第二应用程序的经过词嵌入处理后的属...

【专利技术属性】
技术研发人员:许静高红灿过辰楷黄登蓉吴彦峰何振
申请(专利权)人:南开大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1