一种基于多模态融合的安卓赌博应用识别方法和系统技术方案

技术编号:29022760 阅读:12 留言:0更新日期:2021-06-26 05:23
本发明专利技术公开了一种基于多模态融合的安卓赌博应用识别方法和系统,属于安卓应用安全技术领域,该识别方法具体过程如下;(1)批量获取网站评论和赌博网站中安卓赌博应用下载线索信息;(2)通过在目标网站发现以APK结尾的应用下载链接,提取疑似安卓应用;(3)提取安卓应用安装包的包名、图标、证书、IP地址、URL域名和电子邮件地址;(4)通过多模态融合的安卓赌博应用识别模型,判定识别赌博应用包括图像模型、文本模型和Multihead Attention融合模型;(5)存储发现的安卓应用基本信息及应用安装包;本发明专利技术多模态识别模型能够精确地识别出安卓平台中的赌博应用,有利于减少网络赌博违法犯罪活动。活动。活动。

【技术实现步骤摘要】
一种基于多模态融合的安卓赌博应用识别方法和系统


[0001]本专利技术涉及安卓应用安全
,尤其涉及一种基于多模态融合的安卓赌博应用识别方法和系统。

技术介绍

[0002]经检索,中国专利号CN108052523A公开了一种基于卷积神经网络的赌博网站识别方法和系统,该专利技术虽然能通过卷积神经网络模型对待预测网站的网页截图进行识别,判断其是否为赌博网站,但仅仅只能针对网站的图像特征进行训练识别;近年来,随着互联网和移动通信产业的飞速发展,网络赌博作为一种参与人数多、传播渠道广、涉案规模大的违法犯罪活动,在境内不断蔓延,导致大量资金外流,其衍生犯罪严重威胁我国社会安全;安卓(Android)移动应用作为网络赌博信息重要传播载体之一,具有平台开放、可以不通过官方或第三方应用商店安装等特点,大量安卓平台赌博应用选择直接在官方网站提供安装包或其他信息传播渠道提供下载链接的方式进行传播;当前,赌博应用作为有害应用之一,安卓平台有害应用分析主要聚焦恶意代码及行为安全等传统网络安全领域,对于应用内容有害发现及内容安全研究较少;因此,专利技术出一种基于多模态融合的安卓赌博应用识别方法和系统变得尤为重要;
[0003]现有的安卓应用识别方法往往关注应用中的恶意代码及行为安全等网络安全方面问题,对于应用有害内容发现判别及内容信息安全研究较少,且内容安全相关的公开训练、测试数据集较少;此外,安卓赌博应用安装包中含有文本、图片、证书等大量多模态信息,已有的多模态融合方法不具有针对性;为此,我们提出一种基于多模态融合的安卓赌博应用识别方法和系统。

技术实现思路

[0004]本专利技术的目的是为了解决现有技术中存在的缺陷,而提出的一种基于多模态融合的安卓赌博应用识别方法和系统。
[0005]为了实现上述目的,本专利技术采用了如下技术方案:
[0006]一种基于多模态融合的安卓赌博应用识别方法,该识别方法具体过程如下:
[0007](1)批量获取网站评论和赌博网站中安卓赌博应用下载线索信息;
[0008](2)通过在目标网站发现以APK结尾的应用下载链接,提取疑似安卓应用;
[0009](3)提取安卓应用安装包的包名、图标、证书、IP地址、URL域名和电子邮件地址;
[0010](4)通过多模态融合的安卓赌博应用识别模型,判定识别赌博应用包括图像模型、文本模型和Multihead Attention融合模型;
[0011](5)存储发现的安卓应用基本信息及应用安装包;
[0012](6)前端展示安卓赌博已发现情况及安卓赌博应用新发现情况。
[0013]优选的,所述图像模型判定过程具体如下:
[0014]S1:使用VGGNet把图标图片映射为特征f
I
,其公式如下:
[0015]f
I
=CNN
vgg
(I)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0016]S2:把图标图片缩放为448*448像素,然后获取最后一层池化层的特征f
I
,其输出的维度为512*14*14,其中14*14是图片分割区域的数量,512是每个区域特征向量的维度;
[0017]S3:使用一个单层感知机把每个特征向量转换为一个与文本向量维度相同的新向量,其公式如下:
[0018]v
I
=tanh(W
I
f
I
+b
I
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0019]式中:v
I
是一个矩阵,它的第i列是图片特征向量的区域i;
[0020]S4:使用18层或34层残差神经网络解决梯度消失问题。
[0021]优选的,所述残差神经网络由两个堆叠层building block组成,其结构如下:
[0022]H(x)=F(x,{W
i
})+x
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0023]式中:x与H(x)是building block的输入输出向量;F(x,{W
i
})表示学习的残差映射;
[0024]其中:
[0025]F(x)=W2δ(W1x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0026]式中:δ表示激活函数,W1表示第一个连接权值,W2表示第二个连接权值;
[0027]若维度x与F不匹配,可以使用线性映射W_s来进行维度匹配:
[0028]H(x)=F(x,{W
i
})+W
δ
x
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0029]通过具有快捷连接的前向神经网络来实现公式F(x)+x,快捷连接的由一个恒等映射来实现,输出将会被添加到堆叠层的最终输出中。
[0030]优选的,所述文本模型具体为LSTM,LSTM的基本结构是一个保留序列状态的记忆单元,在每一步中,LSTM单元获取一个输入词向量x
t
,更新记忆单元c
t
,然后输出一个隐藏状态h
t
;更新过程中使用了门机制;一个遗忘门f
t
控制从上一个状态的c
t
‑1中保留多少信息;一个输入门i
t
控制当前输入x
t
更新多少信息到记忆单元;输出门控制多少信息进入输出即隐藏状态,详细的更新过程如下:
[0031]i
t
=σ(W
xi
x
t
+W
hi
h
t
‑1+b
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0032]f
t
=σ(W
xf
x
t
+W
hf
h
t
‑1+b
f
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0033]o
t
=σ(W
xo
x
t
+W
ho
h
t
‑1+b
o
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0034]c
t
=f
t
c
t
‑1+i
t
tanh(W
xc
x
t
+W
hc
h
t
‑1+b
c
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0035]h
t
=o
t
tanh(c
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0036]式中:i,f,o,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态融合的安卓赌博应用识别方法,其特征在于,该识别方法具体过程如下:(1)批量获取网站评论和赌博网站中安卓赌博应用下载线索信息;(2)通过在目标网站发现以APK结尾的应用下载链接,提取疑似安卓应用;(3)提取安卓应用安装包的包名、图标、证书、IP地址、URL域名和电子邮件地址;(4)通过多模态融合的安卓赌博应用识别模型,判定识别赌博应用包括图像模型、文本模型和Multihead Attention融合模型;(5)存储发现的安卓应用基本信息及应用安装包;(6)前端展示安卓赌博已发现情况及安卓赌博应用新发现情况。2.根据权利要求1所述的一种基于多模态融合的安卓赌博应用识别方法,其特征在于,所述图像模型判定过程具体如下:S1:使用VGGNet把图标图片映射为特征f
I
,其公式如下:f
I
=CNN
vgg
(I)
ꢀꢀꢀꢀ
(1)S2:把图标图片缩放为448*448像素,然后获取最后一层池化层的特征f
I
,其输出的维度为512*14*14,其中14*14是图片分割区域的数量,512是每个区域特征向量的维度;S3:使用一个单层感知机把每个特征向量转换为一个与文本向量维度相同的新向量,其公式如下:v
I
=tanh(W
I
f
I
+b
I
)
ꢀꢀꢀꢀ
(2)式中:v
I
是一个矩阵,它的第i列是图片特征向量的区域i;S4:使用18层或34层残差神经网络解决梯度消失问题。3.根据权利要求2所述的一种基于多模态融合的安卓赌博应用识别方法,其特征在于,所述残差神经网络由两个堆叠层building block组成,其结构如下:H(x)=F(x,{W
i
})+x
ꢀꢀꢀꢀꢀ
(3)式中:x与H(x)是building block的输入输出向量;F(x,{W
i
})表示学习的残差映射;其中:F(x)=W2δ(W1x)
ꢀꢀꢀꢀ
(4)式中:δ表示激活函数,W1表示第一个连接权值,W2表示第二个连接权值;若维度x与F不匹配,可以使用线性映射W_s来进行维度匹配:H(x)=F(x,{W
i
})+W
δ
x
ꢀꢀꢀꢀ
(5)通过具有快捷连接的前向神经网络来实现公式F(x)+x,快捷连接的由一个恒等映射来实现,输出将会被添加到堆叠层的最终输出中。4.根据权利要求1所述的一种基于多模态融合的安卓赌博应用识别方法,其特征在于,所述文本模型具体为LSTM,LSTM的基本结构是一个保留序列状态的记忆单元,在每一步中,LSTM单元获取一个输入词向量x
t
,更新记忆单元c
t
,然后输出一个隐藏状态h
t
;更新过程中使用了门机制;一个遗忘门f
t
控制从上一个状态的c
t
‑1中保留多少信息;一个输入门i
t
控制当前输入x
t
更新多少信息到记忆单元;输出门控制多少信息进入输出即隐藏状态,详细的更新过程如下:i
t
=σ(W
xi
x
t
+W
hi
h
t
‑1+b
i
)
ꢀꢀꢀꢀꢀ...

【专利技术属性】
技术研发人员:纪天啸胡燕林李致闵宗茹沈传年杨一陈曲徐彦婷张超超王心丹
申请(专利权)人:国家计算机网络与信息安全管理中心上海分中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1