【技术实现步骤摘要】
基于图文多模态信息融合的互联网不良应用分类识别方法
[0001]本专利技术涉及不良应用识别
,尤其涉及一种基于图文多模态信息融合的互联网不良应用分类识别方法。
技术介绍
[0002]在信息通信技术快速发展的时代背景下,传统犯罪手段逐渐向网络犯罪转移,新型网络犯罪的手法层出不穷。躲在暗处的犯罪分子利用通信和网络技术,能够对不特定多数人群实施远程、非接触式诈骗,严重侵犯人民群众财产权利和人身权利,严重威胁我国社会安全。
[0003]随着移动互联网技术的发展,犯罪分子作案手段不断升级。传统通过电信电话的犯罪手段由于效率低下、公民防范意识提升以及有关部分技术反制手段的覆盖,已经逐渐被抛弃。而通过网络应用进行犯罪的手段正在迅猛发展。新型网络犯罪具有制作成本低、更新速度快、接受门槛低、隐蔽性高等特点。
[0004]目前针对网络应用的识别技术,主要是依靠关键字匹配的方式,特征维度较少,且没有考虑案件的实际情况,无法有效识别不良应用。
技术实现思路
[0005]本专利技术实施例提供一种基于图文多模态信息融合的互联网不良应用分类识别方法,用以解决现有技术中针对不良应用的识别效果不佳的问题。
[0006]根据本专利技术实施例的基于图文多模态信息融合的互联网不良应用分类识别方法,包括:
[0007]收集网站应用,并对所述网络应用进行类别标注;
[0008]提取所述网站应用的应用名称,并基于所述应用名称构建第一向量;
[0009]对所述网络应用进行沙盒运行,以获取所述网络 ...
【技术保护点】
【技术特征摘要】
1.一种基于图文多模态信息融合的互联网不良应用分类识别方法,其特征在于,包括:收集网站应用,并对所述网络应用进行类别标注;提取所述网站应用的应用名称,并基于所述应用名称构建第一向量;对所述网络应用进行沙盒运行,以获取所述网络应用的访问信息以及运行界面截图;基于所述访问信息构建第二向量;从所述运行界面截图中提取有效文本字符,并基于所述有效文本字符构建第三向量;融合所述第一向量、所述第二向量、所述第三向量,以获得融合向量;将所述融合向量作为输入,训练互联网不良应用分类识别模型,所述互联网不良应用分类识别模型包括全连接层、Softmax层、损失函数;基于训练完成的互联网不良应用分类识别模型对待识别的网站应用进行分类识别。2.如权利要求1所述的方法,其特征在于,所述基于所述应用名称构建第一向量,包括:基于所述应用名称构建编码字符,所述编码字符为所述应用名称的前N个字符,当所述应用名称所包含的字符数小于N进行补齐操作;采用预训练的bert
‑
base
‑
chinese模型将所述编码字符中的每个字符转换为第一预设长度的第一子向量,以获得所述编码字符对应的矩阵编码;采用双向LSTM网络对所述编码字符对应的编码进行处理,以获得所述第一预设长度的第一向量。3.如权利要求1所述的方法,其特征在于,所述对所述网络应用进行沙盒运行,以获取所述网络应用的访问信息以及运行界面截图,包括:将所述网络应用的APK文件安装到沙箱软件中,借助工具ium、minitouch、minicap,通过对所述网络应用界面元素的遍历、操作,模拟用户对设备的操作;在模拟过程中,借助工具tshark获取网络流量数据,并截取每次操作触发的运行应用界面。4.如权利要求3所述的方法,其特征在于,所述基于所述访问信息构建第二向量,包括:基于所述网络流量数据统计得到交互最频繁的多个网络域名;对所述网络域名进行向量化,每个所述网络域名对应一个第二预设长度的第二子向量;对所述第二子向量进行归一化处理,所述归一化处理方式为:用表示第n个第二字向量的第i个元素,计算所有所述第二子向量的第i个元素的平均值为m
i
,标准差为σ
i
,则归一化后的表示为:将所有所述网络域名对应的归一化后的第二子向量进行拼接,以获得第二向量。5.如权利要求3所述的方法,其特征在于,所述从所述运行界面截图中提取有效文本字符,并基于所述有效文本字符构建第三向量,包括:基于颜色特征过滤方法,从所有所述运行应用界面中剔除黑屏图片和白屏图片,以获得有效图片;利用OCR算法从所述有效图片中提取文本字符;从所述文本字符中剔除无效字符,并利用预设不良应用关键词库对错误字符进行纠
正,以获得有效文本字符;对所述有效文本字符进行编码,以获得所有所述运行界面截图对应的矩阵编码;采用GCNN模型对所述所有运行界面截图对应的编码...
【专利技术属性】
技术研发人员:段运强,段东圣,井雅琪,佟玲玲,马宏远,吕东,任博雅,段荣昌,艾政阳,侯炜,时磊,王红兵,罗峰,李东方,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。