基于知识图谱的高危App检测识别方法技术

技术编号:39166036 阅读:10 留言:0更新日期:2023-10-23 15:04
本发明专利技术属于应用程序技术领域,具体为一种基于知识图谱的高危App检测识别方法。本发明专利技术提供了基于知识图谱的高危App检测识别方法,包括数据采集:根据预设采集规则,面向境内主流的移动应用市场进行全网信息采集;采用代理自动切换和多线程并发策略,结合深度优先遍历、广度优先遍历、种子池搜索、ID索引等技术进行全量数据获取。无需人工干涉,系统自动捕获最新的应用版本,既能确保追踪应用信息的更新,又能确保捕获应用信息的新增,同时还不影响兼顾采集效率;通过借助构建的App知识图谱关联关系及纯文本语义关系,综合处理获取信息,实现对App多维度的风险检测评估,本发明专利技术以整体关联分析的方法处理,速度快且灵活性高。速度快且灵活性高。速度快且灵活性高。

【技术实现步骤摘要】
基于知识图谱的高危App检测识别方法


[0001]本专利技术属于应用程序
,具体为一种基于知识图谱的高危App检测识别方法。

技术介绍

[0002]随着移动网络和智能移动终端的发展与普及,移动应用(简称“App”)已全面渗透大众生活,在满足民众美好数字生活需求、带动经济发展与传统产业数字化转型等方面发挥了重要且不可替代的作用。伴随着App的繁荣发展,各种支付安全、隐私泄漏等问题开始凸显。因此,对具有危险性的App进行相关检测发现识别显得十分重要。
[0003]现有的高危App检测主要是通过人工标注的方法进行检测发现,检测效率低且发现的高危App数量比较少,同时伴随着App更新速度快,重复App的检测将无疑增加检测的负担。

技术实现思路

[0004]本专利技术要解决的技术问题是:克服现有技术中人工标注的方法进行检测发现,检测效率低且发现的高危App数量比较少等问题,提供一种基于知识图谱的高危App检测识别方法。
[0005]本专利技术解决上述技术问题的技术方案如下:本专利技术提供一种基于知识图谱的高危APP检测识别方法,包括:
[0006]S1:数据采集:根据预设采集规则,面向境内主流的移动应用市场进行全网信息采集;
[0007]S2:数据预处理:剔除S1采集到的数据中错误及无关的信息,经过数据预处理,得到三类信息:长文本信息、基本属性信息、推荐信息;
[0008]S3:自身属性中的实体与关系抽取:
[0009]长文本信息,通过Bert预训练语言模型生成文本向量,并根据长文本向量以欧氏距离公示计算对应的不同APP之间的关联度;
[0010]基本属性信息,直接作为每个APP实体的原始属性保存;
[0011]推荐信息,用于APP之间连接的关系;
[0012]S4:分类属性抽取:采用了树对齐算法和文本密度算法进行信息抽取,并相互补充;
[0013]S5:内容标签的抽取:首先构建内容标签库,形成APP内容标签,再将APP内容标签进行分类;
[0014]S6:知识图谱构建:包括知识建模、知识图谱获取、知识融合、知识优化及知识学习与动态更新;
[0015]S7:图谱表示学习:通过DeepWalk算法从知识图谱中根据预先设置的长度提取一些顶点序列;获取足够数量的节点访问序列后,使用Skip

gram模型进行向量学习,再通过
局部信息来学习节点的潜在表示,将图谱数据转化为类似自然语言的序列,将节点序列作为语句;最后利用自然语言处理工具word2vec将每一个节点表示为向量,即得到节点的词向量表示,进而获得每个APP图谱特征的向量表示,包括头尾向量,目标语义向量;
[0016]S8:高危分析:经过上述7个步骤处理后,将APP向量数据导入基于Attention机制的神经网络模型训练,模型任务定义为二分类模式,学习判别当前APP是否为高危APP。
[0017]进一步的,所述长文本信息包括简介、隐私协议等信息,简介信息通过Scrapy爬虫获取,隐私协议通过数据抓包计算得到;所述基本属性信息包括评分、同类别排名、版本、开发者等基本属性信息;所述推荐信息包括你可能也会喜欢APP、热门APP推荐等信息。
[0018]进一步的,所述树对齐算法提出利用网页DOM树特性识别并分割数据记录,在将数据记录进行对齐时采用部分对齐的方式;所述文本密度算法基于主题类网页中有效信息文字密度与其他区域文字密度具有明显区别这一特性,抽取主题类页面信息。
[0019]进一步的,所述内容标签库包括利用wTF

ICF术语发现算法提取的术语、前期的项目积累术语、客户提供的术语以及从网络检索的相关术语共同构建内容标签语库,其次将其通过与APP简介进行正则过滤,形成APP内容标签;所述APP内容标签分类,以多款高危类App及客户提供的敏感内容为研究样本进行梳理分析,构建App内容标签与本体系内容标签的对应关系,构建涵盖涉及敏感信息类的标签体系;最后将得到的内容标签与在长文本信息中进行匹配,在匹配成功后保存到每个App所包含的内容标签集合中。
[0020]进一步的,所述知识建模:知识图谱的数据来源来自结构化数据和非结构化数据;
[0021]所述知识图谱获取:包括基础图谱数据及领域知识库,所述领域知识库由移动应用领域专家或个人根据领域知识特点构建移动应用领域知识库,并不断完善;
[0022]所述知识融合:将资源库数据与基础领域知识库进行关联融合,通过自然语言技术,从资源库的数据中提取关键信息,通过实体链接、实体消歧等知识融合技术与领域知识库融合,形成相互关联的知识库;
[0023]所述知识优化:移动应用领域专家或个人对数据冲突进行人工处理,人工修订的结果积累下来,形成专家知识库,作为优化的依据;
[0024]所述知识学习与动态更新:知识库中的知识,包括实体信息、实体属性、实体关系将沉淀下来,作为NLP模型训练的依据,资源库和知识库的增量将会定期出发知识网络的动态更新。
[0025]进一步的,高危分析具体实现步骤如下:
[0026]词向量:通过输出的词向量,表示为W
id

[0027]增强位置向量:词处于语句中的位置向量,表示为W
ip
;即当前词距离两个关系实体分别的词序距离;
[0028]增强语义向量:预先定义滑动窗口的宽度,以目标词为中心,截取目标词左右各n个长度的上下文词作为上下文信息,将词向量与增强位置向量和滑动窗口宽度拼接起来构成增强语义向量;
[0029](1)向量表示,采用词向量、增强位置向量和增强语义向量相结合的方法转化为低维向量;
[0030]首先,输入数据是词向量、增强位置向量,将两个向量经过拼接,得到原始向量W
iM

[0031]W
iM
=[(W
id
)
T
,(W
i,1p
)
T
,(W
i,2p
)
T
]T

[0032]其次,使用预先定义好的滑动窗口宽度k、原始向量W
iM
带入公式获取增强语义向量Z
i

[0033]Z
i
=[(W
i

(k

1)/2M
)
T
,...,(W
Mi+(k

1)/2
)
T
]T

[0034](2)卷积,将向量得到的结果传给卷积层;将词向量序列W
i
与实体向量e
j
用向量内积的方式进行相关性计算,得到的结果A
i,ij
表示为当前词W
i
与实体向量e
j
的相关性,即为attention值;若有多个实体,则本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的高危APP检测识别方法,其特征在于,包括:S1:数据采集:根据预设采集规则,面向境内主流的移动应用市场进行全网信息采集;S2:数据预处理:剔除S1采集到的数据中错误及无关的信息,经过数据预处理,得到三类信息:长文本信息、基本属性信息、推荐信息;S3:自身属性中的实体与关系抽取:长文本信息,通过Bert预训练语言模型生成文本向量,并根据长文本向量以欧氏距离公示计算对应的不同APP之间的关联度;基本属性信息,直接作为每个APP实体的原始属性保存;推荐信息,用于APP之间连接的关系;S4:分类属性抽取:采用了树对齐算法和文本密度算法进行信息抽取,并相互补充;S5:内容标签的抽取:首先构建内容标签库,形成APP内容标签,再将APP内容标签进行分类;S6:知识图谱构建:包括知识建模、知识图谱获取、知识融合、知识优化及知识学习与动态更新;S7:图谱表示学习:通过DeepWalk算法从知识图谱中根据预先设置的长度提取一些顶点序列;获取足够数量的节点访问序列后,使用Skip

gram模型进行向量学习,再通过局部信息来学习节点的潜在表示,将图谱数据转化为类似自然语言的序列,将节点序列作为语句;最后利用自然语言处理工具word2vec将每一个节点表示为向量,即得到节点的词向量表示,进而获得每个APP图谱特征的向量表示,包括头尾向量,目标语义向量;S8:高危分析:经过上述7个步骤处理后,将APP向量数据导入基于Attention机制的神经网络模型训练,模型任务定义为二分类模式,学习判别当前APP是否为高危APP。2.根据权利要求1所述的基于知识图谱的高危APP检测识别方法,其特征在于:所述长文本信息包括简介、隐私协议等信息,简介信息通过Scrapy爬虫获取,隐私协议通过数据抓包计算得到;所述基本属性信息包括评分、同类别排名、版本、开发者等基本属性信息;所述推荐信息包括你可能也会喜欢APP、热门APP推荐等信息。3.根据权利要求1所述的基于知识图谱的高危APP检测识别方法,其特征在于:所述树对齐算法提出利用网页DOM树特性识别并分割数据记录,在将数据记录进行对齐时采用部分对齐的方式;所述文本密度算法基于主题类网页中有效信息文字密度与其他区域文字密度具有明显区别这一特性,抽取主题类页面信息。4.根据权利要求1所述的基于知识图谱的高危APP检测识别方法,其特征在于:所述内容标签库包括利用wTF

ICF术语发现算法提取的术语、前期的项目积累术语、客户提供的术语以及从网络检索的相关术语共同构建内容标签语库,其次将其通过与APP简介进行正则过滤,形成APP内容标签;所述APP内容标签分类,以多款高危类App及客户提供的敏感内容为研究样本进行梳理分析,构建App内容标签与本体系内容标签的对应关系,构建涵盖涉及敏感信息类的标签体系;最后将得到的内容标签与在长文本信息中进行匹配,在匹配成功后保存到每个App所包含的内容标签集合中。5.根据权利要求1所述的基于知识图谱的高危APP检测识别方法,其特征在于:所述知识建模:知识图谱的数据来源来自结构化数据和非结构化数据;所述知识图谱获取:包括基础图谱数据及领域知识库,所述领域知识库由移动应用领
域专家或个人根据领域知识特点构建移动应用领域知识库,并不断完善;所述知识融合:将资源库数据与基础领域知识库进行关联融合,通过自然语言技术,从资源库的数据中提取关键信息,通过实体链接、实体消歧等知识融合技术与领域知识库融合,形成相互关联的知识库;所述知识优化:移动应用领域专家或个人对数据冲突进行人工处理,人工修订的结果积累下来,形成专家知识库,作为优化的依据;所述知识学习与动态更新:知识库中的知识,包括实体信息、实体属性、实体关系将沉淀下来,作为NLP模型训练的依据,资源库和知识库的增量将会定期出发知识网络的动态更新。6.根据权利要求1所述的基于知识图谱的高危APP检测识别方法,其特征在于:高危分析具体实现步骤如下:词向量:通过输出的词向量,表示为W
id
;增强位置向量:词处于语句中的位置向量,表示为W
ip
;即当前词距离两个关系实体分别的词序距离;增强语义向量:预先定义滑动窗口的宽度,以目标词为中心,截取目标词左右各n个...

【专利技术属性】
技术研发人员:刘晓辉赵淳璐张琳王海洋殷伟姚晓初杰周启荣董一凡
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1