【技术实现步骤摘要】
基于表示学习的相似移动应用计算方法及装置
本专利技术涉及计算机
,尤其涉及一种基于表示学习的相似移动应用计算方法及装置。
技术介绍
近年来,随着智能手机终端的普及和移动互联网的迅猛发展,移动应用彻底改变了信息传播的生态格局,已代替网站/网页成为网民获取信息或服务的主要方式。同时,移动应用也成为色情、赌博等负面信息传播的温床。当业务用户发现某一个传播负面信息的移动应用时,如何快速获得与该移动应用相关或相似的其他移动应用成为一个重要的需求。基于特征工程的方法事实上是一种离散、稀疏的计算方案,无法发现移动应用中的一些隐性特征之间的关联。
技术实现思路
本专利技术实施例提供一种基于表示学习的相似移动应用计算方法及装置,用以解决现有技术中的上述问题。本专利技术实施例提供一种基于表示学习的相似移动应用计算方法,包括:读取移动应用相关的文档、网页以及图数据库中的三元组,获取与文档、网页以及图数据库中与所述移动应用相关的实体,构建表示学习算法-网络嵌入模型LINE网络;基于LINE负采样技术 ...
【技术保护点】
1.一种基于表示学习的相似移动应用计算方法,其特征在于,包括:/n读取移动应用相关的文档、网页以及图数据库中的三元组,获取与文档、网页以及图数据库中与所述移动应用相关的实体,构建表示学习算法-网络嵌入模型LINE网络;/n基于LINE负采样技术优化Skip-gram模型,通过所述Skip-gram模型训练所述LINE网络,得到每个实体以及移动应用自身的向量表示;/n根据每个实体以及移动应用自身的向量表示,对移动应用进行相似度计算。/n
【技术特征摘要】
1.一种基于表示学习的相似移动应用计算方法,其特征在于,包括:
读取移动应用相关的文档、网页以及图数据库中的三元组,获取与文档、网页以及图数据库中与所述移动应用相关的实体,构建表示学习算法-网络嵌入模型LINE网络;
基于LINE负采样技术优化Skip-gram模型,通过所述Skip-gram模型训练所述LINE网络,得到每个实体以及移动应用自身的向量表示;
根据每个实体以及移动应用自身的向量表示,对移动应用进行相似度计算。
2.如权利要求1所述的方法,其特征在于,读取移动应用相关的文档、网页以及图数据库中的三元组,获取与文档、网页以及图数据库中与所述移动应用相关的实体具体包括:
对于无结构化的文档与半结构化的网页,通过分词工具与实体链接技术确定移动应用在文档或网页中的潜在实体。
3.如权利要求1或2所述的方法,其特征在于,获取与文档、网页以及图数据库中与所述移动应用相关的实体具体包括:
通过zhishi.me进行实体的判定,获取与文档、网页以及图数据库中与所述移动应用相关的实体。
4.如权利要求1所述的方法,其特征在于,根据每个实体以及移动应用自身的向量表示,对移动应用进行相似度计算具体包括:
对于LINE网络中已经存在的移动应用,利用移动应用自身的向量表示计算它与其他移动应用的相似程度;对于LINE网络中未知的移动应用,首先确定该移动应用在LINE网络中所关联的实体,获取该移动应用所依赖的实体向量表示,将与移动应用关联的实体向量进行加权平均来表示未知移动应用的向量表示;
根据移动应用的向量表示,进行移动应用之间的相似度计算,并将排名靠前的N个移动应用作为最终计算结果。
5.一种基于表示学习的相似移动应用计算装置,其特征在于,包括:
构建模块,用于读取移动应用相关的文档、网页以及图数据库中的三元组,获取与文档、网页以及...
【专利技术属性】
技术研发人员:钮艳,赵淳璐,项菲,赵晓航,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。