知识表示方法、系统、存储介质以及计算机设备技术方案

技术编号:33190653 阅读:11 留言:0更新日期:2022-04-24 00:18
本发明专利技术适用于知识表示技术领域,提供了一种知识表示方法、系统、存储介质以及计算机设备,所述知识表示方法基于现有的知识图谱,包括:获取用户下载的多个软件,获取多个所述软件对应的标签;获取各个所述标签的相似标签;将所述标签以及所述相似标签构成三元组,所述三元组为第一三元组,所述第一三元组形成第一知识图谱;将所述现有的知识图谱与所述第一知识图谱进行融合形成第二知识图谱;所述第二知识图谱中的三元组为第二三元组;基于广度优先搜索算法BFS对所述第二知识图谱进行采样,获得样本三元组;对所有所述样本三元组进行表示学习。借此,本发明专利技术可以丰富知识和提高泛化性能。能。能。

【技术实现步骤摘要】
知识表示方法、系统、存储介质以及计算机设备


[0001]本专利技术涉及知识表示
,尤其涉及一种知识表示方法、系统、存储介质以及计算机设备。

技术介绍

[0002]在计算机视觉、自然语言处理、推荐系统,神经网络、深度学习的应用越来越广泛。在深度学习的应用过程中,Embedding这样一种将离散变量转变为连续向量的方式为神经网络在各方面的应用带来了很大帮助。其中基于知识图谱表示学习已经获得了广泛关注,且已在一些工业场景成功落地。
[0003]在真实工程应用中,存在人工标记知识或者知识缺失的情况。人工标记知识成本较高,且将人力浪费在标注数据上,如果知识欠缺那么会导致知识表达不够充分,学习效果不好的问题。同时,目前的知识图谱表示学习,大多数主要基于直接相连的三元组构建训练数据,泛化性低以及难以学习网络结构表达。
[0004]综上所述,现有技术在实际使用上显然存在不便与缺陷,所以有必要加以改进。

技术实现思路

[0005]针对上述的缺陷,本专利技术的目的在于提供一种知识表示方法、系统、存储介质以及计算机设备,可以丰富知识和提高泛化性能。
[0006]为了实现上述目的,本专利技术提供了一种知识表示方法,基于现有的知识图谱,包括:
[0007]获取用户下载的多个软件,获取多个所述软件对应的标签;
[0008]获取各个所述标签的相似标签;
[0009]将所述标签以及所述相似标签构成三元组,所述三元组为第一三元组,所述第一三元组形成第一知识图谱;
[0010]将所述现有的知识图谱与所述第一知识图谱进行融合形成第二知识图谱;所述第二知识图谱中的三元组为第二三元组;
[0011]基于广度优先搜索算法BFS对所述第二知识图谱进行采样,获得样本三元组;
[0012]对所有所述样本三元组进行表示学习。
[0013]根据所述的知识表示方法,获取用户下载的多个软件,获取多个所述软件对应的标签的步骤包括:
[0014]根据所述用户的软件下载行为获取多个所述软件的ID,构成软件的ID序列;
[0015]分别将多个所述软件的ID映射为所述软件对应的标签的ID,获得所述标签的ID序列。
[0016]根据所述的知识表示方法,获取各个所述标签的相似标签的步骤包括:
[0017]将所述标签的ID序列中的各个所述标签的ID进行向量表示;
[0018]根据两两所述标签的ID的所述向量表示计算两两所述标签的相似度;
[0019]根据两两所述标签的相似度获得各个所述标签的相似标签。
[0020]根据所述的知识表示方法,所述将所述标签的ID序列中的所述标签的ID进行向量表示的步骤包括:
[0021]将所述标签的ID序列输入至word2vec模型进行训练;
[0022]基于训练后的所述word2vec模型获得所述标签的ID的Embedding向量表示。
[0023]根据所述的知识表示方法,两两所述标签的相似度大于预定阈值时,两两所述标签互为相似标签,所述根据两两所述标签的相似度获得各个所述标签的相似标签的步骤包括:
[0024]分别获取各个所述标签的topn相似标签。
[0025]根据所述的知识表示方法,所述基于广度优先搜索算法BFS对所述第二知识图谱进行采样的步骤包括:
[0026]基于所述广度优先搜索算法BFS采样所述第二知识图谱的2-hop的所述第二三元组。
[0027]根据所述的知识表示方法,对所有所述样本三元组进行表示学习的步骤包括:
[0028]基于翻译模型训练所有所述样本三元组,获得所述第二知识图谱的静态Embedding表达。
[0029]为了实现上述目的,本专利技术还提供了一种知识表示系统,基于现有的知识图谱,包括:
[0030]标签获取模块,用于获取用户下载的多个软件,获取多个所述软件对应的标签;
[0031]相似标签获取模块,用于获取各个所述标签的相似标签;
[0032]图谱构建模块,用于将所述标签以及所述相似标签构成三元组,所述三元组为第一三元组,所述第一三元组形成第一知识图谱;
[0033]图谱融合模块,用于将所述现有的知识图谱与所述第一知识图谱进行融合形成第二知识图谱;所述第二知识图谱中的三元组为第二三元组;
[0034]采样模块,用于基于广度优先搜索算法BFS对所述第二知识图谱进行采样,获得样本三元组;
[0035]知识表示模块,用于对所有所述样本三元组进行表示学习。
[0036]为了实现上述目的,本专利技术还提供了一种存储介质,用于存储一种用于执行上述任意一种知识表示方法的计算机程序。
[0037]为了实现上述目的,本专利技术还提供了一种计算机设备,包括存储介质、处理器以及存储在所述存储介质上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的知识表示方法。
[0038]本专利技术通过获取用户下载的多个软件,获取多个所述软件对应的标签;根据用户的历史的下载App的行为可以获取软件序列,从而获取所述软件相对应的标签,解决现有技术中标签之间的关系欠缺的技术问题,获取各个所述标签的相似标签;将所述标签以及所述相似标签构成三元组,所述三元组为第一三元组,所述第一三元组形成第一知识图谱;将所述现有的知识图谱与所述第一知识图谱进行融合形成第二知识图谱;所述第二知识图谱中的三元组为第二三元组;基于广度优先搜索算法BFS对所述第二知识图谱进行采样,获得样本三元组;对所有所述样本三元组进行表示学习。借此,本专利技术可以丰富知识和提高泛化
性能。
附图说明
[0039]图1是本专利技术优选实施例的知识表示系统的示意图;
[0040]图2是本专利技术优选实施例的知识表示系统的示意图;
[0041]图3是本专利技术优选实施例的知识表示方法的流程图;
[0042]图4是本专利技术提供的计算机设备的结构示意图。
具体实施方式
[0043]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0044]需要说明的,本说明书中针对“一个实施例”、“实施例”、“示例实施例”等的引用,指的是描述的该实施例可包括特定的特征、结构或特性,但是不是每个实施例必须包含这些特定特征、结构或特性。此外,这样的表述并非指的是同一个实施例。进一步,在结合实施例描述特定的特征、结构或特性时,不管有没有明确的描述,已经表明将这样的特征、结构或特性结合到其它实施例中是在本领域技术人员的知识范围内的。
[0045]此外,在说明书及后续的权利要求当中使用了某些词汇来指称特定组件或部件,所属领域中具有通常知识者应可理解,制造商可以用不同的名词或术语来称呼同一个组件或部件。本说明书及后续的权利要求并不以名称的差异来作为区分组件或部件的方式,而是以组件或部件在功本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识表示方法,基于现有的知识图谱,其特征在于,包括:获取用户下载的多个软件,获取多个所述软件对应的标签;获取各个所述标签的相似标签;将所述标签以及所述相似标签构成三元组,所述三元组为第一三元组,所述第一三元组形成第一知识图谱;将所述现有的知识图谱与所述第一知识图谱进行融合形成第二知识图谱;所述第二知识图谱中的三元组为第二三元组;基于广度优先搜索算法BFS对所述第二知识图谱进行采样,获得样本三元组;对所有所述样本三元组进行表示学习。2.根据权利要求1所述的知识表示方法,其特征在于,获取用户下载的多个软件,获取多个所述软件对应的标签的步骤包括:根据所述用户的软件下载行为获取多个所述软件的ID,构成软件的ID序列;分别将多个所述软件的ID映射为所述软件对应的标签的ID,获得所述标签的ID序列。3.根据权利要求2所述的知识表示方法,其特征在于,获取各个所述标签的相似标签的步骤包括:将所述标签的ID序列中的各个所述标签的ID进行向量表示;根据两两所述标签的ID的所述向量表示计算两两所述标签的相似度;根据两两所述标签的相似度获得各个所述标签的相似标签。4.根据权利要求3所述的知识表示方法,其特征在于,所述将所述标签的ID序列中的所述标签的ID进行向量表示的步骤包括:将所述标签的ID序列输入至word2vec模型进行训练;基于训练后的所述word2vec模型获得所述标签的ID的Embedding向量表示。5.根据权利要求4所述的知识表示方法,其特征在于,两两所述标签的相似度大于预定阈值时,两两所述标签互为相似标签,所述根据两...

【专利技术属性】
技术研发人员:王斌锋乔建行马征
申请(专利权)人:北京鸿享技术服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1