结合语义类节点与边权重的关键词搜索KSANEW算法制造技术

技术编号：21034192 阅读：44 留言：0更新日期：2019-05-04 05:24

本发明专利技术涉及一种结合语义类节点与边权重的关键词搜索KSANEW算法。包括：数据存储阶段，该阶段随着知识碎片的到来，动态地更新知识库中语义类、实体和属性等数据；关键词查询阶段，该阶段考虑到知识图谱的模式层相较于数据层数据量小，提出查询种子模型，该模型将查询关键词映射到模式层上，接着通过两类扩展方式，分别是基于节点的大权值方向扩展方式和基于边的大权值方向扩展方式生成候选种子模型，然后通过评分函数对候选种子集合进行评分排序，最后以高评分的候选种子作为查询种子，将查询种子作为指引，在数据层上进行分布式搜索，得到查询结果。

全部详细技术资料下载

【技术实现步骤摘要】
结合语义类节点与边权重的关键词搜索KSANEW算法
本专利技术属于知识图谱下的海量数据存储与检索
，具体涉及一种结合语义类节点与边权重的关键词搜索KSANEW算法。
技术介绍
目前，关键词权值的计算方式主要分为两类：基于关键词自身的特征计算方式和基于文本结构特征的计算方式。基于关键词自身的特征的计算方式主要包括：TF-IDF方法、CHI方法、IG方法和基于语义的方法等。TF-IDF权值计算方式最大的不足是将关键词作为独立的个体，忽略了关键词之间相互组合而产生的额外权值；基于语义的计算方式虽然从关键词本质特性出发进行权值计算，然而依赖于语义词典的准确性，语义词典的缺血性将制约这一方式计算的准确性。基于文本结构特征的计算方式从文本的结构特征出发对关键词权值进行定义，这种方式对于结构较为规整的文本较为有效，对于结构混乱的文本则相对效果不佳。由于知识碎片的到来将使得知识库动态变化，知识库的时效特性也将变得考量的重点之一，然而现存的关键词权值计算方法没有充分考虑时效特性，因此本专利技术基于知识图谱的背景下，提出了结合语义类节点与边权重的关键词搜索算法，该算法将时效特性与语义类节点及边的权重计算公式相结合，并且在知识图谱模式层上构建具有时效特点的查询种子模型，然后以查询种子为指引在数据层上进行分布式关键词检索，得到查询结果。
技术实现思路
本专利技术的目的在于提供一种结合语义类节点与边权重的关键词搜索KSANEW算法，该算法能够利用知识图谱的时效特性，计算得到结合时效特性的语义类节点与边的权值，且使得检索效率大大提高。为实现上述目的，本专利技术的技术方案是：一种结合...

【技术保护点】
1.一种结合语义类节点与边权重的关键词搜索KSANEW算法，其特征在于，包括两个阶段：数据存储阶段：随着知识碎片存储入知识图谱数据库中，动态地更新知识图谱数据库中包括语义类、实体和属性数据；关键词查询阶段：首先，考虑到知识图谱的模式层相较于数据层数据量小，提出查询种子模型，该种子模型将查询关键词映射到模式层上，接着，通过基于节点的大权值方向扩展方式和基于边的大权值方向扩展方式生成候选种子模型，然后，通过评分函数对候选种子模型集合进行评分排序，最后以高评分的候选种子模型作为查询种子模型，将查询种子模型作为指引，在数据层上进行分布式搜索，得到查询结果。

【技术特征摘要】
1.一种结合语义类节点与边权重的关键词搜索KSANEW算法，其特征在于，包括两个阶段：数据存储阶段：随着知识碎片存储入知识图谱数据库中，动态地更新知识图谱数据库中包括语义类、实体和属性数据；关键词查询阶段：首先，考虑到知识图谱的模式层相较于数据层数据量小，提出查询种子模型，该种子模型将查询关键词映射到模式层上，接着，通过基于节点的大权值方向扩展方式和基于边的大权值方向扩展方式生成候选种子模型，然后，通过评分函数对候选种子模型集合进行评分排序，最后以高评分的候选种子模型作为查询种子模型，将查询种子模型作为指引，在数据层上进行分布式搜索，得到查询结果。2.根据权利要求1所述的结合语义类节点与边权重的关键词搜索KSANEW算法，其特征在于，所述基于节点的大权值方向扩展方式采用的为结合时间特性的语义类节点权重计算算法，具体如下：节点链接关系的集合，即节点出入度边的集合Lr(u)，其计算公式如下：Lr(u)＝{p|p∈subObj(u)∧currenttime-p.timestamp＜δ}(1)式(1)中，subObj(u)表示u为模式三元组的主语或者宾语时的属性的集合；currenttime表示当前查询的时间；p.timestamp表示属性的时间戳；δ表示时间范围阈值，Lr(u)所计算的结果其实是节点u所关联的活跃的链接关系的集合，|Lr(u)|则表示节点u链接关系的数量；节点综合权重Nw(u)，其计算方法如下式所示：Nw(u)＝α·(|Lr(u)|+log(Ec(u)))+β·log(u.timestamp)(2)式(2)中，Ec(u)表示语义类节点u所对应的实体节点...

【专利技术属性】
技术研发人员：汪璟玢，管健，
申请(专利权)人：福州大学，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人