当前位置: 首页 > 专利查询>福州大学专利>正文

结合语义类节点与边权重的关键词搜索KSANEW算法制造技术

技术编号:21034192 阅读:44 留言:0更新日期:2019-05-04 05:24
本发明专利技术涉及一种结合语义类节点与边权重的关键词搜索KSANEW算法。包括:数据存储阶段,该阶段随着知识碎片的到来,动态地更新知识库中语义类、实体和属性等数据;关键词查询阶段,该阶段考虑到知识图谱的模式层相较于数据层数据量小,提出查询种子模型,该模型将查询关键词映射到模式层上,接着通过两类扩展方式,分别是基于节点的大权值方向扩展方式和基于边的大权值方向扩展方式生成候选种子模型,然后通过评分函数对候选种子集合进行评分排序,最后以高评分的候选种子作为查询种子,将查询种子作为指引,在数据层上进行分布式搜索,得到查询结果。

【技术实现步骤摘要】
结合语义类节点与边权重的关键词搜索KSANEW算法
本专利技术属于知识图谱下的海量数据存储与检索
,具体涉及一种结合语义类节点与边权重的关键词搜索KSANEW算法。
技术介绍
目前,关键词权值的计算方式主要分为两类:基于关键词自身的特征计算方式和基于文本结构特征的计算方式。基于关键词自身的特征的计算方式主要包括:TF-IDF方法、CHI方法、IG方法和基于语义的方法等。TF-IDF权值计算方式最大的不足是将关键词作为独立的个体,忽略了关键词之间相互组合而产生的额外权值;基于语义的计算方式虽然从关键词本质特性出发进行权值计算,然而依赖于语义词典的准确性,语义词典的缺血性将制约这一方式计算的准确性。基于文本结构特征的计算方式从文本的结构特征出发对关键词权值进行定义,这种方式对于结构较为规整的文本较为有效,对于结构混乱的文本则相对效果不佳。由于知识碎片的到来将使得知识库动态变化,知识库的时效特性也将变得考量的重点之一,然而现存的关键词权值计算方法没有充分考虑时效特性,因此本专利技术基于知识图谱的背景下,提出了结合语义类节点与边权重的关键词搜索算法,该算法将时效特性与语义类节点及边的权重计算公式相结合,并且在知识图谱模式层上构建具有时效特点的查询种子模型,然后以查询种子为指引在数据层上进行分布式关键词检索,得到查询结果。
技术实现思路
本专利技术的目的在于提供一种结合语义类节点与边权重的关键词搜索KSANEW算法,该算法能够利用知识图谱的时效特性,计算得到结合时效特性的语义类节点与边的权值,且使得检索效率大大提高。为实现上述目的,本专利技术的技术方案是:一种结合语义类节点与边权重的关键词搜索KSANEW算法,包括两个阶段:数据存储阶段:随着知识碎片存储入知识图谱数据库中,动态地更新知识图谱数据库中包括语义类、实体和属性数据;关键词查询阶段:首先,考虑到知识图谱的模式层相较于数据层数据量小,提出查询种子模型,该种子模型将查询关键词映射到模式层上,接着,通过基于节点的大权值方向扩展方式和基于边的大权值方向扩展方式生成候选种子模型,然后,通过评分函数对候选种子模型集合进行评分排序,最后以高评分的候选种子模型作为查询种子模型,将查询种子模型作为指引,在数据层上进行分布式搜索,得到查询结果。在本专利技术一实施例中,所述基于节点的大权值方向扩展方式采用的为结合时间特性的语义类节点权重计算算法,具体如下:节点链接关系的集合,即节点出入度边的集合Lr(u),其计算公式如下:Lr(u)={p|p∈subObj(u)∧currenttime-p.timestamp<δ}(1)式(1)中,subObj(u)表示u为模式三元组的主语或者宾语时的属性的集合;currenttime表示当前查询的时间;p.timestamp表示属性p的时间戳;δ表示时间范围阈值,Lr(u)所计算的结果其实是节点u所关联的活跃的链接关系的集合,|Lr(u)|则表示节点u链接关系的数量;节点综合权重Nw(u),其计算方法如下式所示:Nw(u)=α·(|Lr(u)|+log(Ec(u)))+β·log(u.timestamp)(2)式(2)中,Ec(u)表示语义类节点u所对应的实体节点的数量;u.timestamp表示语义类节点的时间戳。在本专利技术一实施例中,所述基于边的大权值方向扩展方式采用的为结合时间特性的属性边权重计算算法,具体如下:关联顶点的权重之和Rn(p),其计算公式如下:其中,currenttime-ui.timestamp<δ式(3)中,n的取值为当前属性边p对应的类对集合所包含的不同的语义类顶点的数目;δ表示时间范围阈值,Rn(p)表示的是属性边p所连接的所有活跃顶点的权重之和,而currenttime-ui.timestamp<δ表示的是顶点ui为活跃顶点;属性边综合权重Pw(p),其计算方法如下:Pw(p)=α·(Rn(p)+log(Pc(p)))+β·log(p.timestamp)(4)式(4)中,Pc(p)表示属性边p所对应的数据层上的数量;p.timestamp表示属性的时间戳。在本专利技术一实施例中,α和β的取值范围为[0,1],且α<β。在本专利技术一实施例中,所述评分函数的计算公式如下:其中,式(5)中,Length(G)表示的是任意两个类之间的距离之和,距离越小,其值越小,则知识图谱数据G的内容联系越紧密;weight(Gnode)表示的是图G中所有节点的权重之和;weight(Gedge)表示的是知识图谱数据G中所有边的权重之和;因此,SE(G)计算的结果越大,则表明候选种子图成为查询种子的可能性越高。相较于现有技术,本专利技术具有以下有益效果:1、现有的关键词检索方案在进行关键词权值计算时,无法有效适应动态知识库,并且没有考虑到知识图谱的时效特性,而本专利技术提出的算法能够利用知识图谱的时效特性,计算得到结合时效特性的语义类节点与边的权值;2、现有的关键词检索方案主要通过在实体数据层直接构建结果子图集,效率相对较慢,而本专利技术提出的算法通过在模式层上构建查询种子模型,再利用查询种子为指引在实体数据层上检索得到Top-k个结果,该方法使得检索效率大大提高。附图说明图1为本专利技术KSANEW算法框架图。图2为本专利技术查询种子模型生成的流程图。图3为基于节点的一次扩展图。图4为基于节点扩展生成的关联类图。图5为基于属性的一次扩展图。图6为基于属性扩展生成的关联类图。图7为候选种子集合图。具体实施方式下面结合附图,对本专利技术的技术方案进行具体说明。本专利技术提供了一种结合语义类节点与边权重的关键词搜索KSANEW算法,包括两个阶段:数据存储阶段:随着知识碎片存储入知识图谱数据库中,动态地更新知识图谱数据库中包括语义类、实体和属性数据;关键词查询阶段:首先,考虑到知识图谱的模式层相较于数据层数据量小,提出查询种子模型,该种子模型将查询关键词映射到模式层上,接着,通过基于节点的大权值方向扩展方式和基于边的大权值方向扩展方式生成候选种子模型,然后,通过评分函数对候选种子模型集合进行评分排序,最后以高评分的候选种子模型作为查询种子模型,将查询种子模型作为指引,在数据层上进行分布式搜索,得到查询结果。所述基于节点的大权值方向扩展方式采用的为结合时间特性的语义类节点权重计算算法,具体如下:节点链接关系的集合,即节点出入度边的集合Lr(u),其计算公式如下:Lr(u)={p|p∈subObj(u)∧currenttime-p.timestamp<δ}(1)式(1)中,subObj(u)表示u为模式三元组的主语或者宾语时的属性的集合;currenttime表示当前查询的时间;p.timestamp表示的是属性p的时间戳;δ表示时间范围阈值,Lr(u)所计算的结果其实是节点u所关联的活跃的链接关系的集合,|Lr(u)|则表示节点u链接关系的数量;节点综合权重Nw(u),其计算方法如下式所示:Nw(u)=α·(|Lr(u)|+log(Ec(u)))+β·log(u.timestamp)(2)式(2)中,Ec(u)表示语义类节点u所对应的实体节点的数量;u.timestamp表示语义类节点的时间戳。所述基于边的大权值方向扩展方式采用的为结合时间特性的属性边权重计算算法,本文档来自技高网...

【技术保护点】
1.一种结合语义类节点与边权重的关键词搜索KSANEW算法,其特征在于,包括两个阶段:数据存储阶段:随着知识碎片存储入知识图谱数据库中,动态地更新知识图谱数据库中包括语义类、实体和属性数据;关键词查询阶段:首先,考虑到知识图谱的模式层相较于数据层数据量小,提出查询种子模型,该种子模型将查询关键词映射到模式层上,接着,通过基于节点的大权值方向扩展方式和基于边的大权值方向扩展方式生成候选种子模型,然后,通过评分函数对候选种子模型集合进行评分排序,最后以高评分的候选种子模型作为查询种子模型,将查询种子模型作为指引,在数据层上进行分布式搜索,得到查询结果。

【技术特征摘要】
1.一种结合语义类节点与边权重的关键词搜索KSANEW算法,其特征在于,包括两个阶段:数据存储阶段:随着知识碎片存储入知识图谱数据库中,动态地更新知识图谱数据库中包括语义类、实体和属性数据;关键词查询阶段:首先,考虑到知识图谱的模式层相较于数据层数据量小,提出查询种子模型,该种子模型将查询关键词映射到模式层上,接着,通过基于节点的大权值方向扩展方式和基于边的大权值方向扩展方式生成候选种子模型,然后,通过评分函数对候选种子模型集合进行评分排序,最后以高评分的候选种子模型作为查询种子模型,将查询种子模型作为指引,在数据层上进行分布式搜索,得到查询结果。2.根据权利要求1所述的结合语义类节点与边权重的关键词搜索KSANEW算法,其特征在于,所述基于节点的大权值方向扩展方式采用的为结合时间特性的语义类节点权重计算算法,具体如下:节点链接关系的集合,即节点出入度边的集合Lr(u),其计算公式如下:Lr(u)={p|p∈subObj(u)∧currenttime-p.timestamp<δ}(1)式(1)中,subObj(u)表示u为模式三元组的主语或者宾语时的属性的集合;currenttime表示当前查询的时间;p.timestamp表示属性的时间戳;δ表示时间范围阈值,Lr(u)所计算的结果其实是节点u所关联的活跃的链接关系的集合,|Lr(u)|则表示节点u链接关系的数量;节点综合权重Nw(u),其计算方法如下式所示:Nw(u)=α·(|Lr(u)|+log(Ec(u)))+β·log(u.timestamp)(2)式(2)中,Ec(u)表示语义类节点u所对应的实体节点...

【专利技术属性】
技术研发人员:汪璟玢管健
申请(专利权)人:福州大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1