当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于Skyline的知识图谱语义地点检索方法及装置制造方法及图纸

技术编号:35355131 阅读:38 留言:0更新日期:2022-10-26 12:30
本发明专利技术公开了一种基于Skyline的知识图谱语义地点检索方法及装置,用户输入用户所在位置,查询关键词,所需返回地点数量k;提取RDF图中地点实体所包含的坐标信息,构建R

【技术实现步骤摘要】
一种基于Skyline的知识图谱语义地点检索方法及装置


[0001]本专利技术属于知识图谱空间数据检索领域,具体涉及一种基于Skyline(天际线)的知识图谱语义地点检索方法及装置。

技术介绍

[0002]信息检索是人们获取信息的重要方法和手段,相关研究显示,用户在搜索引擎中检索的信息超过28%与地理位置相关,如景点、饭店和城市地址等。传统基于文本关键词的检索方式已经无法满足用户的语义需求,因此基于知识图谱的信息检索应运而生。RDF(Resource Description Framework,资源描述框架)是知识图谱中广泛使用的描述实体之间和实体间关系的数据模型,随着其数据规模的不断增长,其中一些节点引入了空间坐标信息,即RDF数据中包含地理实体,这为语义地点检索提供了新方法。
[0003]目前RDF数据检索的主流方法分为以下两种:(1)结构化语言(如SPARQL)查询;(2)关键词检索。结构化语言查询方法限制了普通用户访问RDF数据,更适用于领域专家,而关键词检索技术增加了普通用户的适用性。传统kSP(Top

k Relevant Semantic Place Retrieval,Top

k相关语义地点检索)方法可以返回以地点实体为根节点的子树,该子树覆盖所有检索关键词,并通过排名函数选出Top

k个结果。但仍存在以下问题:
[0004](1)kSP检索过程中需要做到每一个关键词的精确匹配,然而,查询关键词与RDF数据关键词集之间往往存在着大量含义接近却表述不同的单词。这导致了kSP查询会错过大量潜在的结果,并最终导致返回结果有限的问题;
[0005](2)kSP所使用的Top

k排序函数将多目标问题转化为单目标优化,对影响因素不敏感,易受权值参数的影响,容易产生极值,导致查询结果不能满足用户需求。

技术实现思路

[0006]专利技术目的:为了克服上述现有技术的不足,提供一种基于Skyline的地点检索方法及装置,能够平衡空间距离和语义相关度,并且检索效率高。
[0007]技术方案:本专利技术提供一种基于Skyline的知识图谱语义地点检索方法,包括以下步骤:
[0008](1)用户输入查询:用户所在位置,查询关键词,所需返回地点数量k;
[0009](2)提取RDF图中地点实体所包含的坐标信息,构建R

tree索引及地点关键词集,生成词向量集;
[0010](3)根据提出的基于Skyline的语义地点检索算法返回Top

k个地点。
[0011]进一步地,步骤(2)所述构建地点关键词集实现过程如下:
[0012]从RDF图节点URI中提取节点名称,与节点标签值一起使用“_”符号进行分词;通过去重处理,生成一般关键词集;将地点实体及其子结点的一般关键词集进行拼接去重;形成地点关键词集。
[0013]进一步地,步骤(2)所述生成词向量集实现过程如下:
[0014]输入地点关键词集与用户查询关键词集;使用Word2vec模型实现对关键词的词向量转换工作;输出词向量集。
[0015]进一步地,所述步骤(3)包括以下步骤:
[0016](31)基于用户位置检索R

tree,由近及远返回一系列地点;
[0017](32)计算每个地点与用户所在位置的空间距离;
[0018](33)计算每个地点与查询关键词的语义相关度;
[0019](34)重复步骤(32)和(33),直到遍历完所有地点;
[0020](35)基于Skyline的语义地点检索算筛选出Top

k个地点。
[0021]进一步地,所述步骤(33)包括如下步骤:
[0022](331)计算查询关键词集q.ψ与地点关键词集np.ψ之间的语义相似度:对于每个查询关键词t
i
,计算t
i
与地点关键词集中的每个关键词k
j
之间的词义相似度S(t
i
,k
j
),并选取最大值;计算最大词义相似度的平均值,作为查询关键词集q.ψ与地点关键词集np.ψ之间的语义相似度S(np);
[0023](332)将词义相似度最大的关键词距离根节点的最短距离进行累加,得到语义地点的松散度L(np);
[0024](333)根据语义相关度计算公式,计算该地点与用户查询的语义相关度:
[0025][0026]其中,α为权重参数。
[0027]进一步地,所述步骤(35)包括如下步骤:
[0028](351)计算各地点的度值,根据度值对数据进行排序,得到候选集,度值计算公式如下:
[0029][0030]其中:
[0031][0032][0033]其中,λ
i,j
表示p
i
在d维数据集中第j维度的度值,p
i
[j]表示p
i
的第j维度的数值,μ
j
代表第j维度的均值;
[0034](352)对候选集中的地点运用BNL算法进行Skyline筛选;
[0035](353)根据度值排序选出Top

k个地点。
[0036]基于相同的专利技术构思,本专利技术还提供一种基于Skyline的知识图谱语义地点检索装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现根据上述的基于Skyline的知识图谱语义地点检索方法。
[0037]有益效果:与现有技术相比,本专利技术的有益效果:
[0038]1、本专利技术针对kSP检索过程中需要做到每一个关键词的精确匹配,没有考虑到实际检索场景中,查询关键词与RDF数据关键词集之间往往存在着大量含义接近却表述不同的单词,导致出现一些符合用户意图的结果遗漏返回的问题,用模糊匹配代替了精确匹配,为用户提供了更多的选择;
[0039]2、本专利技术针对kSP检索中的Top

k排序函数将多目标问题转化为单目标优化,对影响因素不敏感,易受权值参数的影响,容易产生极值,导致查询结果不能满足用户需求的问题,提出基于Skyline的地点检索方法,采用多目标优化算法解决原始的多目标问题,最终返回前k个平行的、互不受控制的解,在提高地点检索的效率的同时,平衡了空间距离和语义相关度这两个影响因素。
附图说明
[0040]图1为本专利技术的流程图;
[0041]图2为RDF图及地点关键词集示例图。
具体实施方式
[0042]下面结合附图对本专利技术作进一步详细说明。
[0043]本专利技术提出一种基于Skyline的知识图谱语义地点检索方法,如图1所示,具体包括以下步骤:
[0044]步骤1:用户输入查询:用户所在位置,查询关键词,所需本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Skyline的知识图谱语义地点检索方法,其特征在于,包括以下步骤:(1)用户输入查询:用户所在位置,查询关键词,所需返回地点数量k;(2)提取RDF图中地点实体所包含的坐标信息,构建R

tree索引及地点关键词集,生成词向量集;(3)根据提出的基于Skyline的语义地点检索算法返回Top

k个地点。2.根据权利要求1所述的一种基于Skyline的知识图谱语义地点检索方法,其特征在于,步骤(2)所述构建地点关键词集实现过程如下:从RDF图节点URI中提取节点名称,与节点标签值一起使用
“”
符号进行分词;通过去重处理,生成一般关键词集;将地点实体及其子结点的一般关键词集进行拼接去重;形成地点关键词集。3.根据权利要求1所述的一种基于Skyline的知识图谱语义地点检索方法,其特征在于,步骤(2)所述生成词向量集实现过程如下:输入地点关键词集与用户查询关键词集;使用Word2vec模型实现对关键词的词向量转换工作;输出词向量集。4.根据权利要求1所述的一种基于Skyline的知识图谱语义地点检索方法,其特征在于,所述步骤(3)包括以下步骤:(31)基于用户位置检索R

tree,由近及远返回一系列地点;(32)计算每个地点与用户所在位置的空间距离;(33)计算每个地点与查询关键词的语义相关度;(34)重复步骤(32)和(33),直到遍历完所有地点;(35)基于Skyline的语义地点检索算筛选出Top

k个地点。5.根据权利要求4所述的一种基于Skyline的知识图谱语义地点检索方法,其特征在于,所述步骤(33)包括如下步骤:(3...

【专利技术属性】
技术研发人员:陆佳民周振钰刘嘉灏冯钧
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1