【技术实现步骤摘要】
一种知识图谱上的迭代式相关搜索方法
[0001]本专利技术属于计算机
,涉及图数据的相关搜索,为一种知识图谱上的迭代式相关搜索方法。
技术背景
[0002]图数据有着很好的表现力,例如资源描述框架RDF(Resource Description Framework)数据,它能够直观地展现实体,即图上的点之间复杂的关系,被应用在越来越多的领域中。特别地,相关搜索作为数据挖掘领域一个经典的研究主题,其希望在图数据中找到与查询实体最为相关的答案实体。对于相关搜索的定义,一般情况下认为相关即指查询实体与答案实体之间满足某些特定的元路径组合。
[0003]图数据是一个有限的有向图,也称为实体关联图,记为G=<E,A,R,l>。其中,E是一个实体集,在图中表示为顶点;A是一个弧集,每条弧a∈A的方向由尾节点t(a)指向头节点h(a),t(a)∈E,h(a)∈E;R是一个关系集;l:A
→
R代表l标记了弧a(a∈A),并且关系l(a)∈R。对于给定的查询实体q与答案实体r,它们之 ...
【技术保护点】
【技术特征摘要】
1.一种知识图谱上的迭代式相关搜索方法,其特征是在知识图谱G中,以用户输入的实体为查询实体,查询实体到候选实体的最大距离为查询半径,对于给定的查询实体q、查询半径约束L和结果列表长度K,得到元路径,对所有元路径赋以初始权重,利用最大带权点覆盖的贪心算法得到覆盖元路径权重尽可能大的多样结果列表E
D
,进行以下步骤:1)若存在用户标记的正例,利用线性分类器得出每条元路径的相关性权重,根据元路径的相关性权重得到每个实体的相关度,并选取相关度最大的K个实体作为相关结果列表E
R
,从多样结果列表E
D
和相关结果列表E
R
中采样组成最终结果列表,返回给用户;2)若不存在用户标记的正例,则将多样结果列表E
D
作为最终结果列表返回给用户;3)对于返回的最终结果列表,确认用户是否继续交互的意图,如用户选择继续交互,则根据用户选择对最终结果列表的实体进行正负例标记,根据标记结果对实体的元路径调整权重,利用贪心算法更新计算多样结果列表E
D
,再进行步骤1)2)的新一轮迭代,如用户选择结束交互,则结束搜索。2.根据权利要求1所述的一种知识图谱上的迭代式相关搜索方法,其特征是得到相关结果列表E
R
后,根据设定的采样比例参数∈确定从多样结果列表E
D
采样的实体个数和从相关结果列表E
R
采样的实体个数轮流从两个结果列表中采样排序最靠前的实体,组成最终结果列表,若某个结果列表采样的实体个数已达要求,则从另一个结果列表持续采样,直至最终结果列表的实体个数达到K,将最终结果列表返回给用户。3.根据权利要求1或2所述的一种知识图谱上的迭代式相关搜索方法,其特征是继续交互时,用户选择的标记方式包括:标记若干正负例、仅标记正例、仅标记负例和不进行正负例标注,对于仅标记正例和不标注的情况,将最终结果列表中按序第一个未标记为正例的实体为负例。4.根据权利要求1或2所述的一种知识图谱上的迭代式相关搜索方法,其特征是多样结果列表E
D
的获取为:(1)初始时根据查询实体q以及给定的查询半径约束L在知识图谱中找出所有的元路径集合MP,并为其中的每一条元路径mp设定初始多样性权重Div
mp
=log(Freq(mp)+1)*ρ(len(mp)),其中Freq为元路径mp在以q为中心,L为半径的子图中的实例出现次数,len(mp)为元路径mp的长度,ρ为与长度相关的基于密度的归一化系数;(2)基于元路径集合MP、每条元路径的权重Div
mp
以及实体与每条元路径的覆盖关系,将问题建模成最大带权点覆盖问题,并利用贪心算法得到对应的多样结果列表E
D
:(2.1)初始化E
D
为空集,已覆盖元路径集合P为空集;(2.2)访问候选实体集中未被E
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。