一种基于知识图谱的数据需求匹配方法组成比例

技术编号:38438723 阅读:13 留言:0更新日期:2023-08-11 14:22
本发明专利技术公开了一种基于知识图谱的数据需求匹配方法,包括以下步骤:定义不同数据集,每个数据集包含若干数据项;将数据项进行比对,判断数据项之间是否相同或相似;若全部相同,则定义该不同数据集之间相似度;建立同义词数据项库,判断是否相似,若全部相似,则定义该不同数据集之间相似度;若不完全相同也不完全相似,则基于知识图谱进行比对,将数据项进行比对,若存在相同或相似,则定义数据项之间的相似度,若不相同也不相似,则计算该数据项的相似度,取最高值;计算数据项的总和相似度,计算数据集的相似度;基于不同数据集之间的相似度判断不同需求之间是否当作同一个需求进行处理;本方法具有省时省力、精度高、效果高的特点。点。点。

【技术实现步骤摘要】
一种基于知识图谱的数据需求匹配方法


[0001]本专利技术涉及公共数据领域,特别涉及一种基于知识图谱的数据需求匹配方法。

技术介绍

[0002]长期以来,政府各部门内拥有着大量城市基础数据资源,各部门数据各成体系。数据供需管理是用于对公共数据在跨部门数据共享过程中的需求提出、责任确认、责任实施、共享使用的全过程进行场景化、精细化、流程化的管理。用于统一数据共享的流程、原则与要求。实现数据需求场景清晰化、数源责任清单化,支持各部门跟踪数据供需对接进展情况,数源确认是否被响应以及响应结果,供需问题统一协调的过程,责任数据实施的进展等详细信息。在供需对接的过程中,会出现不同部门的不同需求可能出现相同或者相似的情况,这样就需要一种机制来判断这些需求的相似度有多少,从而来统一对这些需求进行处理。
[0003]目前现有的处理方式只能从关键字匹配,或者人工分辨处理,花费时间长,还不能找出全部的相似需求,所以耗费人力,产出低,不能解决全局问题。且不能对上下游链路等情况从全面的角度出发,也没有一个很好的衡量指标,存在对需求的匹配不精准、不明确的问题。

技术实现思路

[0004]为实现上述目的,专利技术人提供了一种基于知识图谱的数据需求匹配方法,包括以下步骤:S1,将不同需求所需数据的集合定义为不同数据集,每个数据集包含若干个数据元素,将数据元素定义为数据项;S2,将不同数据集中的数据项之间进行比对,分别判断不同数据集中的数据项之间是否相同或相似;S3,若不同数据集中的数据项之间全部相同,则定义该不同数据集之间相似度为100%;S4,建立同义词数据项库,根据同义词数据项库分别判断不同数据集中的数据项之间是否相似,若不同数据集中的数据项之间全部相似,则定义该不同数据集之间相似度为100%;S5,若不同数据集中的数据项之间不完全相同也不完全相似,则设定数据集中的数据项总数为n个,则每个数据项的占比为1/n;S6,基于知识图谱,分别对S5中的不同数据集中的数据项进行图谱比对,随机选择一个数据集,将该数据集中的数据项与其他数据集中的数据项进行逐一比对,依次轮询,若存在相同或相似,则定义该不同数据集中的该数据项之间的相似度为100%,不再对该数据项进行之后的比对,若不相同也不相似,则基于知识图谱比对,计算该数据项的相似度,取最高值;
S7,计算不同数据集中的数据项的总和相似度,然后计算不同数据集之间的相似度;S8,基于不同数据集之间的相似度判断不同需求之间是否当作同一个需求进行处理。
[0005]作为本专利技术的一种优选方式,当基于知识图谱对两个数据集A和B中存在的不相同也不相似的数据项进行比对时,还包括以下步骤:分别确定两个数据集第一层存在的节点数,若数据集A的数据项a1周边有n个节点,数据集B的数据项b1周边有m个节点,在m和n中取最大值;当第一层有m个相同节点,若n>m,则计算数据项a1和数据项b1的相似度为n
÷
m;若n=m,则数据项a1和数据项b1的相似度为100%;若第一层无相同节点,则单独计算该节点的相似度,依次计算下一层的节点相似度,每层节点的相似度的总和构成了数据项a1和数据项b1之间的总和相似度。
[0006]作为本专利技术的一种优选方式,还包括步骤:若第n+1层的节点为相同节点,则两个节点的相似度权重为100%/n+1。
[0007]作为本专利技术的一种优选方式,还包括步骤:计算数据集A的数据项a1与数据集B的数据项b1的相似度=(X1*1+X2*1/2+

+X
n+1
*1/(n+1))
÷
m;其中,X1代表a1和b1周边第一层为相同的相同节点数;X2代表a1和b1周边第二层为相同的相同节点数;X
n+1
代表数据项a1和数据项b1周边有第n+1层为相同的相同节点数。
[0008]作为本专利技术的一种优选方式,步骤S7,计算不同数据集中的数据项的总和相似度,然后计算不同数据集之间的相似度包括以下步骤:当数据集为两个时,数据集A的数据项包括a1、a2、a3、a4、

、an;数据集B的数据项包括b1、b2、b3、b4、

、bm;设定数据项a1与数据项b1的相似度为X
ab1
,则数据项a1、数据项b1两个数据项中具有相同节点的数据项为第N
ab1
,则数据项a1与数据项b1的相似度X
ab1
=1
÷
N
ab1
;设定数据项a2与数据项b2相似度为X
ab2
,则数据项a2、数据项b2两个数据项中具有相同节点的数据项为第N
ab2
,则数据项a2与数据项b2的相似度X
ab2
=1
÷
N
ab2
;设定数据项a3与数据项b3相似度为X
ab3
,则数据项a3、数据项b3两个数据项中具有相同节点的数据项为第N
ab3
,则数据项a3与数据项b3的相似度X
ab3
=1
÷
N
ab3
;设定数据项a4与数据项b4相似度为X
ab4
,则数据项a4、数据项b4两个数据项中具有相同节点的数据项为第N
ab4
,则数据项a4与数据项b4的相似度X
ab4
=1
÷
N
ab4
;若m>n;则设定数据项an与数据项bn的相似度为X
abn
,则数据项an、数据项bn两个数据项中具有相同节点的数据项为第N
abn
,则数据项an与数据项bn的相似度X
abn
=1
÷
N
abn
;再计算数据集A和数据集B的相似度为:Y
ab
=(1
÷
N
ab1
+1
÷
N
ab2
+1
÷
N
ab3
+
ꢀ…
+1
÷
N
abn

÷
m;若m<n,则设定数据项am与数据项bm的相似度为X
abm
,则数据项am、数据项bm两个数据项中具有相同节点的数据项为第N
abm
,则数据项am与数据项bm的相似度X
abm
=1
÷
N
abm
;再计算数据集A和数据集B的相似度为:Yab=(1
÷
N
ab1
+1
÷
N
ab2
+1
÷
N
ab3
+
ꢀ…
+1
÷
N
abm

÷
n。
[0009]区别于现有技术,上述技术方案所达到的有益效果有:本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的数据需求匹配方法,其特征在于,包括以下步骤:S1,将不同需求所需数据的集合定义为不同数据集,每个数据集包含若干个数据元素,将数据元素定义为数据项;S2,将不同数据集中的数据项之间进行比对,分别判断不同数据集中的数据项之间是否相同或相似;S3,若不同数据集中的数据项之间全部相同,则定义该不同数据集之间相似度为100%;S4,建立同义词数据项库,根据同义词数据项库分别判断不同数据集中的数据项之间是否相似,若不同数据集中的数据项之间全部相似,则定义该不同数据集之间相似度为100%;S5,若不同数据集中的数据项之间不完全相同也不完全相似,则设定数据集中的数据项总数为n个,则每个数据项的占比为1/n;S6,基于知识图谱,分别对S5中的不同数据集中的数据项进行图谱比对,随机选择一个数据集,将该数据集中的数据项与其他数据集中的数据项进行逐一比对,依次轮询,若存在相同或相似,则定义该不同数据集中的该数据项之间的相似度为100%,不再对该数据项进行之后的比对,若不相同也不相似,则基于知识图谱比对,计算该数据项的相似度,取最高值;S7,计算不同数据集中的数据项的总和相似度,然后计算不同数据集之间的相似度;S8,基于不同数据集之间的相似度判断不同需求之间是否当作同一个需求进行处理。2.根据权利要求1所述的基于知识图谱的数据需求匹配方法,其特征在于,当基于知识图谱对两个数据集A和B中存在的不相同也不相似的数据项进行比对时,还包括以下步骤:分别确定两个数据集第一层存在的节点数,若数据集A的数据项a1周边有n个节点,数据集B的数据项b1周边有m个节点,在m和n中取最大值;当第一层有m个相同节点,若n>m,则计算数据项a1和数据项b1的相似度为n
÷
m;若n=m,则数据项a1和数据项b1的相似度为100%;若第一层无相同节点,则单独计算该节点的相似度,依次计算下一层的节点相似度,每层节点的相似度的总和构成了数据项a1和数据项b1之间的总和相似度。3.根据权利要求2所述的基于知识图谱的数据需求匹配方法,其特征在于,还包括步骤:若第n+1层的节点为相同节点,则两个节点的相似度权重为100%/n+1。4.根据权利要求3所述的基于知识图谱的数据需求匹配方法,其特征在于,还包括步骤:计算数据集A的数据项a1与数据集B的数据项b1的相似度=(X1*1+X2*1/2+

+X
n+1
*1/(n+1))
÷
m;其中,X1代表a1和b1周边第一层为相同的相同节点数;X2代表a1和b1周边第二层为相同的相同节点数;X
n+1
代表数据项a1和数据项b1周边有第n+1层为相同的相同节点数。5.根据权利要求4所述的基于知识图谱的数据需求匹配方法,其特征在于:步骤S7,计算不同数据集中的数据项的总和相似度,然后计算不同数据集之间的相似度包括以下步骤:当数据集为两个时,数据集A的数据项包括a1、a2、a3、a4、

、an;数据集B的数据项包括b1、b2、b3、b4、

、bm;
设定数据项a1与数据项b1...

【专利技术属性】
技术研发人员:杜雅文
申请(专利权)人:江苏数兑科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1