一种城市体检指标知识图谱构建方法及系统技术方案

技术编号:31814076 阅读:26 留言:0更新日期:2022-01-08 11:17
本发明专利技术涉及知识图谱领域,提供一种城市体检指标知识图谱构建方法及系统,包括:对知识三元组进行第一次融合,获得指标实体集合、指标类目实体集合和指标属于指标类目关系集合;对指标类目实体集合进行第二次融合,获得融合后的指标类目实体集合;建立指标实体集合中,各指标实体之间的关联关系;通过指标实体集合、融合后的指标类目实体集合、指标实体之间的关联关系集合和指标属于指标类目关系集合,构建城市体检指标知识图谱。本发明专利技术通过图结构存储城市体检指标,提高了城市体检指标检索效率,便于指标推荐,有助于城市体检工作开展;通过对关联指标对集合的简化,去除了指标实体间的冗余关系,极大提高图数据库关系搜索效率。极大提高图数据库关系搜索效率。极大提高图数据库关系搜索效率。

【技术实现步骤摘要】
一种城市体检指标知识图谱构建方法及系统


[0001]本专利技术涉及知识图谱领域,尤其涉及一种城市体检指标知识图谱构建方法及系统。

技术介绍

[0002]国土空间规划城市体检评估(以下简称“城市体检”),是指按照“一年一体检、五年一评估”的方式,对城市发展阶段特征及总体规划实施效果定期进行分析和评价。传统的通过关系数据库存储城市体检资源条目的方式,难以准确表达指标与安全、创新、协调、绿色、开放、共享城市体检六大维度间的关联强度,不便于指标间关联关系计算。且关系数据库在进行多层嵌套连接检索时,存在耗时长,性能低等问题。
[0003]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0004]本专利技术的主要目的在于,解决现有技术中,关系数据库存储城市体检资源条目检索性能低,难以挖掘指标间关联性的问题。
[0005]为实现上述目的,本专利技术提供一种城市体检指标知识图谱构建方法,包括:S1:获取城市体检指标数据,抽取所述城市体检指标数据中的知识三元组,对所述知识三元组进行第一次融合,获得指标实体集合、指标类目实体集合和指标属于指标类目关系集合;S2:对所述指标类目实体集合进行第二次融合,获得融合后的指标类目实体集合;步骤S2具体为:S21:计算获取所述指标实体集合的第一分类向量和第二分类向量;S22:通过所述第一分类向量、所述第二分类向量和所述指标属于指标类目关系集合,计算获得所述指标类目实体集合的所有第一向量和所有第二向量;S23:通过所有所述第一向量和所有所述第二向量,对所述指标类目实体集合进行第二次融合,获得所述融合后的指标类目实体集合;S3:建立所述指标实体集合中,各指标实体之间的关联关系;S4:通过所述指标实体集合、所述融合后的指标类目实体集合、指标实体之间的关联关系集合和所述指标属于指标类目关系集合,构建城市体检指标知识图谱。
[0006]优选地,步骤S21具体为:S211:所述指标实体集合中的各项指标实体的属性包括:指标名称属性、数值大小属性和数值单位属性,将所述指标实体的指标名称属性值分为n=6个分类进行标注;S212:对标注后的指标实体的指标名称属性值进行深度学习训练和模型调优,获得训练好的指标名称分类模型;S213:去除所述训练好的指标名称分类模型的顶层softmax层,对所述指标实体集
合中各指标实体的指标名称进行推理,获得第一分类向量=[x
i1, x
i2
……
x
in
],其中i表示指标实体的编号,x
ij
表示指标实体是第j分类的概率,j为[1,n]之间的整数,n表示分类的总数;S214:获取所述第一分类向量中的最大项,将所述最大项x
ij
对应的j的分类记作第一分类,将所述第一分类向量和第一分类保存至指标实体的属性中;S215:将n设置为23,重复步骤S211

S214,获得所述第二分类向量和第二分类,将所述第二分类向量和第二分类保存至指标实体的属性中。
[0007]优选地,步骤S22具体为:S221:所述指标类目实体集合记为M(item),包含的指标类目实体个数为N(item),选取某一指标类目实体,通过所述指标属于指标类目关系,获取属于该指标类目实体的所有指标实体及该指标实体的第一分类向量;S222:将所述第一分类向量按行排列为矩阵A,表达式为:其中,m表示指标实体的总数,n表示分类的总数,x
mn
表示指标实体m是第n分类的概率,表示指标实体m的第一分类向量;S223:将该指标类目实体的第一向量记为,表达式为:其中,k表示指标实体的编号的计数;S224:将步骤S221

S223共迭代N(item)次,获取所述指标类目实体集合的所有第一向量;S225:选取某一指标类目实体,通过所述指标属于指标类目关系,获取属于该指标类目实体的指标实体及该指标实体的第二分类向量,重复步骤S222

S224,获取所述指标类目实体集合的所有第二向量。
[0008]优选地,步骤S23具体为:S231:计算各所述第二向量间的余弦相似度,共执行次余弦相似度计算,获得个指标类目实体之间的第二相似度;S232:对于所述第二相似度大于预设阈值k1的两个指标类目实体,计算两者的第一向量间的余弦相似度作为第一相似度,对于所述第一相似度大于预设阈值k2的两个指标类目实体进行合并,完成所述第二次融合。
[0009]优选地,步骤S3具体为:S31:将所述指标实体集合记为M(indicator),包含的指标实体的数量记为N(indicator),计算各所述指标实体之间的关联强度;S32:通过所述关联强度获取关联指标对集合M(pair)


S33:对所述关联指标对集合M(pair)

进行简化,获得简化后的关联指标对集合M(pair);S34:通过所述简化后的关联指标对集合M(pair)建立各所述指标实体之间的关联关系。
[0010]优选地,步骤S31具体为:S311:对于编号为x和y的两个指标实体,通过深度学习模型获取指标实体x和指标实体y的指标名称语义相似度;获得指标实体x的第一分类向量和第二分类向量,以及指标实体y的第一分类向量和第二分类向量;S312:若指标实体x与指标实体y具有相同的第二分类向量,则指标分类相似度为1;若指标实体x和指标实体y的第二分类向量不同,但第一分类向量相同,则指标分类相似度为0.5;若指标实体x和指标实体y的第一分类向量和第二分类向量均不同,则指标分类相似度为0;S313:将指标实体x的数值大小属性值记为val(x),将指标实体y的数值大小属性值记为val(y),x与y的指标数值大小相似度的计算公式如下:S314:建立中英文映射表,将指标实体x和指标实体y的数值单位属性值转换为中文,将所述转换为中文的数值单位标记为领域,若指标实体x的数值单位和指标实体y的数值单位属于同一领域,则指标数值单位相似度为指标实体x和指标实体y的转换为中文的数值单位间的字符相似度;否则指标数值单位相似度为0;S315:计算获得所述关联强度,计算公式如下:关联强度S(x,y) = a*指标名称语义相似度+b*指标分类相似度+c*指标数值大小相似度+d*指标数值单位相似度其中,a、b、c和d均为预设的权重,a+b+c+d=1,且a,b,c,d∈(0,1)。
[0011]优选地,步骤S32具体为:S321:将关联指标对集合记为M(pair)

,M(pair)

为若干个指标实体集合M(indicator)的子集的集合,将M(pair)

中包含的M(indicator)的子集个数记作N(M(pair)

);令指标实体的编号为z,z的初始值为1,将第z项指标实体记为Mz,Mz∈M(indicator);S322:若z的值小于N(indicator)则进入步骤S323,否则输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种城市体检指标知识图谱构建方法,其特征在于,包括:S1:获取城市体检指标数据,抽取所述城市体检指标数据中的知识三元组,对所述知识三元组进行第一次融合,获得指标实体集合、指标类目实体集合和指标属于指标类目关系集合;S2:对所述指标类目实体集合进行第二次融合,获得融合后的指标类目实体集合;步骤S2具体为:S21:计算获取所述指标实体集合的第一分类向量和第二分类向量;S22:通过所述第一分类向量、所述第二分类向量和所述指标属于指标类目关系集合,计算获得所述指标类目实体集合的所有第一向量和所有第二向量;S23:通过所有所述第一向量和所有所述第二向量,对所述指标类目实体集合进行第二次融合,获得所述融合后的指标类目实体集合;S3:建立所述指标实体集合中,各指标实体之间的关联关系;S4:通过所述指标实体集合、所述融合后的指标类目实体集合、指标实体之间的关联关系集合和所述指标属于指标类目关系集合,构建城市体检指标知识图谱。2.根据权利要求1所述的城市体检指标知识图谱构建方法,其特征在于,步骤S21具体为:S211:所述指标实体集合中的各项指标实体的属性包括:指标名称属性、数值大小属性和数值单位属性,将所述指标实体的指标名称属性值分为n=6个分类进行标注;S212:对标注后的指标实体的指标名称属性值进行深度学习训练和模型调优,获得训练好的指标名称分类模型;S213:去除所述训练好的指标名称分类模型的顶层softmax层,对所述指标实体集合中各指标实体的指标名称进行推理,获得第一分类向量=[x
i1, x
i2
……
x
in
],其中i表示指标实体的编号,x
ij
表示指标实体是第j分类的概率,j为[1,n]之间的整数,n表示分类的总数;S214:获取所述第一分类向量中的最大项,将所述最大项x
ij
对应的j的分类记作第一分类,将所述第一分类向量和第一分类保存至指标实体的属性中;S215:将n设置为23,重复步骤S211

S214,获得所述第二分类向量和第二分类,将所述第二分类向量和第二分类保存至指标实体的属性中。3.根据权利要求1所述的城市体检指标知识图谱构建方法,其特征在于,步骤S22具体为:S221:所述指标类目实体集合记为M(item),包含的指标类目实体个数为N(item),选取某一指标类目实体,通过所述指标属于指标类目关系,获取属于该指标类目实体的所有指标实体及该指标实体的第一分类向量;S222:将所述第一分类向量按行排列为矩阵A,表达式为:其中,m表示指标实体的总数,n表示分类的总数,x
mn
表示指标实体m是第n分类的概率,表示指标实体m的第一分类向量;
S223:将该指标类目实体的第一向量记为,表达式为:其中,k表示指标实体的编号的计数;S224:将步骤S221

S223共迭代N(item)次,获取所述指标类目实体集合的所有第一向量;S225:选取某一指标类目实体,通过所述指标属于指标类目关系,获取属于该指标类目实体的指标实体及该指标实体的第二分类向量,重复步骤S222

S224,获取所述指标类目实体集合的所有第二向量。4.根据权利要求1所述的城市体检指标知识图谱构建方法,其特征在于,步骤S23具体为:S231:计算各所述第二向量间的余弦相似度,共执行次余弦相似度计算,获得个指标类目实体之间的第二相似度;S232:对于所述第二相似度大于预设阈值k1的两个指标类目实体,计算两者的第一向量间的余弦相似度作为第一相似度,对于所述第一相似度大于预设阈值k2的两个指标类目实体进行合并,完成所述第二次融合。5.根据权利要求1所述的城市体检指标知识图谱构建方法,其特征在于,步骤S3具体为:S31:将所述指标实体集合记为M(indicator),包含的指标实体的数量记为N(indicator),计算各所述指标实体之间的关联强度;S32:通过所述关联强度获取关联指标对集合M(pair)

;S33:对所述关联指标对集合M(pair)

进行简化,获得简化后的关联指标对集合M(pair);S34:通过所述简化后的关联指标对集合M(pair)建立各所述指标实体之间的关联关系。6.根据权利要求5所述的城市体检指标知识图谱构建方法,其特征在于,步骤S31具体为:S311:对于编号为x和y的两个指标实体,通过深度学习模型获取指标实体x和指标实体y的指标名称语义相似度;获得指标实体x的第一分类向量和第二分类向量,以及指标实体y的第一分类向量和第二分类向量;S312:若指标实体x与指标实体y具有相同的第二分类向量,则指标分类相似度为1;若指标实体x和指标实体y的第二分类向量不同,但第一分类向量相同,则指标分类相似度为0.5;若指标实体x和指标实体y的第一分类向量和第二分类向量均不同,则指标分类相似度为0;S313:将指标实体x的数值大小属性值记为val(x),将指标实体y的数值大小属性值记
为val(y),x与y的指标数值大小相似度的计算公式如下:S314:建立中英文映射表,将指标实体x和指标实体y的数值单位属性值转换为中文,将所述转换为中文的数值单位标记为领域,若指标实体x的数值单位和指标实体y的数值单位属于同一领域,则指标数值单位相似度为指标实体x和指标实体y的转换为中文的数值单位间的字符相似度;否则指标数值单位相似度为0;S315:计算获得所述关联强度,计算公式如下:...

【专利技术属性】
技术研发人员:李颖陈胜鹏刘高
申请(专利权)人:武大吉奥信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1