一种面向广域地理信息知识图谱构建的知识抽取方法技术

技术编号:37271947 阅读:14 留言:0更新日期:2023-04-20 23:40
本发明专利技术公开了一种面向广域地理信息知识图谱构建的知识抽取方法包括:选取地理语义网作为种子数据,通过对远程知识库进行对齐获取大量训练数据并构建数据集;利用BiLSTM

【技术实现步骤摘要】
一种面向广域地理信息知识图谱构建的知识抽取方法


[0001]本专利技术涉及知识图谱应用
,具体为一种面向广域地理信息知识图谱构建的知识抽取方法。

技术介绍

[0002]知识图谱是人工智能领域的分支,是大数据时代知识表示最重要的一种方式,本质上是由具有属性的实体通过关系链接而成的网状知识库,即具有有向图结构的一个知识库,其中图的节点代表实体或者概念,而图的边代表实体或概念之间的各种语义关系。
[0003]知识图谱在逻辑上可分为模式层与数据层,数据层由一系列的事实组成,而知识将以事实为单位进行存储,模式层构建在数据层之上,通过本体库来规范数据层的一系列事实表达;目前,知识图谱已在智能搜索、深度问答、地理信息等领域有所应用,其中地理知识图谱作为地理信息数据的实例化体现,能够清晰的向用户展现数据在哪些领域、哪些地区应用等推荐型知识,以支撑其规划、管理与决策,我国基础地理信息数据库体系发展迅速,基础地理数据服务与信息服务尺度多元、内容丰富、更新及时,在国家信息化建设和社会化应用中发挥了重要的作用。
[0004]尽管当前地理知识图谱发展迅速,但面向广域地理信息多源异构数据的知识图谱构建较少,电网规划相关的基础设施建设中会产生大量的地理信息数据,输变电工程选线选址则是电网规划的重要环节,直接影响到规划区域电网的结构、投资及运行的经济性与可靠性,传统选线选址主要靠人工经验和实地勘察进行判断,不仅工作量大、工期长,还会受到气候条件、生态环境等诸多因素的影响,使得选址工作难度很大。
[0005]在电网建设规模不断扩大及电网信息化快速发展的背景下,可以将地理知识图谱作为基础信息平台,提取出通过遥感卫星等方式获得的海量多源异构地理信息之间的关系,但多源异构地理信息往往是非关系型、非结构化和半结构化的数据,具有典型的多源、多维、多类、多尺度等特征,导致地理实体之间的关系抽取难度较大,对此本专利技术提出了一种面向广域地理信息知识图谱构建的知识抽取方法,将有助于输变电工程选线选址的前期辅助决策,实现输变电工程的智能选址。

技术实现思路

[0006]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0007]鉴于上述存在的问题,提出了本专利技术。
[0008]本专利技术实施例的第一方面,提供一种面向广域地理信息知识图谱构建的知识抽取方法,包括:选取地理语义网作为种子数据,通过对远程知识库进行对齐获取大量训练数据并构建数据集;利用BiLSTM

CRF方法对所述数据集进行命名实体识别,基于word2vec模型将所述命名实体识别出的人名、地名、组织进行向量编码,所述向量编码将单词编码成计算
机可以接受的词向量;通过所述数据集对神经网络进行训练,将所述词向量输入所述神经网络并进行词语级和句子级特征提取,提取后输出表征实体关系的特征向量;采用准确率、召回率、F1值三项基本指标对所述表征实体关系的特征向量进行评价。
[0009]作为本专利技术所述的面向广域地理信息知识图谱构建的知识抽取方法的一种优选方案,其中:所述数据集的构建包括,
[0010]选取地理语义网作为种子数据,所述地理语义网的三元组格式与构建数据集需要的格式存在较大偏差,在构建数据集前需进行预处理;
[0011]通过对远程知识库进行对齐获取大量训练数据并构建数据集;
[0012]若第i个句子包含多个实体,则令所有实体两两组合形成实体对,并将所述实体对输入所述地理语义网进行匹配,若所述实体对并无关系,则标记为null,作为负样本。
[0013]作为本专利技术所述的面向广域地理信息知识图谱构建的知识抽取方法的一种优选方案,其中:所述命名实体识别的过程包括,
[0014]将单词输入BiLSTM网络的Look

up层进行编码,基于BiLSTM的句子表示将正向隐状态序列和反向隐状态序列按位置拼接,得到完整的序列为
[0015]通过线性函数预测将每个词映射为BIO标注的标签,其中“B

X”表示元素所在的片段属于X类型并且元素在片段的开头,“I

X”表示元素所在的片段属于X类型并且元素在此片段的中间位置,“O”表示不属于任何类型;
[0016]加入CRF模型对BiLSTM输出的预测标签进行条件约束。
[0017]作为本专利技术所述的面向广域地理信息知识图谱构建的知识抽取方法的一种优选方案,其中:所述词向量的获取包括,
[0018]基于word2vec模型将所述命名实体识别出的人名、地名、组织简化为多维向量运算,将训练好的向量组成嵌入矩阵;
[0019]所述嵌入矩阵V
m
的计算包括,
[0020][0021]其中,R表示单词,d
w
表示每个向量的维度,V表示整个词汇表;
[0022]初始化所述嵌入矩阵,通过查找两个实体间的距离获得每一个实际距离对应的实值矢量,对于句子S={x1,x2…
x
n
},第i个单词的向量的计算包括,x
i
∈R
d
(d=d
w
+d
p
×
2)
[0023]x
i
=[w
i
,p
i
][0024]其中,d
p
表示位置嵌入矩阵的大小,w
i
表示单词编码,p
i
表示位置编码。
[0025]作为本专利技术所述的面向广域地理信息知识图谱构建的知识抽取方法的一种优选方案,其中:所述表征实体关系的特征向量的获取包括,
[0026]基于一维卷积神经网络对实体关系进行抽取,设定滑动窗口的尺寸为3,第i个单词卷积后的范围为[x
i
‑1,x
i
,x
i+1
],对于句子S={x1,x2…
x
n
}卷积后的结果为{[x1,x2,x3]…
[x
n
‑1,x
n
,x
n+1
]},经过一次卷积后的结果的计算包括,
[0027]z={z1,z2…
z
n
},z
j
=h(ω
·
X
j:j+h
‑1+b)
[0028]其中,z
n
表示第i个卷积核卷积后的结果,h表示非线性的激活函数,b表示偏置项,X
j:j+h
‑1表示从第j到第j+h

1个单词向量的集合;
[0029]对所述一次卷积后的结果使用分段最大池化方法进行特征筛选,输出所述表征实
体关系的特征向量。
[0030]作为本专利技术所述的面本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向广域地理信息知识图谱构建的知识抽取方法,其特征在于,包括:选取地理语义网作为种子数据,通过对远程知识库进行对齐获取大量训练数据并构建数据集;利用BiLSTM

CRF方法对所述数据集进行命名实体识别,基于word2vec模型将所述命名实体识别出的人名、地名、组织进行向量编码,所述向量编码将单词编码成计算机可以接受的词向量;通过所述数据集对神经网络进行训练,将所述词向量输入所述神经网络并进行词语级和句子级特征提取,提取后输出表征实体关系的特征向量;采用准确率、召回率、F1值三项基本指标对所述表征实体关系的特征向量进行评价。2.如权利要求1所述的面向广域地理信息知识图谱构建的知识抽取方法,其特征在于:所述数据集的构建包括,选取地理语义网作为种子数据,所述地理语义网的三元组格式与构建数据集需要的格式存在较大偏差,在构建数据集前需进行预处理;通过对远程知识库进行对齐获取大量训练数据并构建数据集;若第i个句子包含多个实体,则令所有实体两两组合形成实体对,并将所述实体对输入所述地理语义网进行匹配,若所述实体对并无关系,则标记为null,作为负样本。3.如权利要求2所述的面向广域地理信息知识图谱构建的知识抽取方法,其特征在于:所述命名实体识别的过程包括,将单词输入BiLSTM网络的Look

up层进行编码,基于BiLSTM的句子表示将正向隐状态序列和反向隐状态序列按位置拼接,得到完整的序列为通过线性函数预测将每个词映射为BIO标注的标签,其中“B

X”表示元素所在的片段属于X类型并且元素在片段的开头,“I

X”表示元素所在的片段属于X类型并且元素在此片段的中间位置,“O”表示不属于任何类型;加入CRF模型对BiLSTM输出的预测标签进行条件约束。4.如权利要求3所述的面向广域地理信息知识图谱构建的知识抽取方法,其特征在于:所述词向量的获取包括,基于word2vec模型将所述命名实体识别出的人名、地名、组织简化为多维向量运算,将训练好的向量组成嵌入矩阵;所述嵌入矩阵V
m
的计算包括,其中,R表示单词,d
w
表示每个向量的维度,V表示整个词汇表;初始化所述嵌入矩阵,通过查找两个实体间的距离获得每一个实际距离对应的实值矢量,对于句子S={x1,x2…
x
n
},第i个单词的向量的计算包括,x
i
∈R
d
(d=d
w
+d
p
×
2)x
i
=[w
i
,p
i
]其中,d
p
表示位置嵌入矩阵的大小,w
i
表示单词编码,p
i
表示位置编码。5.如权利要求1~4任一所述的面向广域地理信息知识图谱构建的知识抽取方法,其特征在于:所述表征实体关系的特征向量的获取包括,
基于一维卷积神经网络对实体关系进行抽取,设定滑动窗口的尺寸为3,第i个单词卷积后的范围为[x
i
‑1,x
i
,x
i+1
],对...

【专利技术属性】
技术研发人员:罗晨王立汪玉翔李振周海杨珂张裕杨钦李阳卢正常
申请(专利权)人:贵州电网有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1