【技术实现步骤摘要】
基于知识图谱推理的地学数据集问答方法及系统
[0001]本专利技术涉及知识图谱
,具体地,涉及一种基于知识图谱推理的地学数据集问答方法及系统。
技术介绍
[0002]开放互联网散落着海量数据,然而由于其分布散乱、质量参差,为科学研究者搜集可用的科研数据造成了困扰。与此同时,在大数据时代,以地球科学为代表的基础学科亟待获取准确、高质量的科学数据。为此,如何帮助研究者快速找到目标数据成为一项重要议题,而基于知识图谱的地学数据集问答系统提供了一种灵活便捷、可交互的解决途径。
[0003]传统知识图谱问答系统需要大量人工制作的语义解析器,但自然语言问句丰富多样,人工制作难以覆盖多元化的询问方式,并且成本高昂效率低下。随着人工智能技术的逐步完善和计算机算力的提升,机器学习的方法逐步取代人工,基于机器学习与深度学习的知识图谱问答取得了较好的表现,但是目前主流的知识图谱问答系统存在着两个问题:实体链接困难以及图谱知识利用不全。
[0004]虽然知识图谱中保存着问答所需的实体及关系,但由于自然语言表达的多样性,问句和图 ...
【技术保护点】
【技术特征摘要】
1.一种基于知识图谱推理的地学数据集问答方法,其特征在于,包括:步骤S1:根据地学数据集信息构建地学知识图谱;步骤S2:围绕地学数据集问句的关键意图,训练命名实体识别模型进行问句语义理解与信息抽取,得到对应的抽取结果;步骤S3:融合所述抽取结果中的地理实体名称所对应的文本信息与时空信息,对所述抽取结果中的地理实体进行实体对齐,得到对应的对齐结果;步骤S4:基于地学知识图谱的实体关系结构,开展知识图谱嵌入,捕获跨实体的潜在关系与全局信息,从地学显式数据到深层知识的知识推理,得到对应的推理结果;步骤S5:融合抽取结果、对齐结果与推理结果进行多域检索,得到数据集答案。2.根据权利要求1所述的基于知识图谱推理的地学数据集问答方法,其特征在于,构建地学知识图谱包括概念层搭建步骤和实例层搭建步骤:所述地学知识图谱的概念层搭建包括:针对地学知识的元数据信息,通过知识图谱进行描述与表达,完成图谱概念层的搭建,确定实体种类与关系种类,并将不易进行连接的信息作为实体属性,完成图谱架构;所述地学知识图谱的实例层搭建包括:对地学数据集的元数据进行整理、清洗及去重,完成地学知识图谱的实例化,通过三元组将地学数据集信息完整表现并相互连接。3.根据权利要求1所述的基于知识图谱推理的地学数据集问答方法,其特征在于,所述步骤S2包括以下步骤:步骤S2.1:构建训练数据集;步骤S2.2:对所述训练数据集中的文本进行预处理,并将文本向量化表示;步骤S2.3:利用向量化的文本表示训练命名实体识别模型,公式如下:其中,表示模型的损失函数,D表示训练语料数据集,x表示所输入的文本向量,s表示信息抽取的结构提示,θ
e
,θ
d
分别代表编码器和解码器参数,通过交叉熵损失优化模型,去抽取对应的结果y。4.根据权利要求3所述的基于知识图谱推理的地学数据集问答方法,其特征在于,步骤S3包括以下步骤:步骤S3.1:将原始地学知识图谱中多种表述的地理位置实体进行信息补全,得到补全的地理实体信息;步骤S3.2:将所述补全的地理实体信息转换为对应的描述文本,并将所述描述文本向量化,得到对应的文本信息;步骤S3.3:对地理实体的经纬度范围信息和时间信息进行编码,得到地理实体的时空信息;步骤S3.4:将所述文本信息和所述时空信息相融合,利用融合表征进行地理实体对齐,公式如下:
其中,A
{i,j}
表示第i个地理实体和第j个地理实体之间的对齐矩阵,p
i
代表第i个地理实体的向量表征,表示第j个地理实体的向量表征的转置,Score
i,j
表示计算得到的不同表征间的相似度,threshold表示所设定的相似度阈值;根据设定的阈值来判断地理实体是否对齐,为可以对齐的地理实体在知识图谱中添加连边关系;当不同表征间的相似度大于阈值时表示对齐,当不同表征间的相似度小于等于阈值时表示没有对齐。5.根据权利要求1所述的基于知识图谱推理的地学数据集问答方法,其特征在于,所述步骤S4包括以下步骤:步骤S4.1:知识图谱预处理,对相同名称但不同类别实体进行额外消歧,并为知识图谱中每一个实体和关系赋予随机独立ID,建立图谱字符串到ID的映射关系,图谱按照三元组(h,r,t)形式存储,构成事实的集合F:F={(h1,r1,t1),(h2,r2,t2),
……
,(h
n
,r
n
,t
n
)}步骤S4.2:图谱嵌入初始化,为每一个随机独立ID进行随机嵌入,建立起实体集E与关系集R:E={(e1,b1),(e2,b2),
……
,(e
|E|
,b
|E|
)}.R={r1,r2,
……
,r
|n|
}.其中,每一个实体的表征由两部分e
i
和b
i
组成,分别代表实体的基本位置嵌入和平移变量,每一个关系r则被编码为轴对称的超矩形,每一个向量的维度为256维;步骤S4.3:图谱嵌入建模,为了建模复杂实体关系,每一个实体在不同的事实中会有不同表征,对任一事实f=(e
i
,r
k
,e
j
),在关系r
k
下对应的最终的实体表征为:其中,b
j
表示第j个实体的平移变量;步骤S4.4:根据图谱嵌入选择合适评价函数,包括通过如下距离函数作为评分函数计算:其中,c
k
表示矩形框的中心点,w
k
表示矩形框的宽度,k表示与宽度相关的偏置,当实体的嵌入点位于目标矩形中,距离与矩形的大小成反比,给予较低的更新权值使得点始终保持在框内;嵌入点位于目标矩形外时,矩形的大小与距离线性相关,基于更高权值作为惩戒项,总的评分函数定义为所有n个实体和关系框中距离的2阶范数之和,公式如下:步骤S4.5:在建模完成后对图谱嵌入进行训练,通过逻辑斯蒂损失对实体和关系的嵌
入进行不断优化:当三元组为正例时,y
hrt
取1,当三元组为负例时,y
hrt
取
‑
1;步骤S4.6:利用嵌入表征实现从显式地学数据到深层地学知识的知识推理,公式如下:其中,e
ai
表示某作者的嵌入表征,e
kj
表示某关键词的嵌入表征,寻找地学数据集的类似数据集、通过对不同实体的嵌入表征计算相似度,公式如下:则对任意数据集i的所有数据集相似度为:通过排序并取最高的k个值,推理出对应的最相关的k个数据集。6.一种基...
【专利技术属性】
技术研发人员:赵泽,卢彬,吴律文,何亦农,甘小莺,傅洛伊,王新兵,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。