一种应用于矿物知识图谱的复杂问答方法与系统技术方案

技术编号:39572283 阅读:36 留言:0更新日期:2023-12-03 19:23
本发明专利技术公开了一种应用于矿物知识图谱的复杂问答方法与系统,包括:根据已有简单矿物问答数据集构建复杂矿物问答数据集

【技术实现步骤摘要】
一种应用于矿物知识图谱的复杂问答方法与系统


[0001]本专利技术涉及数据处理
,尤其涉及一种应用于矿物知识图谱的复杂问答方法与系统


技术介绍

[0002]矿物知识图谱存储了大量矿物学知识,其由多条事实组成,每条事实由头实体

关系和尾实体构成,能很好地展示矿物之间的关联性和属性特征

目前常见的矿物知识图谱问答系统只能针对单条事实进行简单问答,然而随着矿物数据的增长和复杂化,这种简单问答已经不能满足地学工作者对矿物知识获取的需求,需要通过多个中间步骤

涉及多条事实推理才能得到准确答案的复杂问答系统


技术实现思路

[0003]有鉴于此,有必要在最新用于组织和存储矿物知识的知识图谱上构建能对用户以自然语言形式输入的问句进行复杂推理回答的矿物知识问答系统,以解决当前矿物问答系统只能回答涉及单跳推理的简单问题,无法回答涉及多跳推理的复杂问题的现状

[0004]本专利技术的第一方面提供一种应用于矿物知识图谱的基于多跳推理的问答方法与本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种应用于矿物知识图谱的复杂问答方法与系统,所述方法与系统包括:根据已有简单矿物问答数据集构建复杂矿物问答数据集;根据已有矿物知识图谱和数据集构建文本表示模型;基于矿物文本表示模型和数据集构建矿物问句中心词识别模型;基于矿物文本表示模型和数据集构建矿物实体消歧模型;基于矿物文本表示模型和数据集构建矿物推理模型;用训练好的中心词识别模型和实体消歧模型对用户输入的问句进行中心词的识别和知识图谱实体定位,获得推理出发实体,从推理出发实体出发使用推理模型,从矿物知识图谱中获取答案
。2.
根据权利要求1所述的应用于矿物知识图谱的复杂问答方法,其特征在于,步骤
1“根据已有简单矿物问答数据集构建复杂矿物问答数据集”具体包括:根据已有简单单跳矿物问答数据集通过扩充单跳问句内容构建复杂多跳问题数据集,具体如下:首先在知识图谱中对单跳问题中包含的实体
e0进行检索,再将检索到的相关三元组
<e0,r1,e1>
中的
e0以相应的“什么”、“哪里”等疑问词替换后修改单跳问题,得到两跳问题,进一步可以继续检索三元组
<e0,r1,e1>
中另一实体
e1,将检索到的相关三元组
<e1,r2,e2>
中的
e1以相应的“什么”、“哪里”等疑问词进行替换后修改两跳问题,得到三跳问题,为了使问答系统能处理更多样的问句,通过同义转换

句式重构以及汉英互译转换等方式对生成的问句进行处理,以增加问句数量

提高模型泛化能力,每条数据包含问题文本和为回答此问题所需的三元组序列
e0,r1,e1,r2,e2,...,e
i
,r
i+1
,e
i+1
,...,e
n
。3.
根据权利要求1所述的应用于矿物知识图谱的复杂问答方法,其特征在于,步骤
2“根据已有矿物知识图谱和数据集构建文本表示模型”具体包括:将矿物文本表示模型分为词向量模型和句向量模型;词向量模型使用
ComplEx
模型将实体和关系嵌入到
d
维复数空间,其中实体嵌入为
d
维向量

关系嵌入为
d
维矩阵,训练时从知识图谱中获得的知识三元组
(h,r,t)
称为正例三元组,其中
h
为头实体,
r
为关系,
t
为尾实体,然后再从知识三元组中获取随机的实体
t
*
,与
h

r
组成负例三元组
(h,r,t
*
)
,其中要求
t
*
不等于
t

h、r、t、t
*
对应的嵌入向量分别为
e
h

W
r

e
t

e
t*
,使用如公式
(1)
所示的
ComplEx
评分公式计算正例三元组和负例三元组的评分并使用如公式
(2)
所示的损失函数进行训练,即尽可能最大化正例三元组的得分,同时最小化负例三元组的得分,以使模型更好地区分正例三元组和负例三元组,公式
(1)

Re
代表取复数的实部,代表
e
t
的复共轭运算;的复共轭运算;句向量模型首先使用
Bert
模型,在问句的开始位置增加
[CLS]
,然后将问句对应的
Bert
输出作为问句的初始句向量,将初始句向量输入到堆叠全连接层并投影到复数空间得到最后的句嵌入向量
W
q
,根据数据集中的问句和解答问句的推理路径
e0,r1,e1,r2,e2,...,e
i
,r
i+1
,e
i+1
,...,e
n
从中提取出的
e0作为
e
h
,将
e1,...,e
n
分别作为正例
e
t
,然后从知识图谱中随机获得实体作为负例
e
t*

e
t*
不等于
e
t
,定义如公式
(3)

(4)
所示的约束函数及如公式
(5)
所示的损失函数进行训练,其中

【专利技术属性】
技术研发人员:季晓慧董雨航杨眉何明跃吴志远王玉柱
申请(专利权)人:中国地质大学北京
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1