基于知识图谱补全的问答方法技术

技术编号:26531025 阅读:37 留言:0更新日期:2020-12-01 14:11
本发明专利技术涉及一种基于知识图谱补全的问答方法,属于自然语言处理领域,包括以下步骤:S1:将输入的Q划分为词或短语;S2:利用字向量模型BERT将词表征为向量,得到矩阵作为模型输入;S3:利用实体识别技术识别Q中的实体,获取候选实体集;S4:查询e

【技术实现步骤摘要】
基于知识图谱补全的问答方法
本专利技术属于自然语言处理领域,涉及一种基于知识图谱补全的问答方法。
技术介绍
近年来,快速发展的人工智能技术已经逐渐成为社会关注的热点。随着人工智能技术的快速发展以及网络信息的爆发式增长,知识的存储与表示变得尤为重要。知识图谱(KnowledgeGraphs,KGs)是知识表示最有效的方式之一,它从海量的网络信息中抽取知识,将其组织成三元组形式的结构化数据,便于计算机高效处理。随着谷歌将KGs用在搜索引擎中,智能问答(Questionanswering,QA)也开始大规模使用KGs。随着智能应用的发展,KGs本身存在的大量关系缺失问题也越来越不容忽视,如Freebase中超过70%的人没有出生地点,超过90%的人没有教育经历,75%的人没有国籍,DBpedia、WordNet和NELL也有着不同程度的关系缺失现象。KGs的完备程度将直接影响智能化应用的性能好坏。知识图谱补全(KnowledgeGraphscompletion,KGC)方法是针对这一问题提出的关系补全方法,即利用已有的三元组向KGs中添加新的三元组,本文档来自技高网...

【技术保护点】
1.一种基于知识图谱补全的问答方法,其特征在于:包括以下步骤:/nS1:将输入的自然语言问题Q划分为词或短语;/nS2:利用字向量模型BERT将词表征为向量,得到矩阵作为模型输入;/nS3:利用实体识别技术识别Q中的实体e

【技术特征摘要】
1.一种基于知识图谱补全的问答方法,其特征在于:包括以下步骤:
S1:将输入的自然语言问题Q划分为词或短语;
S2:利用字向量模型BERT将词表征为向量,得到矩阵作为模型输入;
S3:利用实体识别技术识别Q中的实体equestion,获取候选实体集{eKGs};
S4:查询eKGs的类别c,用c替换Q中的实体equestion,标记为Qc;
S5:构建声明式查询cyher,获取候选三元组集{(ei,rij,ej)},从而获取到候选关系集{rij};
S6:基于Qc和rij的关系链接:计算Qc和rij的余弦相似度,获取其语义相似度;
S7:在KGs中,如果eKGs和rij之间缺少关系,则执行步骤S8,否则执行步骤S11;
S8:学习实体eKGs和eKGs邻域内实体的新的向量表示;
S9:估计中心实体邻域内实体的重要性;
S10:基于现存的相关的三元组执行关系预测;
S11:基于实体和关系的知识图推理,获得答案A。


2.根据权利要求1所述的基于知识图谱补全的问答方法,其特征在于:在所述步骤S1中,通过HanLP与Stanfordparser中的CRF句法分析器与最大熵依存句法分析器将Q划分为词或短语。


3.根据权利要求1所述的基于知识图谱补全的问答方法,其特征在于:在步骤S3中,具体包括以下步骤:
S31:利用双向长短期记忆网络Bi-LSTM模型对问句中每个单词是否为实体进行预测;
S32:采用前、后向两个长短期记忆网络LSTM单元对输入序列(x1,x2,...,xt-1,xt)进行处理,输出为两个LSTM输出向量的拼接其中,为前向序列的输出,为后向序列的输出;
S33:Bi-LSTM层的输出被送入sigmoid层进行处理,即



输出层的输出向量为y=(y1,y2,...,yn),其中n为输入序列的长度,输出向量长度与输入序列是保持一致的,yi对应输入Q中第i个单词的标注信息,如果为“1”则表示实体,反之则不是;
S34:使用均方误差作为损失函数,即



其中,ω为权重,b为偏差,yi为模型的预测值,zi为目标值,λ为控制正规化的超参数,为L2正规化。


4.根据权利要求1所述的基于知识图谱补全的问答方法,其特征在于:步骤S4中,具体包括:
利用潜在狄利克雷主题模型来概念化Q中的实体,通过结合主题模型潜在狄利克雷分配和一个大规模概率KGs,捕获单词之间的语义关系,开发一个基于语料库的上下文相关概念化框架。


5.根据权利要求1所述的基于知识图谱补全的问答方法,其特征在于:所述步骤S5中,在识别到Q中实体后,根据实体名称在KGs中进行声明式查询cyher,查询到相关三元组{(ei,rij,ej)},从而获取到候选关系集{rij}。


6.根据权利要求1所述的基于知识图谱补全的问答方法,其特征在于:所述步骤S6中,在关系链接任务中引入卷积神经网络CNNs模型,提取问句中关于关系的语义信息,对候选关系用CNNs进行处理,将得到的问句关系向量和知识图谱关系向量进行相似度匹配,通过计算余弦相似度来获取其语义相似度,即



其中,θ是向量Qc和向量rij之间的夹角,是Qc语义向量的第i个元素,rij是候选关系...

【专利技术属性】
技术研发人员:赵芬李银国李俊王新恒
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1