当前位置: 首页 > 专利查询>长江大学专利>正文

一种基于语义联合建模的中文知识图谱问答系统的方法及系统技术方案

技术编号:36468544 阅读:23 留言:0更新日期:2023-01-25 23:10
本发明专利技术提出了一种基于语义联合建模的中文知识图谱问答系统的方法及系统,属于知识图谱问答技术领域,所述方法包括:对知识库进行数据清洗及修正,消除噪声;通过问句中识别的实体提及,在Neo4j图数据库中进行模糊匹配,得到候选实体

【技术实现步骤摘要】
一种基于语义联合建模的中文知识图谱问答系统的方法及系统


[0001]本专利技术属于中文知识图谱问答系统领域,具体为一种基于语义联合建模的中文知识图谱问答系统的方法及系统。

技术介绍

[0002]近年来,为了优化搜索引擎提供的结果,并增强用户搜索质量及体验,促使了知识图谱的快速发展,可以知识图谱为自然言语问题提供准确的答案。
[0003]比较知名的英文知识图谱有Freebase、DBpedia、YAGO等,中文知识图谱有百度知心、北大的PKUBase和NLPCC中文知识库等。 知识图谱问答系统中最常见的是简单问题,其问句中包含一个主题实体提及,可以链接到知识图谱中的实体,并可使用单个关系事实来回答。虽然近几年来英文知识图谱问答系统领域取得了很多不错的进展,但相应方法在开放域中文知识图谱问答系统领域实现过程中效果并不理想。在中文知识图谱问答系统领域中,实体消歧的过程为准确找到问句中实体提及对应的知识库中的实体,但是由于中文中同名实体过多并且问句中对实体描述较少,同时实体中出现嵌套、缩写、别名等情况导致找到知识图谱中正确对应的实体变得更困难。
[0004]并且自然语言问题与知识库中结构化语义之间的差距,中文拥有非常丰富的语言表达形式,这使得计算机很难准确的理解自然语言问题的语义,在关系匹配任务中尤为突出。 当前常用的方法将中文知识图谱问答系统中实体消歧和关系匹配任务划分为两个独立的子任务来解决上述问题。但是这种方法的缺点为会导致误差的传递,以及忽略了候选实体提及和关系之间的相关性,无法充分利用句子和知识图谱提供的信息。最终导致整体的中文知识图谱问答系统准确率不理想。

技术实现思路

[0005]鉴于此,本专利技术提供了一种基于语义联合建模的中文知识图谱问答系统的方法及系统,将实体消歧和关系匹配任务联合建模,充分考虑实体消歧和关系匹配之间的相关性,并利用对比损失优化训练过程,以得到更有区分度的语义向量表示。所述方法及系统包括以下步骤:: (1)前期准备,对知识库进行数据清洗,去除噪声; (2)从输入的自然语言问句中识别包含信息的主题实体提及; (3)通过问句中识别的实体提及,在Neo4j图数据库中进行模糊匹配,得到候选实体

关系对,然后使用实体链接词典对其进行过滤,只保留词典实体提及对应的候选实体及其关系,来构成候选实体

关系对集合; (4)分别将问句和候选实体

关系对集合的文本信息转换为高维空间中的向量表示;(5)使用通过计算问句和候选实体

关系对向量表示的余弦值得到他们的余弦相似度,并进行排序,选取相似度最高的实体

关系对; (6)将相似度最高的实体

关系对转化成CQL查询语句,从Neo4j图数据库中获取对应的答案进行回答。 进一步的,所述步骤(1)的前期准备包括使用BIO标准策略表示主题实体提及标签,构建实体提及识别数据集,以及根据在提及在Neo4j图数据库中进行模糊
匹配,得到候选实体

关系对,构建联合任务数据集。对知识库的清洗包括去除空格和无意义字符、将英文大写改成小写以及将成对的括号的左括号改成@字符。 进一步的,所述步骤(2)首先利用BERT模型对问句中每一个字编码,再利用双向LSTM提取特征,最后使用CRF作为分类器得到每个字符对应BIO标签的概率。选取概率最大的标签作为字符的标签,将标签为B和I的字段作为主题实体提及输出。 进一步的,所述步骤(4)中候选实体

关系对使用[AND]字符进行连接,并且将对问句和候选实体

关系对中实体提及进行mask操作,具体为将实体提及的字符替换成

entity

字符,最后将[AND]和

entity

字符加入预训练模型的词汇表中。问句和候选实体

关系对输入进使用对比损失微调训练过的两个共享参数的孪生BERT模型,分别得到它们语义向量表示。 与现有技术相比,本专利技术的有益效果是: 1)将知识图谱问答系统中实体消歧和关系匹配任务进行联合建模,解决了误差传递的问题; 2)充分利用了问句中实体和关系互相提供的语义信息,从而能够回复更为准确的答案; 3)分别将问句和候选实体

关系对转化成向量表示,再进行余弦相似度计算,提升了预测语义相似度的速度。
附图说明
[0006]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图 图1为本专利技术流程示意图。
具体实施方式
[0007]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。 请参阅图1,本专利技术提供一种技术方案:一种基于语义联合建模的中文知识图谱问答系统的方法及系统,包括以下步骤:、 (1)前期准备,使用BIO标准策略表示主题实体提及标签,构建实体提及识别数据集,以及根据在提及在Neo4j图数据库中进行模糊匹配,得到候选实体

关系对,构建联合任务数据集。对知识库的清洗包括去除空格和无意义字符、将英文大写改成小写以及将成对的括号的左括号改成@字符; (2)从输入的自然语言问句中识别包含信息的主题实体提及,具体为首先利用BERT模型对问句中每一个字编码,再利用双向LSTM提取特征,最后使用CRF作为分类器得到每个字符对应BIO标签的概率。选取概率最大的标签作为字符的标签,将标签为B和I的字段作为主题实体提及输出; (3)通过问句中识别的实体提及,在Neo4j图数据库中进行模糊匹配,得到候选实体

关系对,然后使用实体链接词典对其进行过滤,只保留词典实体提及对应的候选实体及其关系,来构成候选实体

关系对集合; (4)分别将问句和候选实体

关系对集合的文本信息转换为高维空间中的向量表示,具体为将候选实体

关系对使用[AND]字符进行连接,并且将对问句和候选实体

关系对中实体提及的字符替换成

entity

字符,最后将[AND]和

entity

字符加入预训练模型的词汇表中。问句和候选实体

关系对输入进使用对比损失微调训练过的两个共享参数的孪生BERT模型,分别得到它们语义向量表示。 (5)使用通过
计算问句和候选实体

关系对向量表示的余弦值得到他们的余弦相似度,并进行排序,选取相似度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义联合建模的中文知识图谱问答系统的方法及系统,其特征在于,包括以下步骤: (1)前期准备,对知识库进行数据清洗,去除噪声; (2)从输入的自然语言问句中识别包含信息的主题实体提及; (3)通过问句中识别的实体提及,在Neo4j图数据库中进行模糊匹配,得到候选实体

关系对,然后使用实体链接词典对其进行过滤,只保留词典实体提及对应的候选实体及其关系,来构成候选实体

关系对集合; (4)分别将问句和候选实体

关系对集合的文本信息转换为高维空间中的向量表示; (5)使用通过计算问句和候选实体

关系对向量表示的余弦值得到他们的余弦相似度,并进行排序,选取相似度最高的实体

关系对; (6)将相似度最高的实体

关系对转化成CQL查询语句,从Neo4j图数据库中获取对应的答案进行回答。2.根据权利要求1所述的一种基于语义联合建模的中文知识图谱问答系统的方法及系统,其特征在于:所述步骤(1)的前期准备包括使用BIO标准策略表示主题实体提及标签,构建实体提及识别数据集,以及根据在提及在Neo4j图数据库中进行模糊匹配,得到候选实体

【专利技术属性】
技术研发人员:孙祥娥郝慧斌任睿杰黄培哲聂冰霞
申请(专利权)人:长江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1