一种基于相似性的知识库问答实体链接方法及系统技术方案

技术编号:26762708 阅读:37 留言:0更新日期:2020-12-18 23:15
本发明专利技术属于数据处理技术领域,公开了一种基于相似性的知识库问答实体链接方法及系统,使用深度学习的方法识别问题中的实体,端到端进行实体链接;在候选实体生成阶段,分别使用Bert特征提取网络和BiLSTM‑CRF序列标注模型进行命名实体识别生成候选实体;在候选实体消岐阶段,再使用一定的规则提取问题中关系词并根据它与候选关系的相似性进行排序,缩短知识库问答的时间。本发明专利技术将端到端的思想应用在了知识库问答上,把知识库问答问题与先进计算机技术相结合,分别使用Bert特征提取网络和BiLSTM‑CRF序列标注模型来进行命名实体识别生成候选实体;本发明专利技术缓解了候选实体一词多义的问题,提高了实体链接的准确率。

【技术实现步骤摘要】
一种基于相似性的知识库问答实体链接方法及系统
本专利技术属于数据处理
,尤其涉及一种基于相似性的知识库问答实体链接方法及系统。
技术介绍
目前,随着人工智能的快速发展,知识库问答成为计算机领域的研究热点,面向知识库的问答是指对于用户提出的自然语言问题,通过确定问题中的实体,查询链接到知识库中对应的实体,通过知识库中与实体相连的关系来找到并返回答案,主要可划分为实体链接和关系检测两部分。实体链接是机器翻译、信息检索和话题发现与追踪等领域的核心技术,在机器翻译时,待翻译语句的实体链接准确率越高,能够帮助翻译系统选择更为可靠的候选译项,翻译后的语句便越正确。在用户推荐系统中,用户的浏览历史或检索文本中含有大量歧义词,准确分析语义并对其进行消歧,才能进行更精确的用户兴趣建模。实体链接在各种领域所发挥的关键作用使对其进行的各项研究具有重要的意义。实体链接需要将问题中的内容精准的链接到知识库中的实体,又可细分为候选实体生成和候选实体消岐两部分,候选实体生成是从自然语言问题识别提取出可以代表问题主题词的实体并映射到知识库中实体的过程,由于自然语言存在一词多义的现象,确定的候选实体一般包含许多噪声数据,候选实体消岐是为了找到最符合语句上下文语境的目标实体。由于非结构化自然语言和结构化知识库存在语言鸿沟,实体检测存在很大的误差率。基于统计模型的方法是实体链接研究工作中常用的传统方法。该类方法往往利用一些统计学特征对实体指称和候选实体进行向量表示,通过计算向量相似度进行实体排序和选择,主要包括基于向量空间模型的方法和基于信息检索的方法等。很显然,基于统计模型方法的不足之处在于缺乏对实体语义层面的考量。基于深度学习的方法,主要是通过多层人工神经网络,学习实体、实体指称、上下文及其相互之间关联关系的向量表示,从而为不同实体及实体之间的语义关系构建了统一的表示,映射在相同的特征空间,并通过语义向量相似度计算排序得到目标实体。其主要优势在于无需人为构造特征,将实体以及实体间的语义特征进行了表示,能够取得更佳的实体链接效果,可移植性较好,并且计算速度极快,新的任务只需重新训练数据模型。实体链接通常使用n-gram方法来搜索具有常见问题子串的实体,但这样产生的候选实体数量较多,包含大量的噪声数据。为了减小搜索范围,Yu等使用BERT训练语言模型来表示语句特征从而更好地识别实体,Lukovnikov等利用弱依赖信息对数据构建模型,Golub等提出基于character-level的神经网络编解码框架,解决传统基于word-level的编解码方法中出现未登录词(OutofVocabulary,OOV)问题,由此减小对获取正确问句实体提及词的干扰。另外,为了保证实体提及词的召回率,传统方法在搜索过程中往往会得到大量非正确候选提及词,不仅对后续模型带来一定的噪声,还严重影响模型性能,因此研究者们对这些召回的候选提及词进行初步的排序筛选,Yin等提出的AMPCNN模型,专门提出通过符号规则,以问句中的每个词为搜索单元,搜索知识库得到初步候选实体集合,再根据最长公共子串信息对候选实体和实体提及词进行评分。通过上述分析,现有技术存在的问题及缺陷为:(1)识别效果很依赖先验知识和人工定义的规则模板,耗费大量的人力资源。(2)容易出现梯度消失问题,导致网络只能学习到距离当前时刻相对较近的信息。(3)虽然一定程度有效的提高了实体识别的准确率,但是无法较好解决实体一词多义的问题,也无法兼顾实体链接准确率和召回率。解决以上问题及缺陷的难度为:因为自然语言具有复杂性、多意性和模糊性的多重特点,实体链接是将文本中提到的实体与其知识库中相应的实体链接起来的任务,是解决实体间存在的歧义性问题。其潜在的应用包括信息提取、信息检索和知识库填充,但由于名称的变化和实体的模糊性,此任务具有挑战性。实体的歧义性体现在两个方面,第一,实体可能存在多词同义的情况(需链接),即一个实体可以用多个实体指称来表示,比如麻省理工学院和MIT都是指美国麻省同一个实体。同时,实体也有一词多义的现象(需消歧),即同一个实体指称可以表示多个实体,例如苹果可以是水果也可以是Apple公司。第二,实体链接算法需要通过实体指称及其上下文的文本信息,借助目标知识库,将其链接到知识库中正确的映射实体上。解决以上问题及缺陷的意义为:实体链接旨在将非结构化或半结构化文本中的实体数据映射到对应的实体数据上,通过上下文语义信息,文本中实体表述与知识库中实体之间的映射关系,建立文本与知识之间的联系,帮助人们更好地利用文本中潜在的知识含义,实体链接在信息检索、机器翻译和问答系统等自然语言处理任务上有重要的应用价值。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种基于相似性的知识库问答实体链接方法及系统。本专利技术是这样实现的,一种基于相似性的知识库问答实体链接方法,应用于客户端,所述基于相似性的知识库问答实体链接方法包括:使用深度学习的方法识别问题中的实体,端到端进行实体链接;在候选实体生成阶段,分别使用Bert特征提取网络和BiLSTM-CRF序列标注模型进行命名实体识别生成候选实体;在候选实体消岐阶段,再使用一定的规则提取问题中关系词并根据它与候选关系的相似性进行排序,缩短知识库问答的时间。进一步,所述基于相似性的知识库问答实体链接方法具体包括:第一步,特征提取,在Bert预训练语言模型内部使用双向的Transformer编码器挖掘输入预料的上下文信息;第二步,候选实体生成,使用命名实体识别模型BiLSTM-CRF用来预测问题中的每一个单词是否属于实体提及;第三步,候选实体生成,接入CRF层进行预测,为预测的标签添加约束用于降低非法序列出现的概率,在CRF层中,线性链条件随机场概率模型对输入特征序列求出条件概率最大的输出标注序列,为输入问句的每个位置打上了标注信息;第四步,抽取问题关系词,使用自然语言处理工具NLTK对用户问题进行分词及词性标注,跳过对计算相似性没有价值的疑问代词、形容词和副词,然后选取问题中名词和动词组成问题关系词;第五步,候选实体消岐,通过计算问题关系词和候选关系的相似性来对候选实体进行排序,进行实体消岐;第六步,实体排序,根据相似性sim(x,y)的高低对候选关系进行排序,相似性由字符串相似性和语义相似性共同组成,计算公式如下,取排名靠前的候选关系进行实验,实体排序筛选出与正确实体类型不同的噪声数据,缩小候选实体的范围,sim(x,y)=0.5sim1+0.5sim2。进一步,所述第二步中,将特征矩阵输入到双向的LSTM层中,进一步提取上下文的语义关联信息,使用每个时间步上的隐藏层状态,在每个时间步上分别将正向和反向LSTM的隐藏层状态进行拼接得到向量序列进一步,所述第三步中,通过对输出标注序列的统计,定位出实体的起止位置;对于给定的序列x输出对应的标注序列y的得分s(x,y)为:式中A为输出的分数矩阵,p[yi-本文档来自技高网
...

【技术保护点】
1.一种基于相似性的知识库问答实体链接方法,其特征在于,应用于客户端,所述基于相似性的知识库问答实体链接方法包括:/n使用深度学习的方法识别问题中的实体,端到端进行实体链接;/n在候选实体生成阶段,分别使用Bert特征提取网络和BiLSTM-CRF序列标注模型进行命名实体识别生成候选实体;/n在候选实体消岐阶段,再使用一定的规则提取问题中关系词并根据它与候选关系的相似性进行排序,缩短知识库问答的时间。/n

【技术特征摘要】
1.一种基于相似性的知识库问答实体链接方法,其特征在于,应用于客户端,所述基于相似性的知识库问答实体链接方法包括:
使用深度学习的方法识别问题中的实体,端到端进行实体链接;
在候选实体生成阶段,分别使用Bert特征提取网络和BiLSTM-CRF序列标注模型进行命名实体识别生成候选实体;
在候选实体消岐阶段,再使用一定的规则提取问题中关系词并根据它与候选关系的相似性进行排序,缩短知识库问答的时间。


2.如权利要求1所述的基于相似性的知识库问答实体链接方法,其特征在于,所述基于相似性的知识库问答实体链接方法具体包括:
第一步,特征提取,在Bert预训练语言模型内部使用双向的Transformer编码器挖掘输入预料的上下文信息;
第二步,候选实体生成,使用命名实体识别模型BiLSTM-CRF用来预测问题中的每一个单词是否属于实体提及;
第三步,候选实体生成,接入CRF层进行预测,为预测的标签添加约束用于降低非法序列出现的概率,在CRF层中,线性链条件随机场概率模型对输入特征序列求出条件概率最大的输出标注序列,为输入问句的每个位置打上了标注信息;
第四步,抽取问题关系词,使用自然语言处理工具NLTK对用户问题进行分词及词性标注,跳过对计算相似性没有价值的疑问代词、形容词和副词,然后选取问题中名词和动词组成问题关系词;
第五步,候选实体消岐,通过计算问题关系词和候选关系的相似性来对候选实体进行排序,进行实体消岐;
第六步,实体排序,根据相似性sim(x,y)的高低对候选关系进行排序,相似性由字符串相似性和语义相似性共同组成,计算公式如下,取排名靠前的候选关系进行实验,实体排序筛选出与正确实体类型不同的噪声数据,缩小候选实体的范围,
sim(x,y)=0.5sim1+0.5sim2。


3.如权利要求2所述的基于相似性的知识库问答实体链接方法,其特征在于,所述第二步中,将特征矩阵输入到双向的LSTM层中,进一步提取上下文的语义关联信息,使用每个时间步上的隐藏层状态,在每个时间步上分别将正向和反向LSTM的隐藏层状态进行拼接得到向量序列


4.如权利要求2所述的基于相似性的知识库问答实体链接方法,其特征在于,所述第三步中,通过对输出标注序列的统计,定位出实体的起止位置;对于给定的序列x输出对应的标注序列y的得分s(x,y)为:



式中A为输出的分数矩阵,p[yi-1,yi]表示输出标签的转移得分值,n为问题中的单词数。


5.如权利要求2所述的基于相似性的知识库问答实体链接方法,其特征在于,所述第五步中,在计算问题关系词和候选关系相似性时,采用字符串相似度和语义相似度结合的方法,字符串相似度匹配考虑了字面相似度,字符串相似性sim1使用欧式距离相似度作为判断依据,公式如下,式中x代表关系词字符串,y代表候选关系字符串;



语义相似度获取关系词和关系语义上的匹配;语义相似性sim2通过计算余弦相似性实现,公式如下,式中x代表关系词向量,y代表候选关系向量;





6.一种实施权利要求1~5任意一项所述基于相似性的知识库问答实体链接方法的基于相似性的知识库问答实体链接系统,其特征在于,应用于客户端,所述基于相似性的知识库问答实体链接系统包括:
特征提取模块,用于在B...

【专利技术属性】
技术研发人员:何儒汉唐娇陈佳张自力彭涛胡新荣李相朋
申请(专利权)人:武汉纺织大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1