一种基于相似性的知识库问答实体链接方法及系统技术方案

技术编号：26762708 阅读：37 留言：0更新日期：2020-12-18 23:15

本发明专利技术属于数据处理技术领域，公开了一种基于相似性的知识库问答实体链接方法及系统，使用深度学习的方法识别问题中的实体，端到端进行实体链接；在候选实体生成阶段，分别使用Bert特征提取网络和BiLSTM‑CRF序列标注模型进行命名实体识别生成候选实体；在候选实体消岐阶段，再使用一定的规则提取问题中关系词并根据它与候选关系的相似性进行排序，缩短知识库问答的时间。本发明专利技术将端到端的思想应用在了知识库问答上，把知识库问答问题与先进计算机技术相结合，分别使用Bert特征提取网络和BiLSTM‑CRF序列标注模型来进行命名实体识别生成候选实体；本发明专利技术缓解了候选实体一词多义的问题，提高了实体链接的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于相似性的知识库问答实体链接方法及系统
本专利技术属于数据处理
，尤其涉及一种基于相似性的知识库问答实体链接方法及系统。
技术介绍
目前，随着人工智能的快速发展，知识库问答成为计算机领域的研究热点，面向知识库的问答是指对于用户提出的自然语言问题，通过确定问题中的实体，查询链接到知识库中对应的实体，通过知识库中与实体相连的关系来找到并返回答案，主要可划分为实体链接和关系检测两部分。实体链接是机器翻译、信息检索和话题发现与追踪等领域的核心技术，在机器翻译时，待翻译语句的实体链接准确率越高，能够帮助翻译系统选择更为可靠的候选译项，翻译后的语句便越正确。在用户推荐系统中，用户的浏览历史或检索文本中含有大量歧义词，准确分析语义并对其进行消歧，才能进行更精确的用户兴趣建模。实体链接在各种领域所发挥的关键作用使对其进行的各项研究具有重要的意义。实体链接需要将问题中的内容精准的链接到知识库中的实体，又可细分为候选实体生成和候选实体消岐两部分，候选实体生成是从自然语言问题识别提取出可以代表问题主题词的实体并映射到知识库中实体的过程，由于自然语言存在一词多义的现象，确定的候选实体一般包含许多噪声数据，候选实体消岐是为了找到最符合语句上下文语境的目标实体。由于非结构化自然语言和结构化知识库存在语言鸿沟，实体检测存在很大的误差率。基于统计模型的方法是实体链接研究工作中常用的传统方法。该类方法往往利用一些统计学特征对实体指称和候选实体进行向量表示，通过计算向量相似度进行实体排序和选择，主要包括基于向量空间模型的方法...

【技术保护点】
1.一种基于相似性的知识库问答实体链接方法，其特征在于，应用于客户端，所述基于相似性的知识库问答实体链接方法包括：/n使用深度学习的方法识别问题中的实体，端到端进行实体链接；/n在候选实体生成阶段，分别使用Bert特征提取网络和BiLSTM-CRF序列标注模型进行命名实体识别生成候选实体；/n在候选实体消岐阶段，再使用一定的规则提取问题中关系词并根据它与候选关系的相似性进行排序，缩短知识库问答的时间。/n

【技术特征摘要】
1.一种基于相似性的知识库问答实体链接方法，其特征在于，应用于客户端，所述基于相似性的知识库问答实体链接方法包括：
使用深度学习的方法识别问题中的实体，端到端进行实体链接；
在候选实体生成阶段，分别使用Bert特征提取网络和BiLSTM-CRF序列标注模型进行命名实体识别生成候选实体；
在候选实体消岐阶段，再使用一定的规则提取问题中关系词并根据它与候选关系的相似性进行排序，缩短知识库问答的时间。

2.如权利要求1所述的基于相似性的知识库问答实体链接方法，其特征在于，所述基于相似性的知识库问答实体链接方法具体包括：
第一步，特征提取，在Bert预训练语言模型内部使用双向的Transformer编码器挖掘输入预料的上下文信息；
第二步，候选实体生成，使用命名实体识别模型BiLSTM－CRF用来预测问题中的每一个单词是否属于实体提及；
第三步，候选实体生成，接入CRF层进行预测，为预测的标签添加约束用于降低非法序列出现的概率，在CRF层中，线性链条件随机场概率模型对输入特征序列求出条件概率最大的输出标注序列，为输入问句的每个位置打上了标注信息；
第四步，抽取问题关系词，使用自然语言处理工具NLTK对用户问题进行分词及词性标注，跳过对计算相似性没有价值的疑问代词、形容词和副词，然后选取问题中名词和动词组成问题关系词；
第五步，候选实体消岐，通过计算问题关系词和候选关系的相似性来对候选实体进行排序，进行实体消岐；
第六步，实体排序，根据相似性sim(x，y)的高低对候选关系进行排序，相似性由字符串相似性和语义相似性共同组成，计算公式如下，取排名靠前的候选关系进行实验，实体排序筛选出与正确实体类型不同的噪声数据，缩小候选实体的范围，
sim(x,y)＝0.5sim1+0.5sim2。

3.如权利要求2所述的基于相似性的知识库问答实体链接方法，其特征在于，所述第二步中，将特征矩阵输入到双向的LSTM层中，进一步提取上下文的语义关联信息，使用每个时间步上的隐藏层状态，在每个时间步上分别将正向和反向LSTM的隐藏层状态进行拼接得到向量序列

4.如权利要求2所述的基于相似性的知识库问答实体链接方法，其特征在于，所述第三步中，通过对输出标注序列的统计，定位出实体的起止位置；对于给定的序列x输出对应的标注序列y的得分s(x，y)为：

式中A为输出的分数矩阵，p[yi-1,yi]表示输出标签的转移得分值，n为问题中的单词数。

5.如权利要求2所述的基于相似性的知识库问答实体链接方法，其特征在于，所述第五步中，在计算问题关系词和候选关系相似性时，采用字符串相似度和语义相似度结合的方法，字符串相似度匹配考虑了字面相似度，字符串相似性sim1使用欧式距离相似度作为判断依据，公式如下，式中x代表关系词字符串，y代表候选关系字符串；

语义相似度获取关系词和关系语义上的匹配；语义相似性sim2通过计算余弦相似性实现，公式如下，式中x代表关系词向量，y代表候选关系向量；

6.一种实施权利要求1～5任意一项所述基于相似性的知识库问答实体链接方法的基于相似性的知识库问答实体链接系统，其特征在于，应用于客户端，所述基于相似性的知识库问答实体链接系统包括：
特征提取模块，用于在B...

【专利技术属性】
技术研发人员：何儒汉，唐娇，陈佳，张自力，彭涛，胡新荣，李相朋，
申请(专利权)人：武汉纺织大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人