The invention discloses a deep semantic matching entity linking method based on multi granularity LSTM network, which belongs to the field of information processing. The characteristics of the method include: first use the character level bidirectional LSTM network to extract the surface formal features of the entity reference and the candidate entity, and then use the word level bidirectional LSTM network to code the entity in the sentence, and use the output as the context semantic feature vector of the entity, and then use the structured knowledge. The information of the map and the context semantic feature vectors of the candidate entities are learned. Finally, for the entity reference, the surface form of the candidate entity and the context semantic feature vector, the similarity scores of the surface form and the semantic are calculated respectively. The invention improves the entity link effect by combining multi granularity LSTM network and knowledge representation learning method.
【技术实现步骤摘要】
一种基于多粒度LSTM网络的深层语义匹配实体链接方法
本专利技术涉及信息处理领域,特别涉及基于多粒度LSTM网络的深层语义匹配(DeepSemanticMatchModel,DSMM)实体链接方法。
技术介绍
实体链接是自然语言处理各个应用领域的基础环节,它的目标是将自由文本中的实体指称链接到目标知识图谱所对应的实体,从而解决实体间存在的歧义性问题。实体链接研究中的核心是如何对候选实体集合进行排序以挑选出正确的映射实体。实体链接的好坏会直接影响到上层任务,例如,信息检索和自动问答。大部分传统的实体链接算法一般采用非结构化的知识图谱,通过实体指称与候选实体的上下文文本,人工抽取两者的特征向量。然而这种方式得到的特征向量不能表示词或实体的内在语义信息,缺乏对不同场景的适应性。而本专利技术为了解决上述的问题,采用了字符粒度、词粒度的两个双向LSTM网络和知识表示学习方法TransE,抽取表面形式和上下文语义两个层面的特征,并且结合知识图谱的结构化信息,得到了较好的实体链接效果。
技术实现思路
为了解决现有的技术问题,本专利技术提供了基于多粒度LSTM网络的深层语义匹配实体链接方法。方案如下:步骤一,采用字符级别的双向LSTM网络(char-LSTM),抽取实体指称、候选实体的表面形式特征表示,同时能够包含一定程度上的词本身的语义信息。步骤二,采用词级别的双向LSTM网络(word-LSTM),对实体指称所在句子进行编码,将其输出作为实体指称的上下文语义特征向量。采用结构化知识图谱中的“结构上下文”,学习得到候选实体的上下文语义特征向量。步骤三,对于实体指称、候选实体 ...
【技术保护点】
1.一种基于多粒度LSTM网络的深层语义匹配实体链接方法,其特征在于,所述实体链接方法包含以下结构和步骤:(1)表面形式匹配:采用字符级别的双向LSTM网络(char‑LSTM),抽取实体指称、候选实体的表面形式特征表示,同时能够包含一定程度上的词本身的语义信息。(2)上下文语义匹配:采用词级别的双向LSTM网络(word‑LSTM),对实体指称所在句子进行编码,将其输出作为实体指称的上下文语义特征向量。采用实体在知识图谱中的“结构上下文”,学习得到候选实体的上下文语义特征向量。(3)相似性度量:对于实体指称、候选实体的表面形式特征向量以及上下文语义特征向量,分别计算表面形式和语义的匹配相似度得分,将表面形式匹配相似度和上下文语义匹配相似度结合作为实体指称‑候选实体对最终的匹配相似度得分。
【技术特征摘要】
1.一种基于多粒度LSTM网络的深层语义匹配实体链接方法,其特征在于,所述实体链接方法包含以下结构和步骤:(1)表面形式匹配:采用字符级别的双向LSTM网络(char-LSTM),抽取实体指称、候选实体的表面形式特征表示,同时能够包含一定程度上的词本身的语义信息。(2)上下文语义匹配:采用词级别的双向LSTM网络(word-LSTM),对实体指称所在句子进行编码,将其输出作为实体指称的上下文语义特征向量。采用实体在知识图谱中的“结构上下文”,学习得到候选实体的上下文语义特征向量。(3)相似性度量:对于实体指称、候选实体的表面形式特征向量以及上下文语义特征向量,分别计算表面形式和语义的匹配相似度得分,将表面形式匹配相似度和上下文语义匹配相似度结合作为实体指称-候选实体对最终的匹配相似度得分。2.如权利要求1所述的方法,其特征在于,所述步骤(1)具体包括:(1.1)对于给定的包含T个字符的实体指称m,输入即是m的字符形式;(1.2)输入通过词向量层,将每个输入单元的字符转化为对应的字符向量;(1.3)转换后得到的字...
【专利技术属性】
技术研发人员:高升,罗安根,王新怡,徐雅静,李思,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。