一种基于多粒度LSTM网络的深层语义匹配实体链接方法技术

技术编号:18426570 阅读:36 留言:0更新日期:2018-07-12 02:03
本发明专利技术公开了一种基于多粒度LSTM网络的深层语义匹配实体链接方法,属于信息处理领域。该方法的特征包括:先采用字符级别的双向LSTM网络,抽取实体指称、候选实体的表面形式特征表示;再采用词级别的双向LSTM网络,对实体指称所在句子编码,将其输出作为实体指称的上下文语义特征向量,然后利用结构化知识图谱的信息,学习候选实体的上下文语义特征向量;最后对于实体指称、候选实体的表面形式、上下文语义特征向量,分别计算表面形式、语义的相似度得分,将两者结合作为实体指称‑候选实体对最终得分。本发明专利技术通过结合多粒度LSTM网络和知识表示学习方法,使实体链接效果得到提升。

A deep semantic matching entity linking method based on multi granularity LSTM network

The invention discloses a deep semantic matching entity linking method based on multi granularity LSTM network, which belongs to the field of information processing. The characteristics of the method include: first use the character level bidirectional LSTM network to extract the surface formal features of the entity reference and the candidate entity, and then use the word level bidirectional LSTM network to code the entity in the sentence, and use the output as the context semantic feature vector of the entity, and then use the structured knowledge. The information of the map and the context semantic feature vectors of the candidate entities are learned. Finally, for the entity reference, the surface form of the candidate entity and the context semantic feature vector, the similarity scores of the surface form and the semantic are calculated respectively. The invention improves the entity link effect by combining multi granularity LSTM network and knowledge representation learning method.

【技术实现步骤摘要】
一种基于多粒度LSTM网络的深层语义匹配实体链接方法
本专利技术涉及信息处理领域,特别涉及基于多粒度LSTM网络的深层语义匹配(DeepSemanticMatchModel,DSMM)实体链接方法。
技术介绍
实体链接是自然语言处理各个应用领域的基础环节,它的目标是将自由文本中的实体指称链接到目标知识图谱所对应的实体,从而解决实体间存在的歧义性问题。实体链接研究中的核心是如何对候选实体集合进行排序以挑选出正确的映射实体。实体链接的好坏会直接影响到上层任务,例如,信息检索和自动问答。大部分传统的实体链接算法一般采用非结构化的知识图谱,通过实体指称与候选实体的上下文文本,人工抽取两者的特征向量。然而这种方式得到的特征向量不能表示词或实体的内在语义信息,缺乏对不同场景的适应性。而本专利技术为了解决上述的问题,采用了字符粒度、词粒度的两个双向LSTM网络和知识表示学习方法TransE,抽取表面形式和上下文语义两个层面的特征,并且结合知识图谱的结构化信息,得到了较好的实体链接效果。
技术实现思路
为了解决现有的技术问题,本专利技术提供了基于多粒度LSTM网络的深层语义匹配实体链接方法。方案如下:步骤一,采用字符级别的双向LSTM网络(char-LSTM),抽取实体指称、候选实体的表面形式特征表示,同时能够包含一定程度上的词本身的语义信息。步骤二,采用词级别的双向LSTM网络(word-LSTM),对实体指称所在句子进行编码,将其输出作为实体指称的上下文语义特征向量。采用结构化知识图谱中的“结构上下文”,学习得到候选实体的上下文语义特征向量。步骤三,对于实体指称、候选实体的表面形式特征向量以及上下文语义特征向量,分别计算表面形式和语义的匹配相似度得分,将表面形式匹配相似度和上下文语义匹配相似度结合作为实体指称-候选实体对最终的匹配相似度得分。附图说明图1是本专利技术提供的基于多粒度LSTM网络的深层语义匹配(DSMM)实体链接系统的网络结构图图2是本专利技术提供的DSMM算法中使用的char/word-LSTM的结构图图3是LSTM网络的循环单元结构图具体实施方式接下来将对本专利技术的实施方法作更详细的描述。图1是本专利技术提供的基于多粒度LSTM网络的深层语义匹配实体链接系统的网络结构图,其中包括:步骤S1:表面形式匹配步骤S2:上下文语义匹配步骤S3:相似性度量图2给出了char/word-LSTM的结构图。下面将对每个步骤进行具体的说明:步骤S1:表面形式匹配。由于实体指称、候选实体普遍的长度都很短,本专利技术采用字符级别的双向LSTM网络(char-LSTM)来抽取两者的表面形式特征表示。char-LSTM的鲁棒性更好,能够接受由于一些印刷、时态或者其他拼写原因而导致的字符错误,同时能够包含一定程度上的词本身的语义信息。图3给出了一种LSTM单元的单元结构,一个LSTM单元在时刻t可以描述为:it=σ(Wi·xt+Ui·ht-1+bi)ft=σ(Wf·xt+Uf·ht-1+bf)ot=σ(Wo·xt+Uo·ht-1+bo)ht=ot⊙tanh(Ct)其中x是输入,C是记忆单元状态,i、f、o分别是输入门、遗忘门和输出门,σ和tanh是logisticsigmoid函数和hyperbolictangent函数。⊙是数值对位相乘。W、U和b是权重矩阵和偏置项。是计算出来的候选记忆单元状态。记忆单元状态C在输入门、遗忘门的控制下,从候选记忆单元状态和前一时刻的记忆单元状态更新得到。而输出门则控制记忆单元状态的输出。对于给定的包含T个字符M={c1,c2,…,cT}的实体指称m,输入即是m的字符形式M={c1,c2,…,cT};字符形式通过词向量层,将每个输入单元的字符转化为对应的字符向量eic:eic=Wcharic其中,Wchar∈Rdc×|Vc|是字符向量矩阵,dc为字符向量的维度,Vc是包括所有不同字符的字典,ic是一个独热向量,即它在除第i维上是取值为1,其余维度上的值全为0。双向LSTM层的输入是转换后得到的字符向量取双向LSTM层最后的隐藏层状态作为输出,即实体指称m的表面形式特征向量Locm。对于候选实体e,经过同样的char-LSTM,可以得到实体e的特征向量Loce。步骤S2:上下文语义匹配。由于单纯地依靠表面形式特征向量来做实体链接存在诸多问题,本专利技术采用词级别的双向LSTM网络(word-LSTM),对实体指称所在句子进行编码,将其输出作为实体指称的上下文语义特征向量。给定实体指称m及其所在的句子sen,将sen的每个单词都转换为对应的词向量;对于第i个词,将其词向量与位置向量拼接作为LSTM层的输入,即其中,eiw=Wwordiw为第i个词的词向量,eip=Wposiw为第i个词的位置向量。Wword∈Rdw×|Vw|和Wp∈Rdp×|Vp|分别是用来查找的词向量矩阵和位置向量矩阵。其中,dw和dp分别是词向量和位置向量的维度。Vw和Vp分别是词典和位置词典。iw和ip都是独热向量,分别只在第w维和p维取值为1,其他维全部取值为0。对于sen中的词,它的位置坐标是指它在句子中与实体指称的相对距离。然后将双向LSTM层的所有单元的输出H=[h1,h2,…,hT]输入到attention层,最后实体指称m的上下文语义特征向量是由H的各分量的加权和在经过非线性变换之后得到的:M=tanh(H)α=softmax(wTM)r=HαTGlom=tanh(r)对于候选实体的语义特征向量Gloe,采取知识表示学习的方法TransE。在TransE中,对于每个三元组(s,r,o)∈k,通过使E(s)+E(r)=E(o)来训练实体和关系的嵌入表示。利用实体的结构化“上下文”来学习实体的表示,得到候选实体的上下文特征向量Gloe。步骤S3:相似性度量。由于表面形式匹配相似度和上下文语义匹配相似度都能够对实体链接提供重要的信息量,本专利技术选择将两者结合作为实体指称-候选实体对(m,e)最终的匹配相似度得分。分别计算表面形式和语义这两个层面的匹配相似度得分:ml=cosine(Locm,Loce)mg=cosine(Glom,Gloe)然后将表面形式匹配相似度和上下文语义匹配相似度结合作为实体指称-候选实体对(m,e)最终的匹配相似度得分:score(m,e)=ml+mg在算法的训练阶段,本专利技术选择负采样方式的合页损失函数作为最后的代价函数:其中,γ是预设定的超参数,表示实体指称与正确实体和非正确实体的相似度间隔。e是正确的映射实体,e′是从参考的知识库的所有实体中随机采样挑选出来的错误链接实体。损失函数表达的含义即,对于正确链接的实体,其相似度得分应该比随机挑选的错误链接实体至少大间隔γ。最后在测试系统时,只需要计算每个候选实体与实体指称之间的匹配相似度得分,选取得分最高的实体作为最终答案。以上结合附图对所提出的基于多粒度LSTM网络的深层语义匹配(DeepSemanticMatchModel,DSMM)实体链接系统及各模块的具体实施方式进行了阐述。通过以上实施方式的描述,所属领域的一般技术人员可以清楚地了解到本专利技术可借助软件加必须的通用硬件平台的方式来实现,当然也可以通过硬件实现,但前者是更佳的实施方式。基于这样的理解,本专利技术的技本文档来自技高网...

【技术保护点】
1.一种基于多粒度LSTM网络的深层语义匹配实体链接方法,其特征在于,所述实体链接方法包含以下结构和步骤:(1)表面形式匹配:采用字符级别的双向LSTM网络(char‑LSTM),抽取实体指称、候选实体的表面形式特征表示,同时能够包含一定程度上的词本身的语义信息。(2)上下文语义匹配:采用词级别的双向LSTM网络(word‑LSTM),对实体指称所在句子进行编码,将其输出作为实体指称的上下文语义特征向量。采用实体在知识图谱中的“结构上下文”,学习得到候选实体的上下文语义特征向量。(3)相似性度量:对于实体指称、候选实体的表面形式特征向量以及上下文语义特征向量,分别计算表面形式和语义的匹配相似度得分,将表面形式匹配相似度和上下文语义匹配相似度结合作为实体指称‑候选实体对最终的匹配相似度得分。

【技术特征摘要】
1.一种基于多粒度LSTM网络的深层语义匹配实体链接方法,其特征在于,所述实体链接方法包含以下结构和步骤:(1)表面形式匹配:采用字符级别的双向LSTM网络(char-LSTM),抽取实体指称、候选实体的表面形式特征表示,同时能够包含一定程度上的词本身的语义信息。(2)上下文语义匹配:采用词级别的双向LSTM网络(word-LSTM),对实体指称所在句子进行编码,将其输出作为实体指称的上下文语义特征向量。采用实体在知识图谱中的“结构上下文”,学习得到候选实体的上下文语义特征向量。(3)相似性度量:对于实体指称、候选实体的表面形式特征向量以及上下文语义特征向量,分别计算表面形式和语义的匹配相似度得分,将表面形式匹配相似度和上下文语义匹配相似度结合作为实体指称-候选实体对最终的匹配相似度得分。2.如权利要求1所述的方法,其特征在于,所述步骤(1)具体包括:(1.1)对于给定的包含T个字符的实体指称m,输入即是m的字符形式;(1.2)输入通过词向量层,将每个输入单元的字符转化为对应的字符向量;(1.3)转换后得到的字...

【专利技术属性】
技术研发人员:高升罗安根王新怡徐雅静李思
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1