基于深度学习的集成实体链接方法及系统技术方案

技术编号:23933611 阅读:40 留言:0更新日期:2020-04-25 02:21
本发明专利技术提出一种基于深度学习的集成实体链接方法及系统。首先选取某一个局部相似度模型,对待链接文档给出初步的链接结果。随后,根据每个指称词相应候选实体集合的局部相似度得分,候选实体集合生成方法本发明专利技术不加以限制,可采用现有任意候选实体生成方法;局部相似度得分即所选用的局部相似度模型对每个候选实体计算出来的相似度得分,按照下述方法计算每个指称词的有效候选实体集合表达向量。结合全局推断算法,利用指称词所在的文档的文本信息和同一文档中指称词之间的相互关联性完成实体链接任务。本发明专利技术利用同一文档中指称词之间的相互关联丰富指称词的语义信息,能够更好地辨别指称词的含义,达到良好的实体链接性能。

Integrated entity linking method and system based on deep learning

【技术实现步骤摘要】
基于深度学习的集成实体链接方法及系统
本专利技术涉及实体链接
,并特别涉及一种基于深度学习的集成实体链接方法及系统。
技术介绍
实体链接是指将文本中的实体提及映射到给定的知识库,例如,“XX会见了AA”,“XX”就是一个实体提及,需要将其链接到知识库中实体,该实体可例如是XX的全称。实体链接是自然语言理解中一个基础性的任务。实体链接模型可以分为独立链接、集成链接和协同链接三大类,其中集成链接方法基于一个文档中提及的指称词通常只涉及到一个或者少数几个主题的假设,即主题一致性。这类方法认为同一文档中指称词的链接过程是彼此相关的,他们的链接应该是基于探索主体一致性来集成地完成的。集成链接方法通过建模同一个文档中指称词之间的相互影响,通过它们之间的相互关系来指导每一个指称词的候选实体排序。现有的基于传统方法的集成链接模型一类是基于构造指称词-实体关系图完成,其中指称词和实体之间边的权重由二者上下文文本相似度衡量,实体和实体之间边的权重由二者的相关性衡量。基于图的传统集成链接方法包括基于随机游走和PageRank的方法、为每一个指称词定义一个只包含一个指称词-实体边的稠密子图等。第二类是基于概率模型完成链接,例如基于主题模型的方法。现有的深度学习实体链接模型大多基于按顺序独立解决单个指称词的链接、从而完成整个文档消歧的过程,这类方法仅仅利用指称词附近的上下文文本信息,缺乏对同一文档中指称词彼此间的相关性的探究分析。现有的基于传统方法的集成链接模型在模拟主题相关性方面,需要定义一个衡量方法来学习同一段上下文中指称词和候选实体的语义相关度,这就导致在很多样例中会产生不可靠的相关性,并且会倾向于选择更为流行的实体;基于主题模型的传统方法假设一个实体对应一个主题,这使得主题模型很难应用在大规模知识库上,并且模型的训练目标与实体消歧性能没有直接关联;基于图的方法计算代价太高。基于深度学习的方法虽然在特征抽取上性能更为强大,但是这些方法仅仅利用指称词附近的上下文文本信息,缺乏对同一文档中指称词彼此间的相关性的探究分析,而这种相互关联性对于实体链接的过程具有重要的意义。
技术实现思路
本专利技术的目的是解决上述现有技术对全局信息利用不充分和可扩展性差的问题,提出了一种基于深度学习的集成实体链接方法包括两种全局推断模型,分别是联合学习上下文和实体关系的全局推断模型,和,独立建模上下文和实体关系的全局推断模型。具体来说,本专利技术提出一种基于深度学习的集成实体链接方法,其中包括:步骤1、获取文档中待实体链接的指称词,使用局部相似度模型处理该指称词,得到该指称词的候选实体集合中每一个候选实体与指称词相应的局部相似度得分,及候选实体表达向量;步骤2、根据该候选实体表达向量及该指称词在文档中的出现顺序,使用基于深度学习的全局推断模型得到其候选实体的全局相似度得分,判断全局相似度得分最高的候选实体与局部相似度得分最高的实体是否一致,若是,则将最高得分的候选实体作为最终的实体链接结果,否则将最高得分的候选实体作为初步结果,执行步骤3;步骤3、使用该全局推断模型,得到该指称词匹配的候选实体的表达向量以替换该候选实体表达向量,根据该表达向量和该指称词在文档中的出现顺序,利用该全局推断模型得到指称词的每一个候选实体的全局相似度得分,选取全局相似度得分最高的候选实体作为该指称词的最佳匹配实体,判断该最佳匹配实体是否和该初步结果相同,若是,则将该最佳匹配实体作为最终的实体链接结果,否则更新全局推断模型的参数后,继续使用全局推断模型得到指称词的最佳匹配实体,直到最佳匹配实体与上一轮指称词的最佳匹配实体相同,将当前该最佳匹配实体作为最终的实体链接结果。所述的基于深度学习的集成实体链接方法,其中该全局推断模型为文档级别的联合学习上下文和实体关系的第一全局模型;该第一全局模型具体包括:对于待链接指称词mi,指称词mi的上下文词项序列{x1,x2,...,xN},将其中第a个词项到第b个词项为指称词mi的文本名称添加mask遮蔽,构成指称词mi的上下文序列Xi:{x1,x2,...,MASK,...,xN};文档中除当前待链接指称词mi外的所有指称词{mj|mj∈M∧mj≠mi}对应的候选实体集合为{ej|mj→ej∧mj∈M∧mj≠mi},将当前待链接指称词mi前出现的i-1个指称词{m1,m2,...mi-1}应该被链接到的各自对应实体{e1,e2,...ei-1}所对应的实体向量拼接成一个序列YL,当前待链接指称词mi后出现的n-i个指称词{mi+1,mi+2,...mn}应该被链接到的各自正确的实体{ei+1,ei+2,...en}所对应的实体向量拼接成一个序列YR,将上述三个序列拼接起来作为待链接指称词mi的全局信息X,拼接方法如下:X=[YL;Xi;YR]将全局信息X作为Transformer的输入,取当前待链接指称词mi对应的MASK位置的输出作为编码了全局信息的指称词mi的表达向量与mi的一个候选实体ej的表达向量计算余弦相似度,由此得到待链接指称词mi和候选实体ej的该全局相似度得分Φ′(mi,ej)。所述的基于深度学习的集成实体链接方法,其中该全局推断模型为窗口级别的联合学习上下文和实体关系的第二全局模型:该第二全局模型具体包括:在模型的训练阶段,对于待链接指称词mi,其所在的文档中出现在指称词mi前面的K个词项和出现在指称词mi后面的K个词项构成指称词mi的上下文,其中每一个词项均由词向量表示,词向量项构成了指称词mi的上下文词项序列{xa-K,...,xa-1,xa,xa+1,...,xb-1,xb,xb+1,...,xb+k},将其中第a个词项到第b个词项为指称词mi的文本名称添加mask遮蔽,构成指称词mi的固定窗口大小的上下文序列Xi:{xa-K,...,xa-1,MASK,xb+1,...,xb+k};文档中除当前待链接指称词mi外的所有指称词{mj|mj∈M∧mj≠mi},它们对应的正确候选实体集合为{ej|mj→ej∧mj∈M∧mj≠mi},将当前待链接指称词mi前出现的R个指称词{mi-R,mi-R+1,...mi-1}被链接到的各自实体{ei-R,ei-R+1,...ei-1}所对应的实体向量拼接成一个序列YL,当前待链接指称词mi后出现的n-i个指称词{mi+1,mi+2,...mi+R}被链接到的各自实体{ei+1,ei+2,...ei+R}所对应的实体向量拼接成一个序列YR,将上述三个序列拼接起来作为待链接指称词mi的全局信息X,拼接方法如下:X=[YL;Xi;YR]将全局信息X作为Transformer的输入,取当前待链接指称词mi对应的MASK位置的输出作为编码了全局信息的指称词mi的表达向量与mi的一个候选实体ej的表达向量计算余弦相似度,由此得到待链接指称词mi和候选实体ej的该全局相似度得分Φ′(mi,ej)。所述的基于深度学习的集成实体链接方法,其中该全局推断模本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的集成实体链接方法,其特征在于,包括:/n步骤1、获取文档中待实体链接的指称词,使用局部相似度模型处理该指称词,得到该指称词的候选实体集合中每一个候选实体与指称词相应的局部相似度得分,及候选实体表达向量;/n步骤2、根据该候选实体表达向量及该指称词在文档中的出现顺序,使用基于深度学习的全局推断模型得到其候选实体的全局相似度得分,判断全局相似度得分最高的候选实体与局部相似度得分最高的实体是否一致,若是,则将最高得分的候选实体作为最终的实体链接结果,否则将最高得分的候选实体作为初步结果,执行步骤3;/n步骤3、使用该全局推断模型,得到该指称词匹配的候选实体的表达向量以替换该候选实体表达向量,根据该表达向量和该指称词在文档中的出现顺序,利用该全局推断模型得到指称词的每一个候选实体的全局相似度得分,选取全局相似度得分最高的候选实体作为该指称词的最佳匹配实体,判断该最佳匹配实体是否和该初步结果相同,若是,则将该最佳匹配实体作为最终的实体链接结果,否则更新全局推断模型的参数后,继续使用全局推断模型得到指称词的最佳匹配实体,直到最佳匹配实体与上一轮指称词的最佳匹配实体相同,将当前该最佳匹配实体作为最终的实体链接结果。/n...

【技术特征摘要】
1.一种基于深度学习的集成实体链接方法,其特征在于,包括:
步骤1、获取文档中待实体链接的指称词,使用局部相似度模型处理该指称词,得到该指称词的候选实体集合中每一个候选实体与指称词相应的局部相似度得分,及候选实体表达向量;
步骤2、根据该候选实体表达向量及该指称词在文档中的出现顺序,使用基于深度学习的全局推断模型得到其候选实体的全局相似度得分,判断全局相似度得分最高的候选实体与局部相似度得分最高的实体是否一致,若是,则将最高得分的候选实体作为最终的实体链接结果,否则将最高得分的候选实体作为初步结果,执行步骤3;
步骤3、使用该全局推断模型,得到该指称词匹配的候选实体的表达向量以替换该候选实体表达向量,根据该表达向量和该指称词在文档中的出现顺序,利用该全局推断模型得到指称词的每一个候选实体的全局相似度得分,选取全局相似度得分最高的候选实体作为该指称词的最佳匹配实体,判断该最佳匹配实体是否和该初步结果相同,若是,则将该最佳匹配实体作为最终的实体链接结果,否则更新全局推断模型的参数后,继续使用全局推断模型得到指称词的最佳匹配实体,直到最佳匹配实体与上一轮指称词的最佳匹配实体相同,将当前该最佳匹配实体作为最终的实体链接结果。


2.如权利要求1所述的基于深度学习的集成实体链接方法,其特征在于,该全局推断模型为文档级别的联合学习上下文和实体关系的第一全局模型;
该第一全局模型具体包括:
对于待链接指称词mi,指称词mi的上下文词项序列{x1,x2,...,xN},将其中第a个词项到第b个词项为指称词mi的文本名称添加mask遮蔽,构成指称词mi的上下文序列Xi:{x1,x2,...,MASK,...,xN};
文档中除当前待链接指称词mi外的所有指称词{mj|mj∈M∧mj≠mi}对应的候选实体集合为{ej|mj→ej∧mj∈M∧mj≠mi},将当前待链接指称词mi前出现的i-1个指称词{m1,m2,...mi-1}应该被链接到的各自对应实体{e1,e2,...ei-1}所对应的实体向量拼接成一个序列YL,当前待链接指称词mi后出现的n-i个指称词{mi+1,mi+2,...mn}应该被链接到的各自正确的实体{ei+1,ei+2,...en}所对应的实体向量拼接成一个序列YR,将上述三个序列拼接起来作为待链接指称词mi的全局信息X,拼接方法如下:
X=[YL;Xi;YR]
将全局信息X作为Transformer的输入,取当前待链接指称词mi对应的MASK位置的输出作为编码了全局信息的指称词mi的表达向量与mi的一个候选实体ej的表达向量计算余弦相似度,由此得到待链接指称词mi和候选实体ej的该全局相似度得分Φ(mi,ej)。


3.如权利要求1所述的基于深度学习的集成实体链接方法,其特征在于,该全局推断模型为窗口级别的联合学习上下文和实体关系的第二全局模型:
该第二全局模型具体包括:
在模型的训练阶段,对于待链接指称词mi,其所在的文档中出现在指称词mi前面的K个词项和出现在指称词mi后面的K个词项构成指称词mi的上下文,其中每一个词项均由词向量表示,词向量项构成了指称词mi的上下文词项序列{xa-K,...,xa-1,xa,xa+1,...,xb-1,xb,xb+1,...,xb+k},将其中第a个词项到第b个词项为指称词mi的文本名称添加mask遮蔽,构成指称词mi的固定窗口大小的上下文序列Xi:{xa-K,...,xa-1,MASK,xb+1,...,xb+k};
文档中除当前待链接指称词mi外的所有指称词{mj|mj∈M∧mj≠mi},它们对应的正确候选实体集合为{ej|mj→ej∧mj∈M∧mj≠mi},将当前待链接指称词mi前出现的R个指称词{mi-R,mi-R+1,...mi-1}被链接到的各自实体{ei-R,ei-R+1,...ei-1}所对应的实体向量拼接成一个序列YL,当前待链接指称词mi后出现的n-i个指称词{mi+1,mi+2,...mi+R}被链接到的各自实体{ei+1,ei+2,...ei+R}所对应的实体向量拼接成一个序列YR,将上述三个序列拼接起来作为待链接指称词mi的全局信息X,拼接方法如下:
X=[YL;Xi;YR]
将全局信息X作为Transformer的输入,取当前待链接指称词mi对应的MASK位置的输出作为编码了全局信息的指称词mi的表达向量与mi的一个候选实体ej的表达向量计算余弦相似度,由此得到待链接指称词mi和候选实体ej的该全局相似度得分Φ’(mi,ej)。


4.如权利要求1所述的基于深度学习的集成实体链接方法,其特征在于,该全局推断模型为独立建模上下文和实体关系的第三全局模型:
第三全局模型,用于区分待链接指称词文本的上下文信息和与之共现的其他指称词与当前指称词之间相互关联信息,使全局推断模型能够辨别两种类型的语义信息,并能够使链接结果同时挖掘两种信息给出的指称词潜在语义;
对于当前待链接指称词mi,其所在的文档d中出现在指称词mi前后各K个词项构成了指称词mi的上下文词项序列{xa-K,...,xa-1,xa,xa+1,...,xb-1,xb,xb+1,...,xb+k},将指称词mi对应的文本添加mask遮蔽,得到其上下文词项序列{xa-K,...,xa-1,MASK,xb+1,...,xb+k};将该文词项序列作为Transformer层的输入,取待链接指称词mi被遮蔽位置的输出作为包含上下文语义信息的指称词mi全局表达向量
对于当前文档d中的每一个指称词{mi|mi∈M},该局部相似度模型会对其在候选实体生成阶段产生的s个候选实体集合C(mi)进行得分预测,如下为每个指称词的有效候选实体集合:
VG={(mi,ej)|mi∈M,ej∈C(mi),Ψ(mi,ej)≥δ}
对于每一个指称词mi,通过下式得到其有效候选实体的表达向量:






取当前待链接指称词mi相邻的前后各R个指称词,由指称词mi相邻的指称词对应的有效候选实体表达向量构成序列作为模拟指称词与邻近指称词语义关系的Transformer层的输入,指称词mi的有效实体表达向量对应的Transformer层的输出为已编码相邻指称词语义关系的指称词mi全局表达向量
指称词mi和它的一个候选实体ej的该全局相似度得分为:





5.如权利要求1所述的基于深度学习的集成实体链接方法,其特征在于,该步骤3中采用随机梯度下降法更新全局推断模型的参数。

【专利技术属性】
技术研发人员:郭嘉丰范意兴郭彤蕾程学旗
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1