当前位置: 首页 > 专利查询>东南大学专利>正文

面向Web表格的成对实体联合消歧方法技术

技术编号:29976610 阅读:11 留言:0更新日期:2021-09-08 10:02
本发明专利技术公开了面向Web表格的成对实体联合消歧方法,用于解决面向Web表格的实体链接任务。面向Web表格的实体链接任务是将Web表格中的实体提及无歧义的链接到知识库中的实体。本发明专利技术针对表格特点设计成对实体联合消歧方法,迭代的对置信度最高的一对实体提及联合消歧,逐步实现整个表格中实体提及的全部消歧。置信度计算方法全面考虑了多种信息,包括实体提及和候选实体的相似度、链接实体之间的一致性以及表格中行、列语义一致性。在算法迭代过程中,已链接的实体具有很高的置信度,能够为后续链接工作提供有效的辅助信息,从而实现高质量的联合消歧。联合消歧。联合消歧。

【技术实现步骤摘要】
面向Web表格的成对实体联合消歧方法


[0001]本专利技术涉及面向Web表格的成对实体联合消歧方法,属于知识图谱
属于知识 图谱


技术介绍

[0002]Web表格以一种结构化的形式将数据组织起来,提供了高质量高密度的信息。据估计, Web中包含了141亿个表格,其中关联表格约1.54亿个。为了能够利用这些由价值的数据, 需要让计算机能够从语义层面对这些表格进行理解。表格进行实体链接则是实现表格理解的 有效手段。
[0003]在表格中进行实体链接需要将表格单元格中的实体提及和知识图谱中对应的实体进行 关联。一个有效的表格实体链接系统,应该能够根据实体提及在表格中的上下文信息将实 体提及无歧义的链接到知识图谱中对应的实体。不同于文本中实体提及的上下文结构统一, 表格中实体提及的上下文在单元格位置、行、列角度等形式上各有不同。表格实体链接方 法首先需要从表格中识别出实体提及并为这些实体提及生成候选实体,这部分工作通常会 利用一些启发式的方法寻找尽可能全面的实体提及和候选实体。随后,借助于实体提及在 表格中的上下文以及链接实体之间的关系从侯选实体中挑选正确合适的实体进行链接,实 现候选实体的消歧。
[0004]实体提及的识别和候选实体的生成,通常可以利用工程方法取得较好的结果。而侯选 实体消歧是表格实体链接的主要困难,该任务需要设计一种排序模型,计算出实体提及与 不同候选实体之间的相似度。计算相似度时,不仅要考虑实体提及与候选实体之间的语义 相似度,还要考虑链接实体之间的相关关系。利用链接实体之间相关关系的实体消歧方法, 被称作联合消歧方法。当前很多工作在联合消歧时,会在所有实体提及的侯选实体集合中 选择尽可能相关的实体,实现链接实体的相关性以及实体提及与链接实体之间相似度的最 大化。联合消歧方法取得了不错的消歧效果,但存在假设太强的缺点,不完全适合现实中 的知识图谱和Web表格。同一行中非主键列的实体和主键列的实体往往具有很强的相关关 系,但和其他列并不一定具有较高的相关性。同时受到知识图谱的不完全性影响,同一列 中链接的实体也可能不特别相关。本专利技术针对当前联合消歧算法的缺点提出一种成对实体 联合消歧算法,依次对表格中置信度最高的一对实体提及进行联合消歧,在保证高质量联 合消歧效果的同时,降低引入噪声的概率。

技术实现思路

[0005]技术问题:针对表格的结构特点以及当前联合消歧方法的不足,设计一种成对实体链 接方法。这里的成对实体链接指的是:依次对表格中置信度最高的一对实体提及进行联合 消歧,在保证高质量联合消歧效果的同时,还降低引入噪声的概率。利用已链接的实体为 后续实体链接过程提供更加丰富、准确的上下文信息,进而在真实Web表格中实现更好的 实体链接效果。
[0006]技术方案:
[0007]本专利技术的成对实体联合消歧方法通过以下步骤执行:
[0008]1)将Web表格中同行同列的实体提及两两组合生成所有的实体提及二元组。
[0009]2)计算所有实体提及二元组进行链接时的置信度,并将置信度最高的一对实体提及与 各自实体进行链接,同时删除这对实体提及的其他候选实体。
[0010]3)更新表格中不同实体提及之间的置信度值。
[0011]4)迭代所述步骤2)和3),直到表格中所有实体提及完成链接。
[0012]本专利技术的优选方案中,所述步骤2)中,按照如下方式进行置信度计算:
[0013]2‑
a)置信度计算引入链接过程中列语义一致性的变化信息。根据表格的特点,处于同 一列的单元格内容具有相似的语义特性。在实体链接任务中,同一列链接的实体通常会共 同属于某种类别,这使得这些链接实体在一定程度上会具有相似的向量表示,本专利技术将列 语义一致性定义为方差向量的负均值。列语义一致性CSC通过以下方式进行计算:
[0014]CSC=

mean(var([e1,e2,

,e
n
]))
[0015]其中e1,e2,

,e
n
表示一列中链接实体的向量表示,var用来得到方差向量,mean通过 对方差向量中的值求平均得到代表列语义一致性的标量值。
[0016]2‑
b)置信度计算引入链接过程中行语义一致性的变化信息。行语义一致性表征了其他 列中链接实体和主键列中链接实体形成关系的一致性。行语义一致性定义为为关系方差向 量的负均值,方差越小,关系向量负均值越大,不同行具备的关系越接近,行语义越一致。 行语义一致性RSC通过以下方式进行计算:
[0017]r=e
non

subject

e
subject
[0018]RSC=

mean(var([r1,r2,

,r
n
]))
[0019]其中e
subject
表示主键列中的链接实体,e
non

subject
代表了非主键列中的链接实体,r表 示关系向量。var用来得到方差向量,mean通过对方差向量中的值求平均得到代表行语义 一致性的标量值,r1,r2,

,r
n
表示不同行链接实体之间构成的关系向量表示。
[0020]2‑
c)置信度计算引入链接过程中表格内实体一致性信息。链接实体一致性通过实体向 量表示的余弦相似度进行计算:
[0021]EES(e1,e2)=cosine(e1,e2)
[0022]其中e1,e2指代成对实体联合消歧过程中两个实体提及对应的实体向量表示。
[0023]2‑
d)置信度计算引入实体提及和候选实体相似度信息。实体提及与候选实体的相似度 通过实体提及上下文向量表示和候选实体上下文向量表示的余弦相似度和先验概率结合进 行计算。实体提及的上下文由同行同列中所有单词的词袋构成,候选实体上下文通过知识 库中实体文本描述中所有单词的词袋构成。实体提及上下文向量表示由其词袋中所有单词 向量的平均值得到,候选实体上下文向量表示由其词袋中所有单词向量的平均值得到,具 体如下所示:
[0024]MES(m,e)=cosine(m
context
,e
context
)+P(e|m)
[0025]其中,m
context
表示实体提及m的上下文向量表示,e
context
表示候选实体e的上下文向 量表示,P(e|m)表示m链接到e的概率。
[0026]2‑
c)置信度计算对多种信息的组合方法。给定一对实体提及m
i
,m
j
,以及它们对应的 候选实体集合CS
i
,CS
j
,本文将置信度定义为Γ(m
i
,m
j...

【技术保护点】

【技术特征摘要】
1.面向Web表格的成对实体联合消歧方法,其特征在于,该方法包括以下步骤:1)将Web表格中同行同列的实体提及两两组合生成所有的实体提及二元组;2)计算所有实体提及二元组进行链接时的置信度,并将置信度最高的一对实体提及与各自实体进行链接,同时删除这对实体提及的其他候选实体;3)更新表格中不同实体提及之间的置信度值。4)迭代所述步骤2)和3),直到表格中所有实体提及完成链接。2.根据权利要求1所述的面向Web表格的成对实体联合消歧方法,其特征在于,所述步骤2)中,按照如下方式计算置信度:2

a)置信度计算引入链接过程中列语义一致性的变化信息,列语义一致性定义为方差向量的负均值,列语义一致性CSC通过以下方式进行计算:CSC=

mean(var([e1,e2...,e
n
]))其中e1,e2,...,e
n
表示一列链接实体的向量表示,var用来得到方差向量,mean通过对方差向量中的值求平均得到代表列语义一致性的标量值;2

b)置信度计算引入链接过程中行语义一致性的变化信息,行语义一致性定义为关系方差向量的负均值,方差越小,关系向量负均值越大,不同行具备的关系越接近,行语义越一致,行语义一致性RSC通过以下方式进行计算:r=e
non

subject

e
subject
RSC=

mean(var([r1,r2,...,r
n
]))其中e
subject
表示主键列中的链接实体,e
non

subject
代表了非主键列中的链接实体,r表示关系向量,var用来得到方差向量,mean通过对方差向量中的值求平均得到代表行语义一致性的标量值,r1,r2,...,r
n
表示不同行链接实体之间构成的关系向量表示;2

c)置信度计算引入链接过程中表格内实体一致性信息,链接实体一致性EES通过实体向量表示的余弦相似度进行计算:EES(e1,e2)=cosine(e1,e2)其中e1,e2指代成对实体联合消歧过程中两个实体提及对应的实体向量表示。2<...

【专利技术属性】
技术研发人员:吴天星李林漆桂林
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1