一种基于堆叠多头特征抽取器的实体消歧方法技术

技术编号:28942858 阅读:21 留言:0更新日期:2021-06-18 21:50
本发明专利技术公开了一种基于堆叠多头特征抽取器的实体消歧方法,用于解决现有的消歧系统的计算复杂度较高,消歧效果不够好的技术问题。其中,方法包括:生成预设的实体指称项的候选实体列表;候选实体列表具有多个候选实体;获取实体指称项的上下文信息;采用预设堆叠多头特征抽取器获取候选实体列表中每个候选实体与上下文信息之间的关联信息,并基于关联信息计算候选实体的局部分数;计算每个候选实体的全局分数;计算每个候选实体的全局邻居分数;采用局部分数、全局分数和全局邻居分数,计算正确实体;链接正确实体与实体指称项,对实体指称项进行实体消歧。

【技术实现步骤摘要】
一种基于堆叠多头特征抽取器的实体消歧方法
本专利技术涉及实体消歧
,尤其涉及一种基于堆叠多头特征抽取器的实体消歧方法。
技术介绍
随着人工智能热潮,知识图谱已经在智能搜索、自动问答、推荐、决策支持等各个相关任务上得到了广泛应用。知识图谱本质上是一种语义网络,边代表了实体或概念之间的各种语义关系。通过对结构化、半结构化和非结构化数据进行知识抽取,再通过知识融合进行校正,最后经过知识推理来构建知识库。当前构建海洋经济等各产业的知识图谱还在不断地研究和发展。由于实体具有歧义性,存在一词多义或一义多词的现象,所以实体识别的结果很难直接存放到知识图谱中,因此必须对具有歧义的实体(实体指称项)进行消歧才能够得到无歧义的实体信息。通常,当不使用外部知识库消歧时,则以聚类的方式对实体指称项进行消歧,这些聚类方法重点通过上下文表层特征的关联度来计算相似度,而未考虑到上下文特征的内在关联。一般在实体消歧中存在一个知识库,库中包含着每个实体以及其所包含的意思。根据规则或知识生成实体指称项的候选实体列表,消歧系统通过将实体指称项与唯一且正确的候选实体进行链接实现消歧,被链接的候选实体称为正确的实体。早期传统特征方法核心是通过手工设计有效的特征,一般采用Wikipedia页面的词条来表示实体。其中BOW、TF-IDF等模型的方法对实体的表示都是启发式的,启发式算法难以调整,并且很难捕获更加细粒度的语义和结构信息。随着神经网络的发展,一些较流行的神经网络单词向量学习模型被拓展到实体消歧中来,联合映射单词和实体到相同的连续空间向量,甚至为了考虑跟预训练的词向量一样,提前将实体向量训练好,方便通过查表法来得到实体向量,这样能弥补传统特征方法的不足。解决了单词向量和实体向量的表示问题,需要考虑链接问题,现有链接方式包括局部链接和协同链接。局部链接考虑实体指称项的上下文中的单词分别具有的不同的重要性,而协同链接可以弥补局部消歧方法带来的局限,其不仅考虑了实体指称项的上下文与候选实体的具备语义相似度,还考虑同一文档中所有实体之间的全局语义相似度;即每个文档包含一个主题,则文档中的所有实体都和这个主题相关。现有的消歧系统都结合了局部和协同链接。然而,在保证消歧系统性能情况下,现有的消歧系统的计算复杂度较高,消歧效果不够好。
技术实现思路
本专利技术提供了一种基于堆叠多头特征抽取器的实体消歧方法,用于解决现有的消歧系统的计算复杂度较高,消歧效果不够好的技术问题。本专利技术提供了一种基于堆叠多头特征抽取器的实体消歧方法,包括:生成预设的实体指称项的候选实体列表;所述候选实体列表具有多个候选实体;获取所述实体指称项的上下文信息;采用预设堆叠多头特征抽取器获取所述候选实体列表中每个所述候选实体与所述上下文信息之间的关联信息,并基于所述关联信息计算所述候选实体的局部分数;计算每个所述候选实体的全局分数;计算每个所述候选实体的全局邻居分数;采用所述局部分数、所述全局分数和所述全局邻居分数,计算正确实体;链接所述正确实体与所述实体指称项,对所述实体指称项进行实体消歧。可选地,所述候选实体包括第一候选实体和第二候选实体;所述生成预设的实体指称项的候选实体列表的步骤,包括:获取特征信息;基于所述特征信息生成初始候选实体;计算每个所述初始候选实体的先验概率;基于所述先验概率获取第一候选实体;获取第二候选实体;采用所述第一候选实体和所述第二候选实体,生成候选实体列表。可选地,所述获取第二候选实体的步骤,包括:获取预训练词向量和预训练实体向量;采用所述预训练词向量和所述预训练实体向量计算所述实体指称项的上下文嵌入信息;采用所述上下文嵌入信息和预设候选实体嵌入信息计算候选实体分数;基于所述候选实体分数获取第二候选实体。可选地,所述采用预设堆叠多头特征抽取器获取所述候选实体列表中每个所述候选实体与所述上下文信息之间的关联信息,并基于所述关联信息计算所述候选实体的局部分数的步骤,包括:采用预设堆叠多头特征抽取器获取每个所述候选实体与所述上下文信息之间的关联信息;采用所述关联信息更新所述候选实体的向量矩阵,得到更新向量矩阵;根据所述更新向量和所述上下文信息计算所述候选实体的局部分数。可选地,所述根据所述更新向量矩阵和所述上下文信息计算所述候选实体的局部分数的步骤,包括:获取所述上下文信息的上下文单词向量矩阵;计算所述上下文单词向量矩阵与所述更新向量矩阵之间的第一相似度;采用所述第一相似度计算所述候选实体的局部分数。可选地,所述计算每个所述候选实体的全局分数的步骤,包括:获取全文实体向量矩阵;计算所述全文实体向量矩阵与所述更新向量矩阵之间的第二相似度;采用所述第二相似度计算所述候选实体的全局分数。可选地,所述计算每个所述候选实体的全局邻居分数的步骤,包括:获取全文邻居实体向量矩阵;计算所述全文邻居实体向量矩阵与所述更像向量矩阵之间的第三相似度;采用所述第三相似度计算所述候选实体的全局邻居分数。可选地,所述采用所述局部分数、所述全局分数和所述全局邻居分数,计算正确实体的步骤之前,还包括:计算所述实体指称项和所述候选实体的类型相似分数。可选地,所述采用所述局部分数、所述全局分数和所述全局邻居分数,计算正确实体的步骤,包括:采用所述局部分数、所述全局分数、所述全局邻居分数、所述类型相似分数和所述先验概率,计算所述候选实体的正确实体概率;将正确实体概率最高的候选实体确定为正确实体。可选地,所述采用所述局部分数、所述全局分数、所述全局邻居分数、所述类型相似分数和所述先验概率,计算所述候选实体的正确实体概率的步骤,包括:将所述局部分数、所述全局分数、所述全局邻居分数、所述类型相似分数和所述先验概率输入预设的两层前馈神经网络,输出所述候选实体的正确实体概率。从以上技术方案可以看出,本专利技术具有以下优点:本专利技术公开了一种基于堆叠多头特征抽取器的实体消歧方法,具体包括:获取预设的实体指称项的多个候选实体,并采用多个候选实体生成候选实生成预设的实体指称项的候选实体列表;候选实体列表具有多个候选实体;获取实体指称项的上下文信息;采用预设堆叠多头特征抽取器获取候选实体列表中每个候选实体与上下文信息之间的关联信息,并基于关联信息计算候选实体的局部分数;计算每个候选实体的全局分数;计算每个候选实体的全局邻居分数;采用局部分数、全局分数和全局邻居分数,计算正确实体;链接正确实体与实体指称项,对实体指称项进行实体消歧。本专利技术通过生成每个实体指称项的候选实体列表,并通过堆叠多头特征抽取器计算候选实体列表中的每个候选实体的局部分数;以及计算每个候选实体的全局分数和全局邻居分数,来获取正确实体。再通过链接正确实体与实体指称项来实现实体消歧,从而降低了计算复杂度,提高了实本文档来自技高网
...

【技术保护点】
1.一种基于堆叠多头特征抽取器的实体消歧方法,其特征在于,包括:/n生成预设的实体指称项的候选实体列表;所述候选实体列表具有多个候选实体;/n获取所述实体指称项的上下文信息;/n采用预设堆叠多头特征抽取器获取所述候选实体列表中每个所述候选实体与所述上下文信息之间的关联信息,并基于所述关联信息计算所述候选实体的局部分数;/n计算每个所述候选实体的全局分数;/n计算每个所述候选实体的全局邻居分数;/n采用所述局部分数、所述全局分数和所述全局邻居分数,计算正确实体;/n链接所述正确实体与所述实体指称项,对所述实体指称项进行实体消歧。/n

【技术特征摘要】
1.一种基于堆叠多头特征抽取器的实体消歧方法,其特征在于,包括:
生成预设的实体指称项的候选实体列表;所述候选实体列表具有多个候选实体;
获取所述实体指称项的上下文信息;
采用预设堆叠多头特征抽取器获取所述候选实体列表中每个所述候选实体与所述上下文信息之间的关联信息,并基于所述关联信息计算所述候选实体的局部分数;
计算每个所述候选实体的全局分数;
计算每个所述候选实体的全局邻居分数;
采用所述局部分数、所述全局分数和所述全局邻居分数,计算正确实体;
链接所述正确实体与所述实体指称项,对所述实体指称项进行实体消歧。


2.根据权利要求1所述的方法,其特征在于,所述候选实体包括第一候选实体和第二候选实体;所述生成预设的实体指称项的候选实体列表的步骤,包括:
获取特征信息;
基于所述特征信息生成初始候选实体;
计算每个所述初始候选实体的先验概率;
基于所述先验概率获取第一候选实体;
获取第二候选实体;
采用所述第一候选实体和所述第二候选实体,生成候选实体列表。


3.根据权利要求2所述的方法,其特征在于,所述获取第二候选实体的步骤,包括:
获取预训练词向量和预训练实体向量;
采用所述预训练词向量和所述预训练实体向量计算所述实体指称项的上下文嵌入信息;
采用所述上下文嵌入信息和预设候选实体嵌入信息计算候选实体分数;
基于所述候选实体分数获取第二候选实体。


4.根据权利要求1所述的方法,其特征在于,所述采用预设堆叠多头特征抽取器获取所述候选实体列表中每个所述候选实体与所述上下文信息之间的关联信息,并基于所述关联信息计算所述候选实体的局部分数的步骤,包括:
采用预设堆叠多头特征抽取器获取每个所述候选实体与所述上下文信息之间的关联信息;
采用所述关联信息更新所述候选实体的向量矩阵,得到更新向量矩阵;
根据所述更新向量和所述上下文信息计算所述候选实体的局...

【专利技术属性】
技术研发人员:陈权张鸿彬张伟文朱远发赖泰驱
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1