一种基于标签推理网络的细粒度实体分类方法技术

技术编号:34039364 阅读:51 留言:0更新日期:2022-07-06 13:06
本发明专利技术公开了一种基于标签推理网络的细粒度实体分类方法,属于自然语言处理技术领域,基于预训练语言模型的上下文相关的实体提及编码器;基于序列到集合生成框架的标签演绎推理机制,结合生成的标签和上下文信息生成新的标签;基于属性网络的标签归纳推理机制,结合已经生成的标签所激活的属性生成新的标签;对应于上述描述的两种推理机制,使用基于集合预测的损失和属性图激活的损失的来优化网络参数。本发明专利技术可以端到端地建模学习和利用标签依存关系,并且可以解决细粒度实体分类中的长尾标签预测问题。尾标签预测问题。尾标签预测问题。

【技术实现步骤摘要】
一种基于标签推理网络的细粒度实体分类方法


[0001]本专利技术涉及一种细粒度实体分类方法,特别是涉及一种基于标签推理网络的细粒度实体分类方法,属于自然语言处理


技术介绍

[0002]细粒度实体分类是信息抽取中的重要任务。给定一个句子并指出其中的实体提及作为输入,细粒度实体分类的目的是结合句子信息对实体提及进行细粒度分类。例如给定输入“他们同市书法协会工作人员一起走了”,其中实体提及为“市书法协会”,需要将“市书法协会”分类为:{“组织”,“社会机构”,“事业单位”,“工作人员”,“职员”}。
[0003]细粒度实体识别任务的重大挑战来自其相互依存、大规模、细粒度的标签集合。其一,实体标签通常会存在复杂的依存结构:层次依存结构和关联依存结构。如图1所示:标签“person”,“musician”,“composer”构成一个三层的分类学结构;而“commander”,“theorist”,“scientist”由于他们共享了“expert”,“scholar”属性,构成了一个关联结构。其二,由于标签集合是大规模、细粒度的,导致标签集合中存在大量长尾标签。比如,在Ultra

Fine数据集中就有大于80%的标签不足5条训练实例,甚至25%的标签没有训练实例。
[0004]已有的方法为了利用标签集合中的依存关系,通常会将标签之间的依存结构作为标签预测限制。然而这些方法需要预先定义的标签依存知识,再用特定的方法编码依存知识,这使得这些方法只能利用有限的依存关系并且难以泛化到新数据集上。

技术实现思路

[0005]本专利技术的目的是提出一种基于标签推理网络的细粒度实体分类方法,能够利用标签之间的依存关系,且不使用预定义标签依存结构,能够泛化到新数据集上,而且够缓解长尾标签预测的难题。
[0006]为实现上述目的,本专利技术采用的技术方案如下:
[0007]一种基于标签推理网络的细粒度实体分类方法,包括以下步骤:
[0008]给定一个句子,该句子由实体词、上下文、实体标记和句子标记组成,输入到预训练语言模型中,获得句子的源端隐状态表示,将其中句子标记的隐状态表示作为上下文相关的实体提及表示;
[0009]将源端隐状态和实体提及表示输入到一解码器中,该解码器根据实体提及表示获得目标隐状态,再利用上下文注意力机制根据源端隐状态捕获不同时间步的上下文信息,以及利用前提注意力机制根据目标端隐状态捕获已经生成的标签信息,序列地预测全部实体提及标签,得到标签集合;根据实体提及表示、上下文信息和已经生成的标签信息,通过解码器计算在标签集合上的不同标签的预测概率,并选出每个时间步里预测概率最高的标签作为基于演绎推理生成的标签;
[0010]将作为预测结果的标签拆分为多个属性,根据属性与标签之间的关系构建属性网
络,该属性网络包括一属性图,该属性图包括属性结点和标签结点,以及表示属性结点和标签结点之间关联关系的边;在解码器的每个时间步,通过解码器的隐状态激活属性图中的属性结点;基于属性节点的激活状态和属性与标签之间的关联性,计算标签的激活分数:如果标签的激活份数大于一阈值,则生成标签,并作为基于归纳推理生成的标签;
[0011]将基于演绎推理生成的标签和基于归纳推理生成的标签作为预测结果的标签集合,并与标准答案的标签集合进行对比,结合集合预测损失函数和属性网络激活损失函数优化上述解码器和属性网络的参数;
[0012]利用预训练语言模型、优化后的解码器和属性网络来正式处理输入的句子,对句子中的实体进行分类。
[0013]进一步地,将句子输入预训练语言模型后,句子中的每一个标记和词汇都具有一个隐状态表示。
[0014]进一步地,预训练语言模型选用BERT模型。
[0015]进一步地,基于演绎推理的解码器选用LSTM模型。
[0016]进一步地,解码器利用实体提及表示初始化目标隐状态的第一个状态。
[0017]进一步地,利用上下文注意力机制根据源端隐状态捕获不同时间步的上下文信息的方法为:在每个时间步,上下文注意力机制通过激活函数计算解码器在每个时间步的隐状态和各个源端隐状态的相关度;利用该相关度计算权重;给各个源端隐状态分配权重,获得当前时间步的上下文信息。
[0018]进一步地,利用前提注意力机制根据目标端隐状态捕获已经生成的标签信息的方法为:在每个时间步,前提注意力机制通过激活函数计算解码器在每个时间步的隐状态和各个目标端隐状态的相关度;利用该相关度计算权重;给各个目标端隐状态分配权重,获得已经生成的标签信息。
[0019]进一步地,计算标签集合上的预测概率方法为:首先通过解码器利用解码器在上一个时间步的隐状态和上一个时间步的预测概率得到当前时间步的隐状态;然后将实体提及表示、上下文信息、已经生成的标签信息和当前时间步的隐状态作为输入,计算一中间量;再然后根据该中间量和引入的一项避免生成重复标签的掩膜向量,计算当前时间步的所有预测概率;最后选择当前时间步的最高预测概率的标签。
[0020]进一步地,通过解码器的隐状态激活属性图中的属性结点的方法为:采用余弦相似度评估解码器的隐状态和属性节点之间的相似度,再采用激活函数RELU来激活属性。
[0021]进一步地,集合预测损失函数选用交叉熵损失函数,通过交叉熵损失函数计算预测结果的标签集合和基于匈牙利算法获得的答案最优序列之间的损失。
[0022]进一步地,属性网络激活损失函数计算属性图监督损失。
[0023]本专利技术方法基于预训练语言模型的上下文相关的实体提及编码器;基于序列到集合生成框架的标签演绎推理机制,结合生成的标签和上下文信息生成新的标签;基于属性网络的标签归纳推理机制,结合已经生成的标签所激活的属性生成新的标签;对应于上述描述的两种推理机制,使用基于集合预测损失和属性图激活损失的来优化网络参数。由预训练语言模型、解码器和属性网络构成的标签推理网络可以端到端地建模学习和利用标签依存关系,并且可以解决细粒度实体分类中的长尾标签预测问题。
附图说明
[0024]图1是标签的两种依存关系示例图。
[0025]图2是本专利技术实施例中的标签推理示意图。
[0026]图3是本专利技术实施例中的一种基于标签推理网络的细粒度实体分类示意图。
[0027]图4是本专利技术实施例中的一种属性实例。
具体实施方式
[0028]为使本专利技术的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
[0029]以图1为例,为了能够同时利用标签的层次依存关系和关联依存关系,本实施例设计了两种标签推理机制来解码标签。针对层次依存关系,本实施例提出标签演绎推理机制来利用上下文信息和已经生成的标签来预测标签。如图2所示,在演绎推理过程中,模型可以通过已经生成的标签“person”和上下文信息“they theorize”推理出实体提及“they”是一个“theorist”,其中蕴含了标签“本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于标签推理网络的细粒度实体分类方法,其特征在于,包括以下步骤:给定一个句子,该句子由实体词、上下文、实体标记和句子标记组成,输入到预训练语言模型中,获得句子的源端隐状态表示,将其中句子标记的隐状态表示作为上下文相关的实体提及表示;将源端隐状态和实体提及表示输入到一解码器中,该解码器根据实体提及表示获得目标隐状态,再利用上下文注意力机制根据源端隐状态捕获不同时间步的上下文信息,以及利用前提注意力机制根据目标端隐状态捕获已经生成的标签信息,序列地预测全部实体提及标签,得到标签集合;根据实体提及表示、上下文信息和已经生成的标签信息,通过解码器计算在标签集合上的不同标签的预测概率,并选出每个时间步里预测概率最高的标签作为基于演绎推理生成的标签;将作为预测结果的标签拆分为多个属性,根据属性与标签之间的关系构建属性网络,该属性网络包括一属性图,该属性图包括属性结点和标签结点,以及表示属性结点和标签结点之间关联关系的边;在解码器的每个时间步,通过解码器的隐状态激活属性图中的属性结点;基于属性节点的激活状态和属性与标签之间的关联性,计算标签的激活分数:如果标签的激活份数大于一阈值,则生成标签,并作为基于归纳推理生成的标签;将基于演绎推理生成的标签和基于归纳推理生成的标签作为预测结果的标签集合,并与标准答案的标签集合进行对比,结合集合预测损失函数和属性网络激活损失函数优化上述解码器和属性网络的参数;利用预训练语言模型、优化后的解码器和属性网络来正式处理输入的句子,对句子中的实体进行分类。2.如权利要求1所述的方法,其特征在于,将句子输入预训练语言模型后,句子中的每一个标记和词汇都具有一个隐状态表示。3.如权利要求1所述的方法,其特征在于,预训练语言模型选用BERT模型;基于演绎推理的解码器选...

【专利技术属性】
技术研发人员:刘庆林鸿宇肖欣延韩先培孙乐吴华
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1