当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于伪样本重放的增量式命名实体识别方法技术

技术编号:33463886 阅读:25 留言:0更新日期:2022-05-19 00:43
本发明专利技术公布了一种基于伪样本重放的增量式命名实体识别方法,是知识图谱构建技术的基础,属于自然语言处理中的信息抽取技术领域。本发明专利技术在学习阶段,给定了一个只包含新实体类型的训练集,将旧模型作为教师,训练新的学生模型时,在常规的交叉熵损失上增加了知识蒸馏损失;在复习阶段,生成关于旧类型的伪样本作为复习材料,通过在复习材料上进一步蒸馏,来温故旧知识,并将其和新知识整合起来。本发明专利技术使用旧类型的伪样本为复习材料提供新类型的监督信号,使用教师提供旧类型的监督信号,有了上述新旧类型的监督信号后,本发明专利技术可以使用此监督信号来约束新学生模型在复习材料上的输出。输出。输出。

【技术实现步骤摘要】
一种基于伪样本重放的增量式命名实体识别方法


[0001]本专利技术提供一种增量式命名实体识别技术,具体设计一种基于伪样本重放的命名实体识别方法,是知识图谱构建技术的基础,属于自然语言处理中的信息抽取


技术介绍

[0002]传统的命名实体识别
[1]是指从无结构化文本中抽取指定类别的实体(比如,人名、地名、机构名),是信息抽取的重要步骤之一。传统方法局限于抽取预定义类别的实体,然而在现实中,待抽取的实体类别往往会随着需求动态扩增,比如,在对话系统中时不时会遇到新的意图,新的实体类型会随之引入,这就要求模型能够识别一个动态扩增的实体类型集合。为了适配上述场景,一个简单的方法是给所有见过的实体类型标注一个数据集,并用它来训练一个新的模型,然而这个方法对标注的需求过大,且耗费的计算资源过多,在实体类型特别多的场景下,甚至是不可行的。于是Monaikul等人
[2]提出了一个对于标注需求和计算资源要求较低的设置,每次只需提供一个标注了新的实体类型的数据集,并利用旧模型中关于旧类型实体的知识来训练新的模型。r/>[0003]这本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种增量式命名实体识别方法,其特征在于,包括学习阶段和复习阶段,在学习阶段,给定一个只包含新实体类型的训练集,将旧模型作为教师,训练新的学生模型时,在常规的交叉熵损失上增加知识蒸馏损失;在复习阶段,生成关于旧类型的伪样本作为复习材料,通过在复习材料上进一步蒸馏,来温故旧知识,并将其和新知识整合起来;具体步骤包括:1)学习阶段中,在第k步骤,得到当前数据集D
k
和上一步骤得到的M
k
‑1,G
1:k
‑1模型;2)将M
k
‑1视作教师、视作学生,并通过知识蒸馏将M
k
‑1中旧实体类型的知识蒸馏到中;3)复习阶段中,对于每个旧任务i∈(1,2,...,k

1},生成包含了旧类型E
i
的无标注文本4)将无标注文本分别喂入M
k
‑1和第一阶段得到的学生得到所有见过的实体类型上的输出概率分布p(x
i
;θ
k
‑1,T)和5)取M
k
‑1的输出分布中的前维,的输出分布中的第至第维,将他们拼接得到6)复习阶段后得到一个模型M
k
,它能够识别所有见过的实体类型计算M
k
的输出分布与之间的KL散度作为蒸馏损失函数:7)数据集D
k
中的每个词分为两类:一类是带着实体标签,另一类是不带着实体标签;对于带着实体标签的词,计算的输出与实体标签的交叉熵损失函数:对于带着O标签的词,计算的输出分布与M
k
‑1的输出分布的KL散度:其中,分别表示M
k
‑1和的输出分布;T表示蒸馏中的温度,用来得到更加平滑的概率分布;8)上述三个损失函数的加权和得到复习阶段的总损失函数:2.如权利要求1所述的增量式命名实...

【专利技术属性】
技术研发人员:夏宇李素建
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1