当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于小样本学习的环评领域命名实体识别技术制造技术

技术编号:35457111 阅读:34 留言:0更新日期:2022-11-03 12:17
本发明专利技术公开了一种基于小样本学习的环评领域命名实体识别技术,包括:获取环评领域文件中的语料并预处理;对预处理后的语料进行人工标注,得到人工标注样本和未标注样本;人工收集并整理环评领域中的实体,以词表的形式保存到实体库;对实体库进行扩充;建立命名实体识别模型;利用人工标注样本和未标注样本分阶段训练命名实体识别模型;得到训练好的命名实体识别模型;在预测阶段,利用扩充后的实体库修正命名实体识别模型的预测结果。本发明专利技术综合利用少量人工标注样本和人工整理的实体库作为监督信号,分阶段逐步扩展伪标签数据,利用混合数据提高模型的泛化能力,以较少的人工标注的数据即可训练出较为高效的NER模型。注的数据即可训练出较为高效的NER模型。注的数据即可训练出较为高效的NER模型。

【技术实现步骤摘要】
一种基于小样本学习的环评领域命名实体识别技术


[0001]本专利技术涉及一种命名实体识别技术,特别是一种基于小样本学习的环评领域命名实体识别技术。

技术介绍

[0002]随着人工智能技术的快速发展,智能辅助写作技术已经广泛应用于人类生产生活的各个领域,例如合同自动生成、法律文书校对、作文纠错等。命名实体识别(Named Entity Recognition,简称NER)作为自然语言处理技术的一个基本问题,是智能辅助写作系统的前置步骤和核心环节之一,负责从非结构化的文本中抽取具有特定意义的实体。其识别结果决定了智能辅助写作系统给出修改建议的准确性,从而直接影响用户对系统的满意度。在环境评价领域,由于需要预测的实体类型属于新类型,缺乏标注数据,大量人工标注样本价格昂贵,常规NER技术无法适用。
[0003]对于小样本NER技术,常用的方法分为两步。第一步,利用少量人工标记的样本作为监督信号,从大规模的未标记数据中获取有用的结构信息或伪标签信息,从而将未标记数据转化为可用数据。第二步,联合标注数据和转换后的数据训练NER模型。最常用的NER模型结构由预训练的编码器、双向长短时记忆网络(Bi

directional Long

Short Term Memory,简称BiLSTM)和条件随机场(Conditional Random Field,简称CRF)构成。模型的具体训练方法有很多,根据第一步提取信息的方式和第二步训练的方法的不同,常用的方法可以分为以下三种:
[0004]方法一(参考论文:Snell J,Swersky K,Zemel R.Prototypical networks for few

shot learning[J].2017.):
[0005]这种方法可被迁移到小样本NER任务,利用元学习解决小样本NER问题。该方案使用原型网络(Prototypical Network),假设相同实体类型的所有实体在表示空间中具有接近的嵌入向量距离,从而将这些向量的中心作为实体类型的嵌入向量表示。在预测阶段,通过比较单词的嵌入向量与候选实体类型的嵌入向量之间的距离,将距离最短的实体类型作为预测值。
[0006]方法二(参考论文:Jiang H,Zhang D,Cao T,et al.Named entity recognition with small strongly labeled and large weakly labeled data[J].2021.):
[0007]这种方法可被迁移到小样本NER任务,从数据角度解决小样本NER问题。该方案使用远程监督(Distant Supervision),基于一定的假设规则将未标注的数据转变为含有噪声的伪标签数据。为了保证模型的准确性,需要对伪标签数据进行去噪。最后,联合标注数据与伪标签数据,以监督学习的方式训练NER模型。
[0008]方法三(参考:Jiang H,Zhang D,Cao T,et al.Named entity recognition with small strongly labeled and large weakly labeled data[J].2021.):
[0009]这种方法可被迁移到小样本NER任务,从泛化性角度解决小样本NER问题。该方案使用自训练(Self

Training),可以分阶段、迭代地逐步提升模型的泛化性。在每轮迭代中,
使用高质量的样本保证教师(Teacher)模型的准确度,然后将高质量样本和伪标签数据混合,并加入训练噪声,训练出泛化性更强的学生(Student)模型。
[0010]现有的小样本NER方法可以使用少量的标注样本,结合大规模的未标注语料进行联合训练,获得高精度的NER模型。但是它们的方案或基于某些过于简单化的假设,或对混合数据的使用方式比较单一,所以在环评领域等现实的应用场景中不能很好地应用。具体而言,对于基于元学习的方法,该方法假设属于同一实体类型的实体的嵌入向量在表示空间中是接近的。但是,在现实场景中,即使属于同一种实体类型,不同实体本身包含具体的语义,在表示空间的分布很难保证一定聚合在一起,因而无法保证最接近实体嵌入向量的实体类型就是它真正所属的实体类型。对于先转换伪标签数据再去噪的方法,这种方法基于有限的规则假设获得伪标签,规则往往严重缺失或部分偏颇。与真实标签相比,获得的伪标签数据可能存在分布偏移,即使去噪也无法从根本上纠正,从而可能严重影响学习模型的准确性。对于自训练方法,该方法用高精度数据迭代、分阶段地扩展伪标签数据,逐步提高模型的泛化能力,以减少可能出现的数据分布偏差。然而,这种方法受到筛选伪标签数据的过程的限制。常见的方法是计算标注数据分布与预测标记数据分布的差异作为置信度,只选择置信度高的数据参与下一阶段的训练。但是,人工标注数据的标签可能与真实分布不一致,导致置信度出现偏差,严重影响学习模型的准确性。

技术实现思路

[0011]专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供一种基于小样本学习的环评领域命名实体识别技术。
[0012]为了解决上述技术问题,本专利技术公开了一种基于小样本学习的环评领域命名实体识别技术,包括以下步骤:
[0013]步骤1,获取环评领域文件中的语料,对语料进行预处理;对预处理后的语料进行人工标注,对每种实体类型至少标注10个样本,得到人工标注样本和未标注样本;
[0014]步骤2,人工收集并整理环评领域中的实体,以词表的形式保存到实体库;对实体库进行扩充;
[0015]步骤3,建立命名实体识别(Named Entity Recognition,NER)模型(参考:参考论文:Luo Y,Xiao F,Zhao H.Hierarchical Contextualized Representation for Named Entity Recognition[J].2019.),所述模型由预训练编码器、双向长短时记忆网络BiLSTM和条件随机场CRF构成;其中,预训练编码器的获取方法包括:获取通用领域预训练好的编码器,在环评领域对语料进行预训练,得到预训练编码器;
[0016]步骤4,利用人工标注样本和未标注样本分阶段训练命名实体识别NER模型;得到训练好的命名实体识别NER模型;
[0017]步骤5,在预测阶段,利用扩充后的实体库修正命名实体识别NER模型的预测结果;得到最终识别结果,完成基于小样本学习的环评领域命名实体识别。
[0018]本专利技术步骤1中,对语料进行预处理的方法包括:
[0019]对语料进行预处理:删除语料中不完整的语句,清理语料中包含公式的复杂结构的语句,对语料去重并统一转换编码;人工筛选语料,如果包含目标实体类型的实体则保留备用,否则取下一条语料,直到每种目标实体类型都筛选出至少10条语料。
[0020]步骤1中,对预处理后的语料本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于小样本学习的环评领域命名实体识别技术,其特征在于,包括以下步骤:步骤1,获取环评领域文件中的语料,对语料进行预处理;对预处理后的语料进行人工标注,对每种实体类型至少标注10个样本,得到人工标注样本和未标注样本;步骤2,人工收集并整理环评领域中的实体,以词表的形式保存到实体库;对实体库进行扩充;步骤3,建立命名实体识别NER模型,所述模型由预训练编码器、双向长短时记忆网络BiLSTM和条件随机场CRF构成;其中,预训练编码器的获取方法包括:获取通用领域预训练好的编码器,在环评领域对语料进行预训练,得到预训练编码器;步骤4,利用人工标注样本和未标注样本分阶段训练命名实体识别NER模型;得到训练好的命名实体识别NER模型;步骤5,在预测阶段,利用扩充后的实体库修正命名实体识别NER模型的预测结果;得到最终识别结果,完成基于小样本学习的环评领域命名实体识别。2.根据权利要求1所述的一种基于小样本学习的环评领域命名实体识别技术,其特征在于,步骤1中,对语料进行预处理的方法包括:对语料进行预处理:删除语料中不完整的语句,清理语料中包含公式的复杂结构的语句,对语料去重并统一转换编码;人工筛选语料,如果包含目标实体类型的实体则保留备用,否则取下一条语料,直到每种目标实体类型都筛选出至少10条语料。3.根据权利要求2所述的一种基于小样本学习的环评领域命名实体识别技术,其特征在于,步骤1中,对预处理后的语料进行人工标注的方法包括:对预处理后的语料进行人工标注:人工标注经过预处理得到的语料,采用BIO方式进行标注,标注好的语料即为所述人工标注样本,未标注的语料即为所述未标注样本。4.根据权利要求3所述的一种基于小样本学习的环评领域命名实体识别技术,其特征在于,步骤2中,对实体库进行扩充的方法包括:步骤2-1,从实体库中获取实体t,构建实体词表T;步骤2

2,从步骤1中得到的未标注样本中随机筛选句子作为样本集S,样本集S中包含样本s;对照实体词表T,计算样本s中包含实体的数量,并按照数量将样本集中所有的样本从大到小排序;选择前K个样本构造实体扩充的原样本集S

;步骤2

3,对原样本集S

中的样本s

做数据增强,通过同义词替换及回译的方法,得到增强后的样本s

p
;计算s

p
的困惑度以及与原样本s

的余弦相似度,仅当s

p
的困惑度低于阈值S
ppl
且与原样本的余弦相似度高于阈值S
sim
时,s

p
作为合格的增强样本保留备用,否则丢弃;步骤2

4,对比合格的增强样本s

p
与原样本s

,考察发生改动的连续文字区域t
span
,计算t
span
的词性,若词性为名词的概率高于阈值p
noun
,则表示t
span
是一个新实体,将增强样本s

p
与原样本s

保存到介质中备用,并将t
span
加入实体库;对原样本集S

中所有样本进行步骤2

3和步骤2

4的操作。5.根据权利要求4所述的一种基于小样本学习的环评领域命名实体识别技术,其特征在于,步骤3中,预训练编码器的获取方法包括:步骤3

1,获取通用领域预训练好的编码器Encoder
pre
,进行预训练任务,即使用步骤1中所述预处理后的语料对通用领域预训练好的编码器继续预训练2轮,将预训练好的编码
器Encoder
cont
保存备用。6.根据权利要求5所述的一种基于小样本学习的环...

【专利技术属性】
技术研发人员:张建兵王久亮褚有刚黄书剑戴新宇陈家骏
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1