一种基于小样本学习的环评领域命名实体识别技术制造技术

技术编号：35457111 阅读：34 留言：0更新日期：2022-11-03 12:17

本发明专利技术公开了一种基于小样本学习的环评领域命名实体识别技术，包括：获取环评领域文件中的语料并预处理；对预处理后的语料进行人工标注，得到人工标注样本和未标注样本；人工收集并整理环评领域中的实体，以词表的形式保存到实体库；对实体库进行扩充；建立命名实体识别模型；利用人工标注样本和未标注样本分阶段训练命名实体识别模型；得到训练好的命名实体识别模型；在预测阶段，利用扩充后的实体库修正命名实体识别模型的预测结果。本发明专利技术综合利用少量人工标注样本和人工整理的实体库作为监督信号，分阶段逐步扩展伪标签数据，利用混合数据提高模型的泛化能力，以较少的人工标注的数据即可训练出较为高效的NER模型。注的数据即可训练出较为高效的NER模型。注的数据即可训练出较为高效的NER模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于小样本学习的环评领域命名实体识别技术

[0001]本专利技术涉及一种命名实体识别技术，特别是一种基于小样本学习的环评领域命名实体识别技术。

技术介绍

[0002]随着人工智能技术的快速发展，智能辅助写作技术已经广泛应用于人类生产生活的各个领域，例如合同自动生成、法律文书校对、作文纠错等。命名实体识别(Named Entity Recognition，简称NER)作为自然语言处理技术的一个基本问题，是智能辅助写作系统的前置步骤和核心环节之一，负责从非结构化的文本中抽取具有特定意义的实体。其识别结果决定了智能辅助写作系统给出修改建议的准确性，从而直接影响用户对系统的满意度。在环境评价领域，由于需要预测的实体类型属于新类型，缺乏标注数据，大量人工标注样本价格昂贵，常规NER技术无法适用。
[0003]对于小样本NER技术，常用的方法分为两步。第一步，利用少量人工标记的样本作为监督信号，从大规模的未标记数据中获取有用的结构信息或伪标签信息，从而将未标记数据转化为可用数据。第二步，联合标注数据和转换后的数据训练NER模型。最常用的NER模型结构由预训练的编码器、双向长短时记忆网络(Bi
‑
directional Long
‑
Short Term Memory，简称BiLSTM)和条件随机场(Conditional Random Field，简称CRF)构成。模型的具体训练方法有很多，根据第一步提取信息的方式和第二步训练的方法的不同，常用的方法可以分为以下三种：
[00...

【技术保护点】

【技术特征摘要】
1.一种基于小样本学习的环评领域命名实体识别技术，其特征在于，包括以下步骤：步骤1，获取环评领域文件中的语料，对语料进行预处理；对预处理后的语料进行人工标注，对每种实体类型至少标注10个样本，得到人工标注样本和未标注样本；步骤2，人工收集并整理环评领域中的实体，以词表的形式保存到实体库；对实体库进行扩充；步骤3，建立命名实体识别NER模型，所述模型由预训练编码器、双向长短时记忆网络BiLSTM和条件随机场CRF构成；其中，预训练编码器的获取方法包括：获取通用领域预训练好的编码器，在环评领域对语料进行预训练，得到预训练编码器；步骤4，利用人工标注样本和未标注样本分阶段训练命名实体识别NER模型；得到训练好的命名实体识别NER模型；步骤5，在预测阶段，利用扩充后的实体库修正命名实体识别NER模型的预测结果；得到最终识别结果，完成基于小样本学习的环评领域命名实体识别。2.根据权利要求1所述的一种基于小样本学习的环评领域命名实体识别技术，其特征在于，步骤1中，对语料进行预处理的方法包括：对语料进行预处理：删除语料中不完整的语句，清理语料中包含公式的复杂结构的语句，对语料去重并统一转换编码；人工筛选语料，如果包含目标实体类型的实体则保留备用，否则取下一条语料，直到每种目标实体类型都筛选出至少10条语料。3.根据权利要求2所述的一种基于小样本学习的环评领域命名实体识别技术，其特征在于，步骤1中，对预处理后的语料进行人工标注的方法包括：对预处理后的语料进行人工标注：人工标注经过预处理得到的语料，采用BIO方式进行标注，标注好的语料即为所述人工标注样本，未标注的语料即为所述未标注样本。4.根据权利要求3所述的一种基于小样本学习的环评领域命名实体识别技术，其特征在于，步骤2中，对实体库进行扩充的方法包括：步骤2－1，从实体库中获取实体t，构建实体词表T；步骤2
‑
2，从步骤1中得到的未标注样本中随机筛选句子作为样本集S，样本集S中包含样本s；对照实体词表T，计算样本s中包含实体的数量，并按照数量将样本集中所有的样本从大到小排序；选择前K个样本构造实体扩充的原样本集S
′
；步骤2
‑
3，对原样本集S
′
中的样本s
′
做数据增强，通过同义词替换及回译的方法，得到增强后的样本s
′
p
；计算s
′
p
的困惑度以及与原样本s
′
的余弦相似度，仅当s
′
p
的困惑度低于阈值S
ppl
且与原样本的余弦相似度高于阈值S
sim
时，s
′
p
作为合格的增强样本保留备用，否则丢弃；步骤2
‑
4，对比合格的增强样本s
′
p
与原样本s
′
，考察发生改动的连续文字区域t
span
，计算t
span
的词性，若词性为名词的概率高于阈值p
noun
，则表示t
span
是一个新实体，将增强样本s
′
p
与原样本s
′
保存到介质中备用，并将t
span
加入实体库；对原样本集S
′
中所有样本进行步骤2
‑
3和步骤2
‑
4的操作。5.根据权利要求4所述的一种基于小样本学习的环评领域命名实体识别技术，其特征在于，步骤3中，预训练编码器的获取方法包括：步骤3
‑
1，获取通用领域预训练好的编码器Encoder
pre
，进行预训练任务，即使用步骤1中所述预处理后的语料对通用领域预训练好的编码器继续预训练2轮，将预训练好的编码
器Encoder
cont
保存备用。6.根据权利要求5所述的一种基于小样本学习的环...

【专利技术属性】
技术研发人员：张建兵，王久亮，褚有刚，黄书剑，戴新宇，陈家骏，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人