【技术实现步骤摘要】
一种基于小样本学习的环评领域命名实体识别技术
[0001]本专利技术涉及一种命名实体识别技术,特别是一种基于小样本学习的环评领域命名实体识别技术。
技术介绍
[0002]随着人工智能技术的快速发展,智能辅助写作技术已经广泛应用于人类生产生活的各个领域,例如合同自动生成、法律文书校对、作文纠错等。命名实体识别(Named Entity Recognition,简称NER)作为自然语言处理技术的一个基本问题,是智能辅助写作系统的前置步骤和核心环节之一,负责从非结构化的文本中抽取具有特定意义的实体。其识别结果决定了智能辅助写作系统给出修改建议的准确性,从而直接影响用户对系统的满意度。在环境评价领域,由于需要预测的实体类型属于新类型,缺乏标注数据,大量人工标注样本价格昂贵,常规NER技术无法适用。
[0003]对于小样本NER技术,常用的方法分为两步。第一步,利用少量人工标记的样本作为监督信号,从大规模的未标记数据中获取有用的结构信息或伪标签信息,从而将未标记数据转化为可用数据。第二步,联合标注数据和转换后的数据训练NER模型。最常用的NER模型结构由预训练的编码器、双向长短时记忆网络(Bi
‑
directional Long
‑
Short Term Memory,简称BiLSTM)和条件随机场(Conditional Random Field,简称CRF)构成。模型的具体训练方法有很多,根据第一步提取信息的方式和第二步训练的方法的不同,常用的方法可以分为以下三种:
[00 ...
【技术保护点】
【技术特征摘要】
1.一种基于小样本学习的环评领域命名实体识别技术,其特征在于,包括以下步骤:步骤1,获取环评领域文件中的语料,对语料进行预处理;对预处理后的语料进行人工标注,对每种实体类型至少标注10个样本,得到人工标注样本和未标注样本;步骤2,人工收集并整理环评领域中的实体,以词表的形式保存到实体库;对实体库进行扩充;步骤3,建立命名实体识别NER模型,所述模型由预训练编码器、双向长短时记忆网络BiLSTM和条件随机场CRF构成;其中,预训练编码器的获取方法包括:获取通用领域预训练好的编码器,在环评领域对语料进行预训练,得到预训练编码器;步骤4,利用人工标注样本和未标注样本分阶段训练命名实体识别NER模型;得到训练好的命名实体识别NER模型;步骤5,在预测阶段,利用扩充后的实体库修正命名实体识别NER模型的预测结果;得到最终识别结果,完成基于小样本学习的环评领域命名实体识别。2.根据权利要求1所述的一种基于小样本学习的环评领域命名实体识别技术,其特征在于,步骤1中,对语料进行预处理的方法包括:对语料进行预处理:删除语料中不完整的语句,清理语料中包含公式的复杂结构的语句,对语料去重并统一转换编码;人工筛选语料,如果包含目标实体类型的实体则保留备用,否则取下一条语料,直到每种目标实体类型都筛选出至少10条语料。3.根据权利要求2所述的一种基于小样本学习的环评领域命名实体识别技术,其特征在于,步骤1中,对预处理后的语料进行人工标注的方法包括:对预处理后的语料进行人工标注:人工标注经过预处理得到的语料,采用BIO方式进行标注,标注好的语料即为所述人工标注样本,未标注的语料即为所述未标注样本。4.根据权利要求3所述的一种基于小样本学习的环评领域命名实体识别技术,其特征在于,步骤2中,对实体库进行扩充的方法包括:步骤2-1,从实体库中获取实体t,构建实体词表T;步骤2
‑
2,从步骤1中得到的未标注样本中随机筛选句子作为样本集S,样本集S中包含样本s;对照实体词表T,计算样本s中包含实体的数量,并按照数量将样本集中所有的样本从大到小排序;选择前K个样本构造实体扩充的原样本集S
′
;步骤2
‑
3,对原样本集S
′
中的样本s
′
做数据增强,通过同义词替换及回译的方法,得到增强后的样本s
′
p
;计算s
′
p
的困惑度以及与原样本s
′
的余弦相似度,仅当s
′
p
的困惑度低于阈值S
ppl
且与原样本的余弦相似度高于阈值S
sim
时,s
′
p
作为合格的增强样本保留备用,否则丢弃;步骤2
‑
4,对比合格的增强样本s
′
p
与原样本s
′
,考察发生改动的连续文字区域t
span
,计算t
span
的词性,若词性为名词的概率高于阈值p
noun
,则表示t
span
是一个新实体,将增强样本s
′
p
与原样本s
′
保存到介质中备用,并将t
span
加入实体库;对原样本集S
′
中所有样本进行步骤2
‑
3和步骤2
‑
4的操作。5.根据权利要求4所述的一种基于小样本学习的环评领域命名实体识别技术,其特征在于,步骤3中,预训练编码器的获取方法包括:步骤3
‑
1,获取通用领域预训练好的编码器Encoder
pre
,进行预训练任务,即使用步骤1中所述预处理后的语料对通用领域预训练好的编码器继续预训练2轮,将预训练好的编码
器Encoder
cont
保存备用。6.根据权利要求5所述的一种基于小样本学习的环...
【专利技术属性】
技术研发人员:张建兵,王久亮,褚有刚,黄书剑,戴新宇,陈家骏,
申请(专利权)人:南京大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。