一种改进的用于命名实体识别的主动学习方法技术

技术编号:21004210 阅读:40 留言:0更新日期:2019-04-30 21:33
本发明专利技术公开一种改进的用于命名实体识别的主动学习方法,包括:1、获取初始的数据集,将训练集中的实体作为已登录实体存储到实体词库;2、设置模型性能标准,基于初始训练集得到初始模型,判断模型性能是否达标;3、用当前模型对未标注样本进行预测,用实体词库对未标注样本中的已登录实体进行标记,然后在实体粒度上分别从三种情况计算不确定性;4、赋予三种不确定性权重参数,并加权求和作为最终的不确定性;5、将模型对未标注样本的的不确定性进行排序,选择不确定性最高的样本进行标注,并更新训练集和实体词库;6、基于新训练集重新训练模型,并判断模型性能是否达标。本发明专利技术在实体粒度上更加精细和全面地考虑了预测结果的不确定性。

An Improved Active Learning Method for Named Entity Recognition

【技术实现步骤摘要】
一种改进的用于命名实体识别的主动学习方法
本专利技术属于自然语言处理领域,尤其涉及一种改进的用于命名实体识别的主动学习方法,进一步涉及一种结合命名实体识别特性对不确定性计算进行改进的主动学习算法,充分利用已标注的样本训练集中的已登录实体作为先验知识,从实体粒度上更加精细和全面地计算预测结果的不确定性,以提高所选择的样本的质量,从而进一步减少所需标注样本的数量、降低人工标注的成本。
技术介绍
主动学习(ActiveLearning)是一种在保证模型达到性能标准的前提下尽可能地减少模型所需标注样本数量、降低人工标注成本的算法,通过迭代训练的方式,每次训练得到新模型后基于一种预设的查询标准从未标注的样本中选择更能提高模型性能、更值得标注的样本进行人工标注,然后用新标注的样本对样本训练集进行更新,并重新训练模型。主动学习算法可以应用于各种领域的各种算法上,通过选择高质量的未标注样本进行标注,能够有效地减少模型达到性能标准时所需的标注样本数量,从而降低人工标注的成本。不确定性是主动学习算法在进行样本的查询和选择时的核心标准,不确定性表示模型对一个样本进行预测时产生的不确定性,预测概率越低,不确定性越高,而基于信息论的基本思想,样本的不确定性与其所蕴含的信息量成正比,而样本的信息量又与该样本对模型的价值、对该样本进行人工标注的必要性成正比。命名实体识别(NamedEntityRecognition)是一种自然语言处理技术,能够从文本中识别出关键的实体或者术语,将自然语言文本中的重要信息表达出来,以帮助人们快速理解文本中的语义信息。命名实体识别任务最早是利用基于字典和规则的方法解决的,自从21世纪以来,基于大规模语料库的统计方法逐步成为自然语言处理的主流,一大批基于统计的机器学习方法被成功地应用于命名实体识别中,比如隐马尔可夫模型(HMM)、最大熵马尔科夫模型(ME)、条件随机场模型(CRF)。而近年来,随着深度学习模型和硬件能力的快速发展,以及标注样本数据集的进一步扩大,深度学习模型也在命名实体识别上取得了优越的性能。基于机器学习和深度学习的命名实体识别方法相对于以往的基于字典和规则的方法而言,都对标注样本数量提出了更高的需求,而样本的标注不仅耗时,而且需要大量的人力和财力,尤其是命名实体识别这种复杂的监督学习任务,其所需样本的人工标注成本更高,如何使命名实体识别模型性能达到性能标准的前提下尽可能地减少所需的标注样本数量成了一个亟待解决的问题。目前将主动学习算法应用于命名实体识别任务上已经得到了一系列的研究,已有的方法中将主动学习算法与机器学习方法或者深度学习方法结合应用于命名实体识别中时,能够大幅度地减少模型所需的标注样本数量、有效地降低人工标注成本。但是已有的方法在计算预测结果的不确定性的时候只考虑了模型对整个样本序列的预测概率,而没有充分考虑样本序列中具体实体的预测情况。
技术实现思路
本专利技术针对现有技术中存在的不足之处,提出一种改进的用于命名实体识别的主动学习算法。具体而言,是充分考虑模型对样本序列中具体实体的预测情况,在实体粒度上更加精细和全面地考虑不确定性,将已标注的样本训练集中已经被标注出的实体视为已登录实体,作为对未标注样本的先验知识,在主动学习的样本查询阶段对未标注样本中的已登录实体进行标记,用当前模型对未标注样本进行预测并获取对样本中实体的预测概率后,基于以下三种情况分别考虑预测结果的不确定性:已登录实体识别概率较低的情况、已登录实体未被识别的情况、未登录实体识别概率较低的情况,基于以上三种情况分别计算得到一个不确定性,然后赋予这三种不确定性一个权重参数,再进行加权求和以得到最终的不确定性。这种改进方法相对于已有的方法主要有两个优点:首先,能够在实体粒度上更加精细和全面地计算不确定性,其次,对三种情况的不确定性加权求和的时候,可以通过调整权重参数使最终的不确定性倾向于某类不确定性,从而在选择样本进行标注时更倾向于选择能够降低该类不确定性的样本,相对已有的方法更加灵活和可控。本专利技术采用如下技术方案:步骤一:获取初始已标注的样本训练集、已标注的样本验证集和未标注的样本数据集,将已标注的训练集中已被标注出的实体作为已登录实体存储到已登录实体词库中作为对未标注样本的先验知识;步骤二:设置模型性能标准,即终止学习条件,然后基于已标注的样本数据集训练得到初始的命名实体识别模型,判断该模型是否达到模型性能标准,若模型性能达标,则终止学习,否则进入下述步骤三至步骤九,即主动学习算法中的查询-训练阶段;步骤三:利用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果,并利用已登录实体词库对未标注样本中的已登录实体进行标记,然后利用下述步骤四到步骤六在实体粒度上分别从三种情况计算不确定性;步骤四:计算已登录实体识别概率较低的情况下所产生的不确定性;步骤五:计算已登录实体未被正确识别的情况下所产生的不确定性;步骤六:计算未登录实体识别概率较低的情况下所产生的不确定性;步骤七:分别赋予上述步骤得到的三种不确定性一个权重参数,然后进行加权求和,作为最终的整个样本预测结果的不确定性;步骤八:将模型对所有未标注样本的预测结果的不确定性进行排序,选取不确定性最高的部分样本进行人工标注,然后分别对已标注的样本数据集和已登录实体词库进行更新和扩充;步骤九:基于新的已标注的样本训练集重新训练以得到新的模型,然后再次判断模型是否达到模型性能标准,若性能达标,则终止学习,否则重复步骤三至步骤九;本专利技术所述的一种改进的用于命名实体识别的主动学习算法特征也在于:所述步骤一中获取初始已标注的样本训练集、已标注的样本验证集和未标注的样本数据集,将已标注的训练集中已被标注出的实体作为已登录实体存储到已登录实体词库中作为对未标注样本的先验知识:初始的数据集包括已标注的样本训练集、已标注的样本验证集为、未标注的样本数据集;在已标注的样本训练集中已经出现并被标注出的实体被认为是已登录实体,将所有已登录实体存储到已登录实体词库ED中,作为对未标注样本的先验知识:对于在已标注的样本中出现过的已登录实体,如果在未标注的样本中出现了,也应该是同样的实体。所述步骤二中设置模型性能标准,即终止学习条件,然后基于已标注的样本数据集训练得到初始的命名实体识别模型,判断该模型是否达到模型性能标准,若模型性能达标,则终止学习,否则进入下述步骤三至步骤九,即主动学习算法中的查询-训练阶段:先设定一个模型性能标准作为终止学习的条件,即要求模型能够在已标注的样本验证集上达到预设的性能标准;基于已标注的样本训练集训练得到初始的命名实体识别模型,再判断模型的性能是否达到性能标准,若达标,则终止学习,否则进入步骤三至步骤九,即主动学习算法中的查询-训练循环中。所述步骤三中利用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果,并利用已登录实体词库对未标注样本中的已登录实体进行标记,然后利用下述步骤四到步骤六在实体粒度上分别从三种情况计算不确定性:用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果;利用当前的已登录实体词库ED对未标注样本中的已登录实体进行标记;利用步骤四到步骤六在实体粒度上分别从以下三种情况计算本文档来自技高网
...

【技术保护点】
1.一种改进的用于命名实体识别的主动学习方法,其特征在于,包括:步骤一:获取初始已标注的样本训练集、已标注的样本验证集和未标注的样本数据集,将已标注的训练集中已被标注出的实体作为已登录实体存储到已登录实体词库中作为对未标注样本的先验知识;步骤二:设置模型性能标准,即终止学习条件,然后基于已标注的样本数据集训练得到初始的命名实体识别模型,判断该模型是否达到模型性能标准,若模型性能达标,则终止学习,否则进入下述步骤三至步骤九,即主动学习算法中的查询‑训练阶段;步骤三:利用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果,并利用已登录实体词库对未标注样本中的已登录实体进行标记,然后利用下述步骤四到步骤六在实体粒度上分别从三种情况计算不确定性;步骤四:计算已登录实体识别概率较低的情况下所产生的不确定性;步骤五:计算已登录实体未被正确识别的情况下所产生的不确定性;步骤六:计算未登录实体识别概率较低的情况下所产生的不确定性;步骤七:分别赋予上述步骤得到的三种不确定性一个权重参数,然后进行加权求和,作为最终的整个样本预测结果的不确定性;步骤八:将模型对所有未标注样本的预测结果的不确定性进行排序,选取不确定性最高的部分样本进行人工标注,然后分别对已标注的样本数据集和已登录实体词库进行更新和扩充;步骤九:基于新的已标注的样本训练集重新训练以得到新的模型,然后再次判断模型是否达到模型性能标准,若性能达标,则终止学习,否则重复步骤三至步骤九。...

【技术特征摘要】
1.一种改进的用于命名实体识别的主动学习方法,其特征在于,包括:步骤一:获取初始已标注的样本训练集、已标注的样本验证集和未标注的样本数据集,将已标注的训练集中已被标注出的实体作为已登录实体存储到已登录实体词库中作为对未标注样本的先验知识;步骤二:设置模型性能标准,即终止学习条件,然后基于已标注的样本数据集训练得到初始的命名实体识别模型,判断该模型是否达到模型性能标准,若模型性能达标,则终止学习,否则进入下述步骤三至步骤九,即主动学习算法中的查询-训练阶段;步骤三:利用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果,并利用已登录实体词库对未标注样本中的已登录实体进行标记,然后利用下述步骤四到步骤六在实体粒度上分别从三种情况计算不确定性;步骤四:计算已登录实体识别概率较低的情况下所产生的不确定性;步骤五:计算已登录实体未被正确识别的情况下所产生的不确定性;步骤六:计算未登录实体识别概率较低的情况下所产生的不确定性;步骤七:分别赋予上述步骤得到的三种不确定性一个权重参数,然后进行加权求和,作为最终的整个样本预测结果的不确定性;步骤八:将模型对所有未标注样本的预测结果的不确定性进行排序,选取不确定性最高的部分样本进行人工标注,然后分别对已标注的样本数据集和已登录实体词库进行更新和扩充;步骤九:基于新的已标注的样本训练集重新训练以得到新的模型,然后再次判断模型是否达到模型性能标准,若性能达标,则终止学习,否则重复步骤三至步骤九。2.根据权利要求1所述的一种改进的用于命名实体识别的主动学习算法,其特征在于,所述步骤一中获取初始的已标注的样本训练集、已标注的样本验证集、未标注的样本数据集,其中在已标注的样本训练集中已经出现并被标注出的实体被认为是已登录实体,将所有已登录实体存储到已登录实体词库ED中,作为对未标注样本的先验知识:对于在已标注的样本中出现的已登录实体,如果在未标注的样本中出现了,也应该是同样的实体。3.根据权利要求2所述的一种改进的用于命名实体识别的主动学习算法,其特征在于,所述步骤二中先设定一个模型性能标准作为终止学习的条件,即要求模型能够在已标注的样本验证集上达到预设的性能标准,然后基于已标注的样本训练集训练得到初始的命名实体识别模型,再判断模型的性能是否达到性能标准,若达标,则终止学习,否则进入步骤三至步骤九,即主动学习算法中的查询-训练循环。4.根据权利要求3所述的一种改进的用于命名实体识别的主动学习算法,其特征在于,所述步骤三中用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果,再利用当前的已登录实体词库ED对未标注样本中的已登录实体进行标记,然后利用步骤四到步骤六在实体粒度上分别从以下三种情况计算不确定性:已登录实体识别概率较低的情况、已登录实体未被识别的情况、未登录实体识别概率较低的情况。5.根据权利要求4所述的一种改进的用于命名实体识别的主动学习算法,其特征在于,所述步骤四中对已登录实体识别概率较低的情况所产生的不确定性进行计...

【专利技术属性】
技术研发人员:李焕李建强
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1