一种改进的用于命名实体识别的主动学习方法技术

技术编号：21004210 阅读：59 留言：0更新日期：2019-04-30 21:33

本发明专利技术公开一种改进的用于命名实体识别的主动学习方法，包括：1、获取初始的数据集，将训练集中的实体作为已登录实体存储到实体词库；2、设置模型性能标准，基于初始训练集得到初始模型，判断模型性能是否达标；3、用当前模型对未标注样本进行预测，用实体词库对未标注样本中的已登录实体进行标记，然后在实体粒度上分别从三种情况计算不确定性；4、赋予三种不确定性权重参数，并加权求和作为最终的不确定性；5、将模型对未标注样本的的不确定性进行排序，选择不确定性最高的样本进行标注，并更新训练集和实体词库；6、基于新训练集重新训练模型，并判断模型性能是否达标。本发明专利技术在实体粒度上更加精细和全面地考虑了预测结果的不确定性。

An Improved Active Learning Method for Named Entity Recognition

全部详细技术资料下载

【技术实现步骤摘要】
一种改进的用于命名实体识别的主动学习方法
本专利技术属于自然语言处理领域，尤其涉及一种改进的用于命名实体识别的主动学习方法，进一步涉及一种结合命名实体识别特性对不确定性计算进行改进的主动学习算法，充分利用已标注的样本训练集中的已登录实体作为先验知识，从实体粒度上更加精细和全面地计算预测结果的不确定性，以提高所选择的样本的质量，从而进一步减少所需标注样本的数量、降低人工标注的成本。
技术介绍
主动学习(ActiveLearning)是一种在保证模型达到性能标准的前提下尽可能地减少模型所需标注样本数量、降低人工标注成本的算法，通过迭代训练的方式，每次训练得到新模型后基于一种预设的查询标准从未标注的样本中选择更能提高模型性能、更值得标注的样本进行人工标注，然后用新标注的样本对样本训练集进行更新，并重新训练模型。主动学习算法可以应用于各种领域的各种算法上，通过选择高质量的未标注样本进行标注，能够有效地减少模型达到性能标准时所需的标注样本数量，从而降低人工标注的成本。不确定性是主动学习算法在进行样本的查询和选择时的核心标准，不确定性表示模型对一个样本进行预测时产生的不确定性...

【技术保护点】
1.一种改进的用于命名实体识别的主动学习方法，其特征在于，包括：步骤一：获取初始已标注的样本训练集、已标注的样本验证集和未标注的样本数据集，将已标注的训练集中已被标注出的实体作为已登录实体存储到已登录实体词库中作为对未标注样本的先验知识；步骤二：设置模型性能标准，即终止学习条件，然后基于已标注的样本数据集训练得到初始的命名实体识别模型，判断该模型是否达到模型性能标准，若模型性能达标，则终止学习，否则进入下述步骤三至步骤九，即主动学习算法中的查询‑训练阶段；步骤三：利用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果，并利用已登录实体词库对未标注样本中的已登录实体进行标记...

【技术特征摘要】
1.一种改进的用于命名实体识别的主动学习方法，其特征在于，包括：步骤一：获取初始已标注的样本训练集、已标注的样本验证集和未标注的样本数据集，将已标注的训练集中已被标注出的实体作为已登录实体存储到已登录实体词库中作为对未标注样本的先验知识；步骤二：设置模型性能标准，即终止学习条件，然后基于已标注的样本数据集训练得到初始的命名实体识别模型，判断该模型是否达到模型性能标准，若模型性能达标，则终止学习，否则进入下述步骤三至步骤九，即主动学习算法中的查询-训练阶段；步骤三：利用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果，并利用已登录实体词库对未标注样本中的已登录实体进行标记，然后利用下述步骤四到步骤六在实体粒度上分别从三种情况计算不确定性；步骤四：计算已登录实体识别概率较低的情况下所产生的不确定性；步骤五：计算已登录实体未被正确识别的情况下所产生的不确定性；步骤六：计算未登录实体识别概率较低的情况下所产生的不确定性；步骤七：分别赋予上述步骤得到的三种不确定性一个权重参数，然后进行加权求和，作为最终的整个样本预测结果的不确定性；步骤八：将模型对所有未标注样本的预测结果的不确定性进行排序，选取不确定性最高的部分样本进行人工标注，然后分别对已标注的样本数据集和已登录实体词库进行更新和扩充；步骤九：基于新的已标注的样本训练集重新训练以得到新的模型，然后再次判断模型是否达到模型性能标准，若性能达标，则终止学习，否则重复步骤三至步骤九。2.根据权利要求1所述的一种改进的用于命名实体识别的主动学习算法，其特征在于，所述步骤一中获取初始的已标注的样本训练集、已标注的样本验证集、未标注的样本数据集，其中在已标注的样本训练集中已经出现并被标注出的实体被认为是已登录实体，将所有已登录实体存储到已登录实体词库ED中，作为对未标注样本的先验知识：对于在已标注的样本中出现的已登录实体，如果在未标注的样本中出现了，也应该是同样的实体。3.根据权利要求2所述的一种改进的用于命名实体识别的主动学习算法，其特征在于，所述步骤二中先设定一个模型性能标准作为终止学习的条件，即要求模型能够在已标注的样本验证集上达到预设的性能标准，然后基于已标注的样本训练集训练得到初始的命名实体识别模型，再判断模型的性能是否达到性能标准，若达标，则终止学习，否则进入步骤三至步骤九，即主动学习算法中的查询-训练循环。4.根据权利要求3所述的一种改进的用于命名实体识别的主动学习算法，其特征在于，所述步骤三中用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果，再利用当前的已登录实体词库ED对未标注样本中的已登录实体进行标记，然后利用步骤四到步骤六在实体粒度上分别从以下三种情况计算不确定性：已登录实体识别概率较低的情况、已登录实体未被识别的情况、未登录实体识别概率较低的情况。5.根据权利要求4所述的一种改进的用于命名实体识别的主动学习算法，其特征在于，所述步骤四中对已登录实体识别概率较低的情况所产生的不确定性进行计...

【专利技术属性】
技术研发人员：李焕，李建强，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人