命名实体识别的模型训练及识别方法、装置和存储介质制造方法及图纸

技术编号：39150817 阅读：9 留言：0更新日期：2023-10-23 14:58

本申请公开了一种命名实体识别的模型训练及识别方法、装置和存储介质。该训练方法包括：基于规则库对训练集中的数据样本进行标注，得到数据样本的第一标注名称；基于数据样本和相应的第一标注名称，对初始的NER模型进行训练；基于训练后的NER模型对训练集中的数据样本进行预测，对各数据样本基于预测的实体名称以及中间结果进行聚类，并基于聚类结果确定各数据样本的第二标注名称；基于数据样本和相应的第二标注名称，对NER模型继续训练，直至聚类结果满足收敛条件，得到训练好的NER模型。既可以利用规则库实现样本的自动标注，还可以基于聚类对预测结果进行校准和后续模型的优化训练，可以有效改善NER模型的训练效果。可以有效改善NER模型的训练效果。可以有效改善NER模型的训练效果。

全部详细技术资料下载

【技术实现步骤摘要】
命名实体识别的模型训练及识别方法、装置和存储介质

[0001]本申请涉及人工智能领域，尤其涉及一种命名实体识别的模型训练及识别方法、装置和存储介质。

技术介绍

[0002]命名实体识别(Named Entity Recognition，NER)任务是对文本中的命名实体进行定位并划分为预定义的实体类别的过程。命名实体的类别主要包括人名、地名、机构名、媒体资源名、专有名等。NER任务是许多自然语言应用的基础，例如，问答、文本摘要和机器翻译等。
[0003]随着网络及相关技术的发展，媒体资源具有数量庞大、实时更新并且没有相关的标注数据集等特点。针对这一特定领域的命名实体识别任务，现有的技术并不能取得满意的效果。媒体资源数据的更新迭代较快，且不同频道的媒体资源数据特点存在较大差异，如影视类的媒体资源的名称命名与教育、体育等频道差异较大，基于规则的方法无法涵盖所有的语法规则和词典。缺少标注数据，基于深度学习的方法无法进行学习。缺少媒体资源名称的高质量表示，基于聚类的方法无法获得较好的结果。

技术实现思路

[0004]有鉴于此，本申请实施例提供了一种命名实体识别的模型训练及识别方法、装置和存储介质，旨在提高媒体资源领域的实体名称识别性能。
[0005]本申请实施例的技术方案是这样实现的：
[0006]本申请实施例提供了一种命名实体识别的模型训练方法，包括：
[0007]基于规则库对训练集中的数据样本进行标注，得到所述数据样本的第一标注名称；
[0008]基于所述数据样本和相...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别的模型训练方法，其特征在于，包括：基于规则库对训练集中的数据样本进行标注，得到所述数据样本的第一标注名称；基于所述数据样本和相应的所述第一标注名称，对初始的命名实体识别NER模型进行训练；基于训练后的NER模型对所述训练集中的数据样本进行预测，对各所述数据样本基于预测的实体名称以及中间结果进行聚类，并基于聚类结果确定各所述数据样本的第二标注名称；基于所述数据样本和相应的所述第二标注名称，对所述NER模型继续训练，并执行所述基于训练后的NER模型对所述训练集中的数据样本进行预测，对各所述数据样本基于预测的实体名称以及中间结果进行聚类；若所述聚类结果不满足收敛条件，则执行所述基于聚类结果确定各所述数据样本的第二标注名称和所述基于所述数据样本和相应的所述第二标注名称，对所述NER模型继续训练，直至所述聚类结果满足收敛条件，得到训练好的NER模型。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取所述数据样本的属性特征；相应地，所述对各所述数据样本基于预测的实体名称以及中间结果进行聚类，并基于聚类结果确定各所述数据样本的第二标注名称，包括：基于所述数据样本的预测的实体名称、中间结果及所述属性特征进行聚类处理，得到聚类后的簇；将各簇的簇中心所在的数据样本的预测的实体名称确定为相应簇的所有数据样本的第二标注名称。3.根据权利要求2所述的方法，其特征在于，所述数据样本为媒体资源名称，所述属性特征包括以下至少之一：媒体资源的海报信息、媒体资源年份信息、媒体资源类型和媒体资源的演员信息。4.根据权利要求2所述的方法，其特征在于，所述基于所述数据样本的预测的实体名称、中间结果及所述属性特征进行聚类处理，得到聚类后的簇，包括：基于所述数据样本的预测的实体名称、中间结果及所述属性特征进行编码转换，得到表示所述数据样本的特征向量；对各所述数据样本的特征向量基于相似度进行聚类处理，得到聚类后的簇。5.根据权利要求1所述的方法，其特征在于，所述聚类结果满足收敛条件，包括：基于训练集中各所述数据样本距离所属簇的簇中心的误差平方和确定聚类收敛且簇内各数据样本的预测的实体名称相同。6.根据权利要求1所述的方法，其特征在于，所述规则库包括以下至少之一：白名单、过滤规则和转换规则，所述基于规则库对训练集中的数据样本进行标注，包括以下至少之一：基于白名单对所述数据样本进行匹配，若匹配成功，则将匹配的实体名称作为所述...

【专利技术属性】
技术研发人员：孔维莲，曾海涛，邓超，冯俊兰，
申请(专利权)人：中国移动通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人