一种命名实体模型的训练方法、装置、终端及存储介质制造方法及图纸

技术编号:37490843 阅读:15 留言:0更新日期:2023-05-07 09:29
本发明专利技术提供一种命名实体模型的训练方法、装置、终端及存储介质,命名实体模型的训练方法包括:获取训练数据集;通过第一模型对第二文本数据进行标签预测,得到带有伪标签的第二文本数据;通过第二模型对第一文本数据和第二文本数据分别进行实体预测,得到第一文本数据和第二文本数据分别对应的预测标签;基于同一第一文本数据的预测标签和标注信息之间的误差值以及同一第二文本数据的预测标签和伪标签之间的误差值迭代训练第二模型;基于训练后的第二模型的模型参数对第一模型的模型参数进行动量更新,将训练得到的第一模型作为命名实体模型。本申请中两个模型之间相互矫正,可以有效缓解伪标签的噪声问题,可以提高模型的识别准确率。识别准确率。识别准确率。

【技术实现步骤摘要】
一种命名实体模型的训练方法、装置、终端及存储介质


[0001]本专利技术涉及人工智能的自然语言处理
,特别是涉及一种命名实体模型的训练方法、装置、终端及计算机可读存储介质。

技术介绍

[0002]命名实体识别(Named Entity Recognition,NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等)是自然语言处理领域的基础任务,属于信息抽取任务,具体是指从非结构化文本中提取具有特定含义的实体(或称专有名词,如人名、机构名、地址、时间等),实体通过文本位置和实体类型唯一确定。
[0003]目前,基于深度学习的神经网络方法是解决命名实体识别的有效方法,但神经网络结构复杂、参数规模大,需要大量经人工标注的训练语料。一般来说,标注的训练语料越多、多样性越强、标注质量越高,神经网络模型的准确性和泛化性越强。这对标注人员的领域性和专业性提出了较高的要求,而且大量重复的标注工作也容易产生人为误差,难以保证标注正确性和规范性,导致数据质量低下。

技术实现思路

[0004]本专利技术主要解决的技术问题是提供一种命名实体模型的训练方法、装置、终端及计算机可读存储介质,解决现有技术中模型的识别准确率低的问题。
[0005]为解决上述技术问题,本专利技术采用的第一个技术方案是:提供一种命名实体模型的训练方法,命名实体模型的训练方法包括:获取训练数据集,训练数据集包括标注文本数据集和未标注文本数据集;标注文本数据集包括多个具有标注信息的第一文本数据,未标注文本数据集包括多个未标注的第二文本数据;根据标注文本数据集对初始参数模型进行训练;通过第一模型对第二文本数据进行标签预测,得到带有伪标签的第二文本数据;第一模型的模型参数与训练得到的初始参数模型的模型参数相同;通过第二模型对第一文本数据和第二文本数据分别进行实体预测,得到第一文本数据和第二文本数据分别对应的预测标签;第二模型的模型参数与训练得到的初始参数模型的模型参数相同,且第二模型与第一模型的结构相同、模型参数的优化算法不同;基于同一第一文本数据的预测标签和标注信息之间的误差值以及同一第二文本数据的预测标签和伪标签之间的误差值迭代训练第二模型;基于训练后的第二模型的模型参数对第一模型的模型参数进行动量更新,将训练得到的第一模型作为命名实体模型。
[0006]其中,第二模型的模型参数学习算法为随机梯度下降算法,第一模型的模型参数学习算法为动量优化法。
[0007]其中,初始参数模型包括文本编码模块和实体识别模块,文本编码模块与实体识别模块连接;根据标注文本数据集对初始参数模型进行训练,包括:通过文本编码模块对第一文本数据中的词语进行检测,得到第一文本数据对应每个词语对应的向量;通过实体识别模块对每个词语对应的向量进行实体预测,得到每个词语对应的预测信息;基于第一文
本数据中每个词语对应的标注信息和预测信息之间的误差值迭代训练初始参数模型。
[0008]其中,通过第一模型对第二文本数据进行标签预测,得到带有伪标签的第二文本数据,包括:通过第一模型对第二文本数据中每个词语进行标签预测,得到第二文本数据中每个词语对应的标签信息;基于每个词语分别对应的标签信息,确定第二文本数据的伪标签信息。
[0009]其中,标签信息包括推测标签和推测置信度;基于每个词语分别对应的标签信息,确定第二文本数据的伪标签信息,包括:基于每个词语的推测标签,确定第二文本数据对应的候选实体;基于候选实体对应的词语的推测置信度,确定候选实体对应的实体置信度;响应于候选实体的实体置信度大于预设置信度,则保留候选实体,并将候选实体对应的词语的推测标签确定为第二文本数据的伪标签信息。
[0010]其中,推测标签具有第一标识符和第二标识符中的一个;第一标识符表示实体的第一个词语;第二标识符表示实体的其他词语;基于每个词语的推测标签,确定第二文本数据对应的候选实体,包括:将第一标识符对应的词语确定为起始字段;响应于当前起始字段之后还有下一起始字段,则将在当前起始字段之后且在下一起始字段之前的所有词语中最后一个第二标识符对应的词语确定为结束字段;响应于当前起始字段为最后一个起始字段,则将在当前起始字段之后最后一个第二标识符对应的词语确定为结束字段;将起始字段、对应的结束字段及其之间的词语,确定为第二文本数据对应的一候选实体。
[0011]其中,基于同一第一文本数据的预测标签和标注信息之间的误差值以及同一第二文本数据的预测标签和伪标签之间的误差值迭代训练第二模型,包括:基于同一第一文本数据中各词语对应的预测标签与标注信息之间的误差值、同一第二文本数据中保留的候选实体对应的各词语的推测标签与预测标签之间的误差值迭代训练第二模型。
[0012]其中,基于训练后的第二模型的模型参数对第一模型的模型参数进行动量更新,将训练得到的第一模型作为命名实体模型,包括:基于当前迭代训练前第二模型的模型参数以及当前迭代训练时第二模型对应的误差值,确定当前迭代训练后第二模型的模型参数;基于当前迭代训练后第二模型的模型参数、当前迭代训练前第一模型的模型参数以及预设动量系数,确定当前迭代训练后第一模型的模型参数;响应于第一模型对应的迭代次数达到预设次数,则将训练完成后的第一模型作为命名实体模型。
[0013]为解决上述技术问题,本专利技术采用的第二个技术方案是:提供一种命名实体模型的训练装置包括:获取模块,用于获取训练数据集,训练数据集包括标注文本数据集和未标注文本数据集;标注文本数据集包括多个具有标注信息的第一文本数据,未标注文本数据集包括多个未标注的第二文本数据;第一训练模块,用于根据标注文本数据集对初始参数模型进行训练;第一预测模块,用于通过第一模型对第二文本数据进行标签预测,得到带有伪标签的第二文本数据;第一模型的模型参数与训练得到的初始参数模型的模型参数相同;第二预测模块,用于通过第二模型对第一文本数据和第二文本数据分别进行实体预测,得到第一文本数据和第二文本数据分别对应的预测标签;第二模型的模型参数与训练得到的初始参数模型的模型参数相同,且第二模型与第一模型的结构相同、模型参数的优化算法不同;第二训练模块,用于基于同一第一文本数据的预测标签和标注信息之间的误差值以及同一第二文本数据的预测标签和伪标签之间的误差值迭代训练第二模型;更新模块,用于基于训练后的第二模型的模型参数对第一模型的模型参数进行动量更新,将训练得到
的第一模型作为命名实体模型。
[0014]为解决上述技术问题,本专利技术采用的第三个技术方案是:提供一种终端,终端包括存储器、处理器以及存储于存储器中并在处理器上运行的计算机程序,处理器用于执行程序数据以实现上述的命名实体模型的训练方法中的步骤。
[0015]为解决上述技术问题,本专利技术采用的第四个技术方案是:提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述的命名实体模型的训练方法中的步骤。
[0016]本专利技术的有益效果是:区别于现有技术的情况本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种命名实体模型的训练方法,其特征在于,所述命名实体模型的训练方法包括:获取训练数据集,所述训练数据集包括标注文本数据集和未标注文本数据集;所述标注文本数据集包括多个具有标注信息的第一文本数据,所述未标注文本数据集包括多个未标注的第二文本数据;根据所述标注文本数据集对初始参数模型进行训练;通过第一模型对所述第二文本数据进行标签预测,得到带有伪标签的所述第二文本数据;所述第一模型的模型参数与训练得到的所述初始参数模型的模型参数相同;通过第二模型对所述第一文本数据和所述第二文本数据分别进行实体预测,得到所述第一文本数据和所述第二文本数据分别对应的预测标签;所述第二模型的模型参数与训练得到的所述初始参数模型的模型参数相同,所述第二模型与所述第一模型的结构相同、所述模型参数的优化算法不同;基于同一所述第一文本数据的预测标签和所述标注信息之间的误差值以及同一所述第二文本数据的预测标签和所述伪标签之间的误差值迭代训练所述第二模型;基于训练后的所述第二模型的模型参数对所述第一模型的模型参数进行动量更新,将训练得到的所述第一模型作为所述命名实体模型。2.根据权利要求1所述的命名实体模型的训练方法,其特征在于,所述第二模型的模型参数学习算法为随机梯度下降算法,所述第一模型的模型参数学习算法为动量优化法。3.根据权利要求1所述的命名实体模型的训练方法,其特征在于,所述初始参数模型包括文本编码模块和实体识别模块,所述文本编码模块与所述实体识别模块连接;所述根据所述标注文本数据集对初始参数模型进行训练,包括:通过所述文本编码模块对所述第一文本数据中的词语进行检测,得到所述第一文本数据对应每个所述词语对应的向量;通过所述实体识别模块对每个所述词语对应的向量进行实体预测,得到每个所述词语对应的预测信息;基于所述第一文本数据中每个所述词语对应的所述标注信息和所述预测信息之间的误差值迭代训练所述初始参数模型。4.根据权利要求1所述的命名实体模型的训练方法,其特征在于,所述通过第一模型对所述第二文本数据进行标签预测,得到带有伪标签的所述第二文本数据,包括:通过所述第一模型对所述第二文本数据中每个词语进行标签预测,得到所述第二文本数据中每个所述词语对应的标签信息;基于每个所述词语分别对应的所述标签信息,确定所述第二文本数据的伪标签信息。5.根据权利要求4所述的命名实体模型的训练方法,其特征在于,所述标签信息包括推测标签和推测置信度;所述基于每个所述词语分别对应的所述标签信息,确定所述第二文本数据的伪标签信息,包括:基于每个所述词语的推测标签,确定所述第二文本数据对应的候选实体;基于所述候选实体对应的所述词语的推测置信度,确定所述候选实体对应的实体置信度;
响应于所述候选实体的实体置信度大于预设置信度,则保留所述候选实体,并将所述候选实体对应的所述词语的推测标签确定为所述第二文本数据的伪标签信息。6.根据权利要求5所述的命名实体模型的训练方法,其特征在于,所述推测标签具有第一标识符和第二标识符中的一个;所述第一标识符表示实体的第一个词语;所述第二标识符表示实体的其他词语;所述基于每个所述词语的推测标签,确定所述第二文本数据对应的候选实体,包括:将所述第一标识符对应的所述词语确定为起始字段;响应于当前起始字段之后还有下一起始字段,则将在所述...

【专利技术属性】
技术研发人员:徐耀彬刘伟棠陈立力周明伟
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1