实体识别模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37974809 阅读:9 留言:0更新日期:2023-06-30 09:50
本申请提供一种实体识别模型训练方法、装置、电子设备及存储介质,所述方法包括:通过根据第一隐藏状态以及第二隐藏状态,确定教师模型对应的第一损失结果;根据第二预测结果以及样本数据,确定初始学生模型对应的第二损失结果;根据第一损失结果以及第二损失结果,确定初始学生模型的目标损失结果,并根据初始学生模型的目标损失结果对初始学生模型进行迭代修正,并将迭代修正结束时的初始学生模型作为待使用的实体识别模型。通过使用教师模型输出的预测结果以及样本数据确定的学生模型的损失结果,使得优化的学生模型预测结果的准确率更高,实现模型的压缩和量化,降低了模型调用的延时,增加了模型的精度。增加了模型的精度。增加了模型的精度。

【技术实现步骤摘要】
实体识别模型训练方法、装置、电子设备及存储介质


[0001]本申请涉及人工智能领域,具体而言,涉及一种实体识别模型训练方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能的发展,近年出现了越来越多的智能对话系统,例如语音助手、克服机器人、对话机器人等。而命名实体识别是智能对话系统的重要部分,命名实体识别也被称为实体抽取或实体提取,智能对话系统需要根据命名实体识别来理解用户的真实意图,因此,命名实体识别是智能对话系统中的重要部分。
[0003]现有技术中,主要是通过文本拼接的方法进行实体的识别,但是在文本拼接之后的计算复杂度会变高,因此,利用文本拼接的方法进行实体的识别的复杂度高。

技术实现思路

[0004]本申请的目的在于,针对上述现有技术中的不足,提供一种实体识别模型训练方法、装置、电子设备及存储介质,实现模型的压缩和量化,降低模型调用的延时,增加模型的精度。
[0005]为实现上述目的,本申请实施例采用的技术方案如下:
[0006]第一方面,本申请实施例提供了一种实体识别模型训练方法,所述方法包括:
[0007]根据预先训练得到的教师模型构建初始学生模型,所述教师模型包括:第一教师子模型以及第二教师子模型,所述第一教师子模型用于进行特征提取,所述第二教师子模型用于进行实体识别,所述初始学生模型包括:第一学生子模型以及第二学生子模型,所述第一学生子模型通过从所述第一教师子模型中抽取预设数量的层得到,所述第二学生子模型的结构与所述第二教师子模型的结构相同
[0008]将多个样本数据输入至所述教师模型,得到所述教师模型输出的第一预测结果,并将所述多个样本数据输入至所述初始学生模型中,得到所述初始学生模型输出的第二预测结果;
[0009]分别确定所述第一预测结果对应的第一隐藏状态以及所述第二预测结果对应的第二隐藏状态;
[0010]根据所述第一隐藏状态以及所述第二隐藏状态,确定所述教师模型对应的第一损失结果;
[0011]根据所述第二预测结果以及所述样本数据,确定所述初始学生模型对应的第二损失结果;
[0012]根据所述第一损失结果以及所述第二损失结果,确定所述初始学生模型的目标损失结果,并根据所述初始学生模型的目标损失结果对所述初始学生模型进行迭代修正,并将迭代修正结束时的初始学生模型作为待使用的实体识别模型。
[0013]可选的,所述第二教师子模型以及所述第二学生子模型分别为指针网络。
[0014]可选的,所述将多个样本数据输入至所述教师模型,得到所述教师模型输出的第一预测结果,包括:
[0015]将所述多个样本数据输入所述第一教师子模型,得到多个第一特征向量;
[0016]将所述多个第一特征向量输入所述第二教师子模型中,由所述第二教师子模型对所述多个第一特征向量进行解码,得到各第一特征向量对应的字,根据各第一特征向量对应的字确定实体的首尾位置,并根据实体的首尾位置对各第一特征向量对应的字进行标注,根据标注结果进行字的拼接处理,得到目标实体,将所述目标实体作为所述第一预测结果进行输出。
[0017]可选的,根据各第一特征向量对应的字确定实体的首尾位置,还包括:
[0018]根据各第一特征向量、预设的向量矩阵、预设的激活函数,确定各第一特征向量对应的字为实体的首位置的第一概率以及为实体的尾位置的第二概率;
[0019]根据所述第一概率、所述第二概率以及预设阈值,确定各第一特征向量对应的字是否为实体的首位置或尾位置。
[0020]可选的,根据实体的首尾位置对各第一特征向量对应的字进行标注,包括:
[0021]若所述第一特征向量对应的字为实体的首位置或尾位置,则使用第一预设数值将所述位置对应的字进行标注;
[0022]若所述第一特征向量对应的字不为实体的首位置以及尾位置,则使用第二预设数值将所述位置对应的字进行标注。
[0023]可选的,根据标注结果进行字的拼接处理,得到目标实体,包括:
[0024]从所述第一特征向量对应的字中查找首个标注为第一预设数值的第一字,将所述第一字作为目标实体的首位置;
[0025]从所述第一特征向量对应的字中查找距离所述第一字最近且标注为第一预设数值的第二字,将所述第二字作为目标实体的尾位置;
[0026]将所述第一字和第二字拼接为所述目标实体。
[0027]可选的,根据所述第一损失结果以及所述第二损失结果,确定所述初始学生模型的目标损失结果,包括:
[0028]对第一损失结果以及第二损失结果进行加权计算,得到所述目标损失结果。
[0029]第二方面,本申请实施例还提供了一种实体识别模型训练装置,所述装置包括:
[0030]构建模块,用于根据预先训练得到的教师模型构建初始学生模型,所述教师模型包括:第一教师子模型以及第二教师子模型,所述第一教师子模型用于进行特征提取,所述第二教师子模型用于进行实体识别,所述初始学生模型包括:第一学生子模型以及第二学生子模型,所述第一学生子模型通过从所述第一教师子模型中抽取预设数量的层得到,所述第二学生子模型的结构与所述第二教师子模型的结构相同;
[0031]输入模块,用于将多个样本数据输入至所述教师模型,得到所述教师模型输出的第一预测结果,并将所述多个样本数据输入至所述初始学生模型中,得到所述初始学生模型输出的第二预测结果;
[0032]确定模块,用于分别确定所述第一预测结果对应的第一隐藏状态以及所述第二预测结果对应的第二隐藏状态;
[0033]确定模块,用于根据所述第一隐藏状态以及所述第二隐藏状态,确定所述教师模
型对应的第一损失结果;
[0034]确定模块,用于根据所述第二预测结果以及所述样本数据,确定所述初始学生模型对应的第二损失结果;
[0035]确定模块,用于根据所述第一损失结果以及所述第二损失结果,确定所述初始学生模型的目标损失结果,并根据所述初始学生模型的目标损失结果对所述初始学生模型进行迭代修正,并将迭代修正结束时的初始学生模型作为待使用的实体识别模型。
[0036]可选的,所述第二教师子模型以及所述第二学生子模型分别为指针网络。
[0037]可选的,所述输入模块具体用于:
[0038]将所述多个样本数据输入所述第一教师子模型,得到多个第一特征向量;
[0039]将所述多个第一特征向量输入所述第二教师子模型中,由所述第二教师子模型对所述多个第一特征向量进行解码,得到各第一特征向量对应的字,根据各第一特征向量对应的字确定实体的首尾位置,并根据实体的首尾位置对各第一特征向量对应的字进行标注,根据标注结果进行字的拼接处理,得到目标实体,将所述目标实体作为所述第一预测结果进行输出。
[0040]可选的,所述输入模块具体用于:
[0041]根据各第一特征向量、预设的向量矩阵、预设的激活函数,确定各第一特征向量对应的字为实体的首位置的第一概率以及为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体识别模型训练方法,其特征在于,所述方法包括:根据预先训练得到的教师模型构建初始学生模型,所述教师模型包括:第一教师子模型以及第二教师子模型,所述第一教师子模型用于进行特征提取,所述第二教师子模型用于进行实体识别,所述初始学生模型包括:第一学生子模型以及第二学生子模型,所述第一学生子模型通过从所述第一教师子模型中抽取预设数量的层得到,所述第二学生子模型的结构与所述第二教师子模型的结构相同;将多个样本数据输入至所述教师模型,得到所述教师模型输出的第一预测结果,并将所述多个样本数据输入至所述初始学生模型中,得到所述初始学生模型输出的第二预测结果;分别确定所述第一预测结果对应的第一隐藏状态以及所述第二预测结果对应的第二隐藏状态;根据所述第一隐藏状态以及所述第二隐藏状态,确定所述教师模型对应的第一损失结果;根据所述第二预测结果以及所述样本数据,确定所述初始学生模型对应的第二损失结果;根据所述第一损失结果以及所述第二损失结果,确定所述初始学生模型的目标损失结果,并根据所述初始学生模型的目标损失结果对所述初始学生模型进行迭代修正,并将迭代修正结束时的初始学生模型作为待使用的实体识别模型。2.根据权利要求1所述的实体识别模型训练方法,其特征在于,所述第二教师子模型以及所述第二学生子模型分别为指针网络。3.根据权利要求2所述的方法,其特征在于,所述将多个样本数据输入至所述教师模型,得到所述教师模型输出的第一预测结果,包括:将所述多个样本数据输入所述第一教师子模型,得到多个第一特征向量;将所述多个第一特征向量输入所述第二教师子模型中,由所述第二教师子模型对所述多个第一特征向量进行解码,得到各第一特征向量对应的字,根据各第一特征向量对应的字确定实体的首尾位置,并根据实体的首尾位置对各第一特征向量对应的字进行标注,根据标注结果进行字的拼接处理,得到目标实体,将所述目标实体作为所述第一预测结果进行输出。4.根据权利要求3所述的实体识别模型训练方法,其特征在于,根据各第一特征向量对应的字确定实体的首尾位置,还包括:根据各第一特征向量、预设的向量矩阵、预设的激活函数,确定各第一特征向量对应的字为实体的首位置的第一概率以及为实体的尾位置的第二概率;根据所述第一概率、所述第二概率以及预设阈值,确定各第一特征向量对应的字是否为实体的首位置或尾位置。5.根据权利要求3所述的实体识别模型训练方法,其特征在于,根据实体的首尾位置对各第一特征向量对应的字进行标注,包括:若所述第一特征向量对应的字为实体的首位置或尾位置,则使用第一预设数值将所述位置对应的字进行标注;若所述第一特征向量对应的字...

【专利技术属性】
技术研发人员:高旺杜新凯牛国扬高峰张泽佳朱良奇
申请(专利权)人:阳光保险集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1