文本模型再训练的方法、装置、设备及存储介质制造方法及图纸

技术编号：29963613 阅读：15 留言：0更新日期：2021-09-08 09:26

本发明专利技术提供了一种文本模型再训练的方法、装置、设备及存储介质，包括：获取各所述弱标注的依据信息；根据所述依据信息拟合各个所述目标弱标注对应的所述无标数据的目标标签；将所述目标标签作为所述目标弱标注对应的所述无标数据的输出，并根据所述损失值调整所述文本模型中的参数。本发明专利技术的有益效果：根据弱标注的损失值以及依据信息拟合目标标签作为无标数据在文本模型中的输出，由于目标标签中目标标签只是对原模型的概率分布进行了调整，故而使误差不会累计，减少了再训练后的文本模型存在识别偏差的概率，使再训练的文本模型更加精确。确。确。

全部详细技术资料下载

【技术实现步骤摘要】
文本模型再训练的方法、装置、设备及存储介质

[0001]本专利技术涉及人工智能领域，特别涉及一种文本模型再训练的方法、装置、设备及存储介质。

技术介绍

[0002]为了提高文本模型弱标注的精确度，一般需要对训练好的文本模型进行再训练，以达到使模型更加精确的效果，目前自动再训练的方法主要是通过计算当前的损失值，并利用当前得到的弱标注和损失值对文本模型进行再训练，然这种再训练方式会随着文本模型不断的迭代训练，使得误差会不断积累，从而对文本模型造成识别偏差的问题。

技术实现思路

[0003]本专利技术的主要目的为提供一种文本模型再训练的方法、装置、设备及存储介质，旨在解决利用当前得到的弱标注和损失值对文本模型进行再训练，导致再训练后的文本模型存在识别偏差的问题。
[0004]本专利技术提供了一种文本模型再训练的方法，包括：
[0005]获取训练后的文本模型，对无标数据集合中的每个无标数据进行弱标注，并获取各所述弱标注的依据信息；其中，所述依据信息为无标数据在所述训练后的文本模型中的各预设类别的概率分布；
[0006]根据所述依据信息计算每一个所述弱标注的第一预测置信度；
[0007]判断所述第一预测置信度是否大于预设置信度值；
[0008]若大于所述预设置信度值，则计算所述目标弱标注的损失值，以及根据所述依据信息拟合各个所述目标弱标注对应的所述无标数据的目标标签；
[0009]将所述目标标签作为所述目标弱标注对应的所述无标数据的输出，将所述无标数据集合作为所述...

【技术保护点】

【技术特征摘要】
1.一种文本模型再训练的方法，其特征在于，包括：获取训练后的文本模型，对无标数据集合中的每个无标数据进行弱标注，并获取各所述弱标注的依据信息；其中，所述依据信息为无标数据在所述训练后的文本模型中的各预设类别的概率分布；根据所述依据信息计算每一个所述弱标注的第一预测置信度；判断所述第一预测置信度是否大于预设置信度值；从各所述弱标注中提取大于所述预设置信度值的目标弱标注，并计算所述目标弱标注的损失值，以及根据所述依据信息拟合各个所述目标弱标注对应的所述无标数据的目标标签；将所述目标标签作为所述目标弱标注对应的所述无标数据的输出，将所述无标数据集合作为所述文本模型的输入，并根据所述损失值调整所述文本模型中的参数，以对所述文本模型再训练。2.如权利要求1所述的文本模型再训练的方法，其特征在于，所述根据所述依据信息计算每一个所述弱标注的第一预测置信度的步骤，包括：从所述依据信息中提取所述无标数据在所述文本模型中各个类别的概率；根据公式计算所述第一预测置信度；其中，E表示所述第一预测置信度，p
i
表示第i个所述无标数据在所述文本模型中对应弱标注的概率，n表示所述无标数据集合的无标数据数量。3.如权利要求1所述的文本模型再训练的方法，其特征在于，所述计算所述目标弱标注的损失值的步骤，包括：获取所述无标数据集合中每个所述目标弱标注对应的所述无标数据的数据向量；根据所述数据向量计算每两个所述数据向量之间的欧式距离；根据所述欧式距离以及公式计算所述损失值，其中d
ij
表示第i个无标数据和第j个无标数据对应数据向量之间的欧式距离，V
i
表示第i个数据对应的数据向量，V
j
表示第j个数据对应的数据向量，γ为常数，max(0，γ
‑
d
ij
)表示两者之间的最大值。4.如权利要求1所述的文本模型再训练的方法，其特征在于，所述将所述目标标签作为所述目标弱标注对应的所述无标数据的输出，将所述无标数据集合作为所述文本模型的输入，并根据所述损失值调整所述文本模型中的参数，以对所述文本模型再训练的步骤之后，还包括：根据再训练后的所述文本模型对所述无标数据集合进行弱标注，并获取当前所述文本模型进行弱标注的依据信息；根据当前所述文本模型进行弱标注的依据信息计算所述弱标注的第二预测置信度；判断所述第二预测置信度是否大于预设置信度值；
若所述第二预测置信度不大于所述预设置信度值，则判定所述文本模型再训练完成。...

【专利技术属性】
技术研发人员：黄海龙，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人