【技术实现步骤摘要】
文本分类模型的更新方法及系统、电子设备及存储介质
本专利技术涉及信息
,特别涉及一种文本分类模型的更新方法及系统、电子设备及存储介质。
技术介绍
随着人工智能技术的发展,很多原来由人工完成的工作现在逐步被模型所替代,例如投诉分析系统、细粒度情感分析系统等。训练集有标注错误或者训练集样本不全等原因可能导致模型上线后有一些误判的样本。如果能不断地收集、甄别并利用这部分样本,让模型进一步学习,模型的准确率和召回率也会不断地提高。但是,当前缺乏一套流程化、规范化的系统以高效完成以上工作。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中的上述缺陷,提供一种文本分类模型的更新方法及系统、电子设备及存储介质。本专利技术是通过下述技术方案来解决上述技术问题:本专利技术的第一方面提供一种文本分类模型的更新方法,包括:利用目标文本分类模型对网页文本进行分类,并将分类结果展示于前端页面;若接收到用户对所述分类结果执行的质疑操作,则将所述网页文本以及对所述网页文本进行人工标注的 ...
【技术保护点】
1.一种文本分类模型的更新方法,其特征在于,包括:/n利用目标文本分类模型对网页文本进行分类,并将分类结果展示于前端页面;/n若接收到用户对所述分类结果执行的质疑操作,则将所述网页文本以及对所述网页文本进行人工标注的分类结果作为新增样本;/n将包括原有训练集和所述新增样本的数据集划分为训练集、测试集和验证集,重新训练文本分类模型;其中,所述原有训练集为训练所述目标文本分类模型所使用的训练集;/n根据文本分类模型在训练集、测试集以及验证集上的F1值筛选最佳模型,并将所述目标文本分类模型更新为所述最佳模型。/n
【技术特征摘要】
1.一种文本分类模型的更新方法,其特征在于,包括:
利用目标文本分类模型对网页文本进行分类,并将分类结果展示于前端页面;
若接收到用户对所述分类结果执行的质疑操作,则将所述网页文本以及对所述网页文本进行人工标注的分类结果作为新增样本;
将包括原有训练集和所述新增样本的数据集划分为训练集、测试集和验证集,重新训练文本分类模型;其中,所述原有训练集为训练所述目标文本分类模型所使用的训练集;
根据文本分类模型在训练集、测试集以及验证集上的F1值筛选最佳模型,并将所述目标文本分类模型更新为所述最佳模型。
2.如权利要求1所述的更新方法,其特征在于,所述根据文本分类模型在训练集、测试集以及验证集上的F1值筛选最佳模型,具体包括:
根据文本分类模型在训练集和验证集上的F1值的平均值以及方差筛选备选模型;
根据更新前的目标文本分类模型与所述备选模型分别在测试集上的F1值确定是否将所述备选模型作为最佳模型。
3.如权利要求2所述的更新方法,其特征在于,所述根据文本分类模型在训练集和验证集上的F1值的平均值以及方差筛选备选模型,具体包括:
利用以下公式计算文本分类模型的分数Score:
Score=a*F1平均值-(1-a)*F1方差;
其中,F1平均值为文本分类模型在训练集和验证集上的F1值的平均值,F1方差为文本分类模型在训练集和验证集上的F1值的方差,a为权重;
筛选分数Score最大的文本分类模型作为备选模型。
4.如权利要求2所述的更新方法,其特征在于,所述根据更新前的目标文本分类模型与所述备选模型分别在测试集上的F1值确定是否将所述备选模型作为最佳模型,具体包括:
若更新前的目标文本分类模型在测试集上的F1值与所述备选模型在测试集上的F1值之间的差值不大于1%,则确定将所述备选模型作为最佳模型。
5.如权利要求2所述的更新方法,其特征在于,所述更新方法还包括:
若确定将所述备...
【专利技术属性】
技术研发人员:邓艳江,罗超,胡泓,
申请(专利权)人:携程计算机技术上海有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。