【技术实现步骤摘要】
模型训练方法、数据处理方法及相关装置
[0001]本申请实施例涉及互联网
,尤其涉及模型训练方法、数据处理方法及相关装置。
技术介绍
[0002]随着互联网时代的快速发展,对海量数据信息进行倾向性的标签分类,有着至关重要的作用。
[0003]例如,对包含用户情感表意的口碑或话题情绪文本进行准确的情感类别分析,有助于经营者探讨用户对当前产品或事件的认知程度和情绪倾向,从而针对性地开展相关的运营监管或决策规划等,把控事态动向。
[0004]然而,现有情感分析模型的训练需要大量的人工标注数据,而人工对于大批量的数据处理,容易出现标注错误和标注耗时长等获取成本高的问题,使得模型训练过程中忽略了样本数据本身的质量,导致训练得的情感分析模型预测效果不佳。
技术实现思路
[0005]本申请实施例提供了模型训练方法、数据处理方法及相关装置,用于提升分类模型的样本数据质量和预测准确度。
[0006]本申请实施例第一方面提供一种模型训练方法,包括:
[0007]获取包含已标注数据的初始训练集 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取包含已标注数据的初始训练集,并使用所述初始训练集中的数据训练初始模型,以得到预分类模型;根据所述预分类模型输出的每一所述已标注数据属于不同类别的类别预测概率,判断所述已标注数据是否为被错误标注的错误样本数据;修正所述初始训练集中至少部分所述错误样本数据的所属类别标注,得到目标训练集;使用所述目标训练集中的数据对所述预分类模型进行迭代训练,直至满足收敛条件时停止训练,得到目标分类模型。2.根据权利要求1所述的模型训练方法,其特征在于,所述判断所述已标注数据是否为被错误标注的错误样本数据,包括:判断每一所述已标注数据的真实类别概率和最大预测概率分别对应的类别索引号是否相同,所述最大预测概率为预分类模型对所述已标注数据输出的各类别预测概率中的最大概率;选取所述索引号不同且所述最大预测概率超过概率阈值的已标注数据,作为所述错误样本数据。3.根据权利要求1所述的模型训练方法,其特征在于,使用所述目标训练集中的数据对所述预分类模型进行迭代训练之前,所述方法还包括:将多个未标注数据输入所述预分类模型;根据所述预分类模型输出的每一未标注数据的类别预测概率,从多个未标注数据中确定出满足评选条件的待标注数据;对所述待标注数据进行所属类别标注,以作为已标注数据加入所述初始训练集或所述目标训练集。4.根据权利要求3所述的模型训练方法,其特征在于,所述预分类模型为经过K折交叉验证训练得到的K个预分类模型,所述K大于等于2;所述从多个未标注数据中确定出满足评选条件的待标注数据,包括:对于每个所述未标注数据,计算每一所述预分类模型预测所述未标注数据为目标类别时得到的平均概率;根据各预分类模型输出的所述未标注数据的类别预测概率和所述平均概率,计算各预分类模型对所述未标注数据所属类别的预测分歧度;选取所述预测分歧度满足预设分歧范围的未标注数据作为所述待标注数据。5.根据权利要求1所述的模型训练方法,其特征在于,所述修正所述初始...
【专利技术属性】
技术研发人员:杜嘉晨,周蓝珺,潘树燊,
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。