文本数据的处理方法和装置、存储介质及电子设备制造方法及图纸

技术编号:41507544 阅读:21 留言:0更新日期:2024-05-30 14:47
本申请公开了一种文本数据的处理方法和装置、存储介质及电子设备。其中,该方法包括:获取初始文本数据;将初始文本数据输入预先使用语料库训练得到的大语言模型,得到第一组情绪类别标签,并将初始文本数据输入预先使用初始训练样本训练得到的初始情绪预测模型,得到第二组情绪类别标签;根据第一组情绪类别标签和第二组情绪类别标签生成第一级样本、第二级样本以及第三级样本;使用初始训练样本、第一级样本、第二级样本以及第三级样本对初始情绪预测模型进行训练,得到目标情绪预测模型。本申请解决了由于训练样本中不同情绪类别标签对应的样本数量差异较大,导致情绪预测模型的预测准确率较差的技术问题。

【技术实现步骤摘要】

本申请涉及计算机领域,具体而言,涉及一种文本数据的处理方法和装置、存储介质及电子设备


技术介绍

1、目前,在相关技术中,主要采用文本情绪预测模型实现文本数据的多标签分类学习,具体来说,在文本情绪预测模型中输入文本数据,以将文本数据映射到预训练的词典,得到组合词向量,通过组合词向量生成句向量进行标签识别,以生成文本数据对应的情绪类别标签,从而,实现对文本数据进行多标签分类的目的,由于相关技术中仅仅只是使用文本情绪预测模型直接进行分类,而该模型训练过程中使用的训练样本不够均衡,不同情绪类别的样本数量差异较大,导致在进行多标签分类任务时,存在情绪类别标签的识别准确性较低,情绪预测模型的预测准确率较差的技术问题。

2、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本申请实施例提供了一种文本数据的处理方法和装置、存储介质及电子设备,以至少解决由于训练样本中不同情绪类别标签对应的样本数量差异较大,导致情绪预测模型的预测准确率较差的技术问题。

2、根据本申请实施例的一个方面,提供本文档来自技高网...

【技术保护点】

1.一种文本数据的处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述第一组情绪类别标签和所述第二组情绪类别标签生成第一级样本、第二级样本以及第三级样本,包括:

3.根据权利要求2所述的方法,其特征在于,所述将所述第三情绪类别标签的置信度设置为第二预测概率,生成所述第三级样本,包括:

4.根据权利要求1所述的方法,其特征在于,所述使用所述初始训练样本、所述第一级样本、所述第二级样本以及所述第三级样本对所述初始情绪预测模型进行训练,得到目标情绪预测模型,包括:

5.根据权利要求4所述的方法,其特征在于,所述使用...

【技术特征摘要】

1.一种文本数据的处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述第一组情绪类别标签和所述第二组情绪类别标签生成第一级样本、第二级样本以及第三级样本,包括:

3.根据权利要求2所述的方法,其特征在于,所述将所述第三情绪类别标签的置信度设置为第二预测概率,生成所述第三级样本,包括:

4.根据权利要求1所述的方法,其特征在于,所述使用所述初始训练样本、所述第一级样本、所述第二级样本以及所述第三级样本对所述初始情绪预测模型进行训练,得到目标情绪预测模型,包括:

5.根据权利要求4所述的方法,其特征在于,所述使用所述初始训练样本、所述第一级样本对所述中间情绪预测模型进行精调,得到所述目标情绪预测模型,包括:

6.根据权利要求1所述的方法,其特征在于,所述使用所述初始训练样本、所述第一级样本、所述第二级样本以及所述第三级样本对所述初始情绪预测模型进行训练,得到目标情绪预测模型,包括:

7.根据权利要求6所述的方法,其特征在于,所述将所述目标训练样本分批次输入所述初始情绪预测模型,对所述初始情绪预测模型进行迭代训练,得到所述目标情绪预测模型,包括:

8.根据权利要求1所述的方法,其特征在于,所述根据所述第一组情绪类别标签和所述第...

【专利技术属性】
技术研发人员:郭卉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1