一种基于偏标记学习的细粒度情感分类方法技术

技术编号：40442285 阅读：5 留言：0更新日期：2024-02-22 23:04

本发明专利技术属于自然语言处理领域，具体涉及一种基于偏标记学习的细粒度情感分类方法；该方法包括：获取文本信息并进行预处理，得到预处理好的文本信息；根据情感类别对每条文本信息构建候选标签集；构建相似度图，根据候选标签集将相似度图进行标签传播，生成每条文本信息的伪标签；采用带伪标签的文本信息对情感分类模型进行训练，得到最优情感分类模型；采用最优情感分类模型对待分类文本信息进行处理，得到文本信息的情感分类结果；本发明专利技术提高了细粒度情感分类标签的准确性，为细粒度情感分类提供了一种有效且可靠的方案。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理领域，具体涉及一种基于偏标记学习的细粒度情感分类方法。

技术介绍

1、随着时代发展，监督学习成为当今最为流行的一种范式。然而，在真实世界里，带有唯一准确标签是非常难获得的，正确标注的代价也是非常高的，因此如何从模糊数据集中学习变得愈发严峻。训练示例的标签信息模糊则无法像监督学习一样直接从输入空间到输出空间学习算法。偏标记学习作为一种新型的弱监督学习，其训练示例与一组候选标签集相关联，有且只有一个真实标签，其他标签为噪声标签。偏标记学习提供了许多有效的方法用于解决此问题，并广泛用于实际应用中，特别是在细粒度情感分类中。

2、情感是人际关系的基础，而情感分类作为nlp中的常见问题，可以使人们更好地理解和利用情感和情绪反馈，对企业、组织、市场和社会研究等多个领域都有着广泛的应用和重要性；细粒度情感分类可以提供更准确、更深入的情感理解，有助于个性化用户体验、改进产品和服务、更好地理解市场和社会趋势，以及更好地满足人们的情感需求。人们提出了6种基本的情绪分类：愤怒、厌恶、恐惧、幸福、悲伤和惊讶。然而人类的情绪不仅仅是只有这六种，为了更好的表达人类的情感，需要采用细粒度的情感分类方法。但相近的情绪例如烦恼和愤怒、喜悦和兴奋、紧张和恐惧，很容易标记错误，对于不同模型和人可能会对同一样本产生不同的分类标签。数据标签的正确率对于监督学习而言，很大程度影响到模型分类的精确度，因此如何在标签候选集中找到唯一正确情感分类标签，是在情感分类上的一个重要挑战。

技术实现思路

<p>1、针对现有技术存在的不足，本专利技术提出了一种基于偏标记学习的细粒度情感分类方法，该方法包括：

2、s1：获取文本信息并进行预处理，得到预处理好的文本信息；

3、s2：根据情感类别对每条文本信息构建候选标签集；

4、s3：构建相似度图，根据候选标签集将相似度图进行标签传播，生成每条文本信息的伪标签；

5、s4：采用带伪标签的文本信息对情感分类模型进行训练，得到最优情感分类模型；

6、s5：采用最优情感分类模型对待分类文本信息进行处理，得到文本信息的情感分类结果。

7、优选的，构建候选标签集的过程包括：使用多种预训练的情感分类模型对文本信息进行处理，得到预测结果；采用人工标注的方式对文本信息添加标签；将情感类别中与模型的预测结果或人工标签重合的情感类别置为标签1，否则置为标签0，得到候选标签集。

8、优选的，构建相似度图的过程包括：计算文本信息间的相似度；将文本信息作为文本节点，选择与文本节点相似度最高的10条文本信息作为该文本信息的邻居文本节点，连接文本节点与其邻居文本节点作为边；将文本节点与其邻居文本节点间的相似度作为边权值，建立相似度图。

9、进一步的，计算相似度的公式为：

10、

11、其中，similarity表示文本句子a和文本句子b的相似度，a表示文本句子a的词向量平均值，b表示文本句子b的词向量平均值。

12、优选的，生成文本信息的伪标签的过程包括：

13、设置权重矩阵；根据候选标签集初始化标签置信度矩阵，得到初始标签置信度矩阵；

14、根据相似度图的边权值和权重矩阵对初始标签置信度矩阵进行迭代更新，得到最终标签置信度矩阵；

15、根据最终标签置信度矩阵计算每条文本信息的最大标签索引值，根据最大标签索引值从候选标签集中选取标签作为伪标签。

16、进一步的，初始化标签置信度矩阵的公式为：

17、

18、其中，fi,j表示初始标签置信度矩阵中第i行第j列的值，li,j表示第i条文本信息的第j种情感分类概率值，q表示情感种类数量，yj表示第j种情感分类，si表示第i条文本信息的候选标签集。

19、进一步的，对初始标签置信度矩阵进行迭代更新的公式为：

20、

21、其中，表示第t论迭代更新后的标签置信度矩阵，α表示控制系数，h表示归一化权重矩阵，f(t-1)表示第t-1论迭代更新后的标签置信度矩阵，f(0)表示初始标签置信度矩阵。

22、进一步的，计算文本信息的最大标签索引值的公式为：

23、

24、其中，表示第i条文本信息的最大标签索引值，yj表示第j种情感分类，y表示候选标签矩阵，nj表示根据初始标签置信度矩阵求得的第j种情感分类的初始标签系数，表示根据最终标签置信度矩阵求得的第j种情感分类的最终标签系数，表示最终标签置信度矩阵中第i行第j列的值。

25、优选的，采用带伪标签的文本信息对情感分类模型进行训练的过程包括：

26、初始化学生模型和平均教师模型；训练学生模型和平均教师模型，更新学生模型和平均教师模型的参数；

27、若当前平均教师模型参数准确度高于前一次平均教师模型参数，根据学生模型当前预测值和上一次预测值集成得到输出预测值；若输出预测值存在于候选标签集中，则将输出预测值作为新的伪标签，否则保持原伪标签，得到新的文本信息；

28、根据新的文本信息继续训练直到模型参数最优，得到最优情感分类模型。进一步的，更新平均教师模型参数的公式为：

29、w′t＝βw′s+(1-β)wt

30、其中，w′t表示更新后的平均教师模型参数，β表示模型参数权重系数，w′s表示当前学生模型的参数，wt表示上一次学生模型的参数；

31、得到输出预测值的公式为：

32、

33、其中，表示当前输出预测值，表示学生模型的当前预测值，表示学生模型的的上一次预测值，γ表示预测值权重系数。

34、本专利技术的有益效果为：本专利技术将细粒度情感分类作为一种偏标记学习问题，并将传统的偏标记学习模型运用其中，充分利用模糊数据集进行对情感类别数据的标注。将经过标签传播后的标签作为伪标签，同时将自集成模型引入到偏标记学习中，并更改了对噪声标签的处理；本专利技术为细粒度情感分类提供了一种有效且可靠的方案，提高了细粒度情感分类标签的准确性，进而提高了细粒度情感分类模型的精度。

本文档来自技高网...

【技术保护点】

1.一种基于偏标记学习的细粒度情感分类方法，其特征在于，包括：

2.根据权利要求1所述的一种基于偏标记学习的细粒度情感分类方法，其特征在于，构建候选标签集的过程包括：使用多种预训练的情感分类模型对文本信息进行处理，得到预测结果；采用人工标注的方式对文本信息添加标签；将情感类别中与模型的预测结果或人工标签重合的情感类别置为标签1，否则置为标签0，得到候选标签集。

3.根据权利要求1所述的一种基于偏标记学习的细粒度情感分类方法，其特征在于，构建相似度图的过程包括：计算文本信息间的相似度；将文本信息作为文本节点，选择与文本节点相似度最高的10条文本信息作为该文本信息的邻居文本节点，连接文本节点与其邻居文本节点作为边；将文本节点与其邻居文本节点间的相似度作为边权值，建立相似度图。

4.根据权利要求3所述的一种基于偏标记学习的细粒度情感分类方法，其特征在于，计算相似度的公式为：

5.根据权利要求1所述的一种基于偏标记学习的细粒度情感分类方法，其特征在于，生成文本信息的伪标签的过程包括：

6.根据权利要求5所述的一种基于偏标记学习的

7.根据权利要求5所述的一种基于偏标记学习的细粒度情感分类方法，其特征在于，对初始标签置信度矩阵进行迭代更新的公式为：

8.根据权利要求5所述的一种基于偏标记学习的细粒度情感分类方法，其特征在于，计算文本信息的最大标签索引值的公式为：

9.根据权利要求1所述的一种基于偏标记学习的细粒度情感分类方法，其特征在于，采用带伪标签的文本信息对情感分类模型进行训练的过程包括：

10.根据权利要求9所述的一种基于偏标记学习的细粒度情感分类方法，其特征在于，更新平均教师模型参数的公式为：

...

【技术特征摘要】

1.一种基于偏标记学习的细粒度情感分类方法，其特征在于，包括：

4.根据权利要求3所述的一种基于偏标记学习的细粒度情感分类方法，其特征在于...

【专利技术属性】
技术研发人员：孙开伟，曾雅苑，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人