System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于自然语言处理领域,具体涉及一种基于偏标记学习的细粒度情感分类方法。
技术介绍
1、随着时代发展,监督学习成为当今最为流行的一种范式。然而,在真实世界里,带有唯一准确标签是非常难获得的,正确标注的代价也是非常高的,因此如何从模糊数据集中学习变得愈发严峻。训练示例的标签信息模糊则无法像监督学习一样直接从输入空间到输出空间学习算法。偏标记学习作为一种新型的弱监督学习,其训练示例与一组候选标签集相关联,有且只有一个真实标签,其他标签为噪声标签。偏标记学习提供了许多有效的方法用于解决此问题,并广泛用于实际应用中,特别是在细粒度情感分类中。
2、情感是人际关系的基础,而情感分类作为nlp中的常见问题,可以使人们更好地理解和利用情感和情绪反馈,对企业、组织、市场和社会研究等多个领域都有着广泛的应用和重要性;细粒度情感分类可以提供更准确、更深入的情感理解,有助于个性化用户体验、改进产品和服务、更好地理解市场和社会趋势,以及更好地满足人们的情感需求。人们提出了6种基本的情绪分类:愤怒、厌恶、恐惧、幸福、悲伤和惊讶。然而人类的情绪不仅仅是只有这六种,为了更好的表达人类的情感,需要采用细粒度的情感分类方法。但相近的情绪例如烦恼和愤怒、喜悦和兴奋、紧张和恐惧,很容易标记错误,对于不同模型和人可能会对同一样本产生不同的分类标签。数据标签的正确率对于监督学习而言,很大程度影响到模型分类的精确度,因此如何在标签候选集中找到唯一正确情感分类标签,是在情感分类上的一个重要挑战。
技术实现思路
< ...【技术保护点】
1.一种基于偏标记学习的细粒度情感分类方法,其特征在于,包括:
2.根据权利要求1所述的一种基于偏标记学习的细粒度情感分类方法,其特征在于,构建候选标签集的过程包括:使用多种预训练的情感分类模型对文本信息进行处理,得到预测结果;采用人工标注的方式对文本信息添加标签;将情感类别中与模型的预测结果或人工标签重合的情感类别置为标签1,否则置为标签0,得到候选标签集。
3.根据权利要求1所述的一种基于偏标记学习的细粒度情感分类方法,其特征在于,构建相似度图的过程包括:计算文本信息间的相似度;将文本信息作为文本节点,选择与文本节点相似度最高的10条文本信息作为该文本信息的邻居文本节点,连接文本节点与其邻居文本节点作为边;将文本节点与其邻居文本节点间的相似度作为边权值,建立相似度图。
4.根据权利要求3所述的一种基于偏标记学习的细粒度情感分类方法,其特征在于,计算相似度的公式为:
5.根据权利要求1所述的一种基于偏标记学习的细粒度情感分类方法,其特征在于,生成文本信息的伪标签的过程包括:
6.根据权利要求5所述的一种基于偏标记学习的
7.根据权利要求5所述的一种基于偏标记学习的细粒度情感分类方法,其特征在于,对初始标签置信度矩阵进行迭代更新的公式为:
8.根据权利要求5所述的一种基于偏标记学习的细粒度情感分类方法,其特征在于,计算文本信息的最大标签索引值的公式为:
9.根据权利要求1所述的一种基于偏标记学习的细粒度情感分类方法,其特征在于,采用带伪标签的文本信息对情感分类模型进行训练的过程包括:
10.根据权利要求9所述的一种基于偏标记学习的细粒度情感分类方法,其特征在于,更新平均教师模型参数的公式为:
...【技术特征摘要】
1.一种基于偏标记学习的细粒度情感分类方法,其特征在于,包括:
2.根据权利要求1所述的一种基于偏标记学习的细粒度情感分类方法,其特征在于,构建候选标签集的过程包括:使用多种预训练的情感分类模型对文本信息进行处理,得到预测结果;采用人工标注的方式对文本信息添加标签;将情感类别中与模型的预测结果或人工标签重合的情感类别置为标签1,否则置为标签0,得到候选标签集。
3.根据权利要求1所述的一种基于偏标记学习的细粒度情感分类方法,其特征在于,构建相似度图的过程包括:计算文本信息间的相似度;将文本信息作为文本节点,选择与文本节点相似度最高的10条文本信息作为该文本信息的邻居文本节点,连接文本节点与其邻居文本节点作为边;将文本节点与其邻居文本节点间的相似度作为边权值,建立相似度图。
4.根据权利要求3所述的一种基于偏标记学习的细粒度情感分类方法,其特征在于...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。