【技术实现步骤摘要】
标签嵌入在微博文本情绪多标签分类中的应用研究
本专利技术属于自然语言处理领域,涉及一种将标签嵌入应用于多标签分类的方法。
技术介绍
随着人们对社交平台的普遍使用,微博作为一个重要的社交平台,已经成为人们表达观点和宣泄情绪的重要方式之一。海量的微博文本中蕴含着许多潜在的有价值信息,这些信息可以反映出用户对某事物的态度和喜好,因此微博文本情绪可以作为向用户推荐商品、文章及相关服务的重要参考方式。近几年来,现有工作提出了多种解决文本情绪分析的方法。但是许多方法的实际效果并不理想。比如,某些研究虽然采用机器学习的方法,但是仅将情绪分类问题看作单标签分类问题,并未考虑到文本情绪复杂性。然而情绪往往比较复杂,即使一条短文本中也可能包含多种情绪,使得提取出的文本特征不够准确。因此,传统的多标签分类可能对最终分析结果不够准确。已有的文本情绪分析方面的研究已经提出了不同的解决方法,但很多方法的实际效果并不理想,例如:①基于词典的方法未能深入考虑到文本上下文信息,使得提取出的文本特征不够准确;②某些研究虽然采用机器学习的方法,但是仅将情绪分类问题看作单标签分类问题,并未考虑到文本情绪复杂性。然而情绪往往比较复杂,即使一条短文本中也可能包含多种情绪,所以将情绪分类问题看作单标签分类问题可能使最终分析结果不够准确;③某些研究即使将情绪分析问题看做多标签分类问题,但其中部分研究将情绪多标签看作多个单标签的组合,然后对每个标签分别训练分类器,最后将每个分类器结果作为最终预测结果,该种策略是一类较主流的方法,但实际分类效果往往依赖于一系列人为设定的阈值,使人为因素对分析效果造成较大影响 ...
【技术保护点】
1.本专利技术提供了一种标签嵌入在微博文本情绪多标签分类中的应用研究方法,包括以下步骤:步骤1:对文本语料库进行预处理。步骤2:将预处理后的数据进行基于欧式距离及海明损失信息的标签嵌入。步骤3:提取微博文本特征并表示。步骤4:训练将标签从原始标签空间中映射到嵌入空间的编码器,学习出标签嵌入函数。步骤5:训练从文本特征空间映射到嵌入空间的分析器。步骤6:结合分析器及解码映射关系对文本进行情绪多标签分类预测。
【技术特征摘要】
1.本发明提供了一种标签嵌入在微博文本情绪多标签分类中的应用研究方法,包括以下步骤:步骤1:对文本语料库进行预处理。步骤2:将预处理后的数据进行基于欧式距离及海明损失信息的标签嵌入。步骤3:提取微博文本特征并表示。步骤4:训练将标签从原始标签空间中映射到嵌入空间的编码器,学习出标签嵌入函数。步骤5:训练从文本特征空间映射到嵌入空间的分析器。步骤6:结合分析器及解码映射关系对文本进行情绪多标签分类预测。2.根据权利要求1所述的研究技术,设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中,其特征在于:将文本语料库中的文本情绪分为Anxiety、Surprise、Sorrow、Love、Joy、Hate、Anger、Expect八种情绪。3.根据权利要求1所述的研究技术,设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中,其特征在于:所述步骤1对微博文本语料库进行预处理,包括分词及去除停用词等操作。4.根据权利要求1所述的研究技术,设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中,其特征在于:所述步骤2采用标签空间维度归约类的标签嵌入算法,使得嵌入标签在嵌入空间中的距离与原始标签间距离及代价相似。5.根据权利要求1所述的研究技术,设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中,其特征在于:所述步骤3通过提取微博文本特征,并结合向量空间模型将文本向量化表示。6.根据权利要求1所述的研究技术,设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中,其特征在于:所述步骤4训练情绪多标签编码器,将标签从原始标签空间中映射到嵌入空间中,并学得其嵌入函数表达。7.根据权利要求1所述的研究技术,设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中,其特征在于:所述步骤5训练从文本特征空间映射到嵌入空间的分析器。8.根据权利要求1所述的研究技术,设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中,其特征在于:所述步骤6结合分析器及解码映射关系对文本进行情绪多标签分类预测。9.根据权...
【专利技术属性】
技术研发人员:不公告发明人,
申请(专利权)人:中森云链成都科技有限责任公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。