基于情绪的文本分类方法技术

技术编号：16327250 阅读：371 留言：0更新日期：2017-09-29 19:06

本发明专利技术属于数据挖掘、自然语言处理和信息检索领域，为提出一种基于情绪的文本分类算法(Emotion Text Classification，ETC)，它将情绪因素与语料库扩展的情感分类算法结合，并对原始语料库的分类情感极性值，通过集成模型获得原始语料库的最终分类情感极性值。本发明专利技术采用的技术方案是，基于情绪的文本分类方法，步骤如下：步骤一：获取中文情绪词典；步骤二：紧张词和放松词强度检测；步骤三：文本情感分类；步骤四：集成分类预测。本发明专利技术主要应用于数据挖掘、自然语言处理和信息检索场合。

全部详细技术资料下载

【技术实现步骤摘要】
基于情绪的文本分类方法
本专利技术属于数据挖掘、自然语言处理和信息检索领域，涉及短文本情感分析技术，尤其是一种基于情感分析的文本分类方法。
技术介绍
国外研究人员在情感分析领域中贡献了许多具有权威性的数据集，并广泛应用于各个会议和比赛；然而在中文文本情感分析领域中，完全满足研究需要、且具有足够权威性的已标注数据集则相对较少；同时，语料库扩展能够去掉部分噪声，在一定程度上缓解特征稀疏性问题，增加文本内容的语义相关空间，形成语义相近且拥有不同词语的文本，能够有效提高情感分析技术的实验效果。目前主要的比较精确的文本分类算法为语料库扩展的情感分类算法(DataExpansionSentimentAnalysis，DESA)，该算法虽然可以在一定程度上提高情感分析技术的准确率，但该方法只分析了扩展语料库文本中的事件和观点，并未考虑用户的情绪。
技术实现思路
为克服现有技术的不足，本专利技术旨在提出一种基于情绪的文本分类算法(EmotionTextClassification，ETC)，它将情绪因素与语料库扩展的情感分类算法结合，并对原始语料库的分类情感极性值，通过集成模型获得原始语料库的最终分类情感极性值。本专利技术采用的技术方案是，基于情绪的文本分类方法，步骤如下：步骤一：获取中文情绪词典：使用英文紧张词和放松词标注词典，通过翻译工具转换成中文，并向中文词典中手动添加部分相关的词语；步骤二：紧张词和放松词强度检测：根据中文情绪词典，检测原始语料库文本是否包含紧张词和放松词，提取原始语料库文本内容中最大的紧张值Stress和最大的放松值Relation，使之作为特征集的...
基于情绪的文本分类方法

【技术保护点】
一种基于情绪的文本分类方法，其特征是，步骤如下：步骤一：获取中文情绪词典：使用英文紧张词和放松词标注词典，通过翻译工具转换成中文，并向中文词典中手动添加部分相关的词语；步骤二：紧张词和放松词强度检测：根据中文情绪词典，检测原始语料库文本是否包含紧张词和放松词，提取原始语料库文本内容中最大的紧张值Stress和最大的放松值Relation，使之作为特征集的一部分进行处理；步骤三：文本情感分类：采用支持向量机算法SVM(Support Vector Machine)对新的特征向量进行分类，得到原始语料库的情感倾向值；步骤四：集成分类预测，将紧张词和放松词强度检测的情感分析结果提取出来，并结合语料库扩展的情感分类算法的最终分类情感极性一起输入Adaboost算法，构造最终分类器H(X)＝{h1(x),h2(x),…,ht(x)}，其中X为数据集，x为数据实例，hi(x)为弱分类器；使用最终分类器进行集成，获得该语料库文本的最终分类情感极性。

【技术特征摘要】
1.一种基于情绪的文本分类方法，其特征是，步骤如下：步骤一：获取中文情绪词典：使用英文紧张词和放松词标注词典，通过翻译工具转换成中文，并向中文词典中手动添加部分相关的词语；步骤二：紧张词和放松词强度检测：根据中文情绪词典，检测原始语料库文本是否包含紧张词和放松词，提取原始语料库文本内容中最大的紧张值Stress和最大的放松值Relation，使之作为特征集的一部分进行处理；步骤三：文本情感分类：采用支持向量机算法SVM(SupportVectorMachine)对新的特征向量进行分类，得到原始语料库的情感倾向值；步骤四：集成分类预测，将紧张词和放松词强度检测的情感分析结果提取出来，并结合语料库扩展的情感分类算法的最终分类情感极性一起输入Adaboost算法，构造最终分类器H(X)＝{h1(x),h2(x),…,ht(x)}，其中X为数据集，x为数据实例，hi(x)为弱分类器；使用最终分类器进行集成，获得该语料库文本的最终分类情感极性。2.如权利要求1所述的基于情绪的文本分类方法，其特征是，验证步骤：使用准确率PrecisionRate、召回率RecallRate、F值F-measure作为验证研究课题意义的实验评价标准，准确率、召回率、F值的计算方法如下：其中，ni表示真实类别i包含的文本上，nj表示分类后类别j包含的文本数，ni,j表示分类后类别j中属于真实类别i的文档数，Precision(i,j)表示准确率，分类正确的信息条数与所有的信息条数之比，Recall(i,j)表示召回率，分类正确的信息条数与样本中正确的信息条数之比，F表示准确率与召回率的调和平均数。3.如权利要求1所述的基于情绪的文本分类方法，其特征是，基于情绪的情感分析算法加入紧张词和放松词强度检测部分，使用Adaboost算法预测原始文本的情...

【专利技术属性】
技术研发人员：侯庆志，王正凯，喻梅，王建荣，徐天一，成基元，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人