当前位置: 首页 > 专利查询>天津大学专利>正文

基于情绪的文本分类方法技术

技术编号:16327250 阅读:371 留言:0更新日期:2017-09-29 19:06
本发明专利技术属于数据挖掘、自然语言处理和信息检索领域,为提出一种基于情绪的文本分类算法(Emotion Text Classification,ETC),它将情绪因素与语料库扩展的情感分类算法结合,并对原始语料库的分类情感极性值,通过集成模型获得原始语料库的最终分类情感极性值。本发明专利技术采用的技术方案是,基于情绪的文本分类方法,步骤如下:步骤一:获取中文情绪词典;步骤二:紧张词和放松词强度检测;步骤三:文本情感分类;步骤四:集成分类预测。本发明专利技术主要应用于数据挖掘、自然语言处理和信息检索场合。

【技术实现步骤摘要】
基于情绪的文本分类方法
本专利技术属于数据挖掘、自然语言处理和信息检索领域,涉及短文本情感分析技术,尤其是一种基于情感分析的文本分类方法。
技术介绍
国外研究人员在情感分析领域中贡献了许多具有权威性的数据集,并广泛应用于各个会议和比赛;然而在中文文本情感分析领域中,完全满足研究需要、且具有足够权威性的已标注数据集则相对较少;同时,语料库扩展能够去掉部分噪声,在一定程度上缓解特征稀疏性问题,增加文本内容的语义相关空间,形成语义相近且拥有不同词语的文本,能够有效提高情感分析技术的实验效果。目前主要的比较精确的文本分类算法为语料库扩展的情感分类算法(DataExpansionSentimentAnalysis,DESA),该算法虽然可以在一定程度上提高情感分析技术的准确率,但该方法只分析了扩展语料库文本中的事件和观点,并未考虑用户的情绪。
技术实现思路
为克服现有技术的不足,本专利技术旨在提出一种基于情绪的文本分类算法(EmotionTextClassification,ETC),它将情绪因素与语料库扩展的情感分类算法结合,并对原始语料库的分类情感极性值,通过集成模型获得原始语料库的最终分类情感极性值。本专利技术采用的技术方案是,基于情绪的文本分类方法,步骤如下:步骤一:获取中文情绪词典:使用英文紧张词和放松词标注词典,通过翻译工具转换成中文,并向中文词典中手动添加部分相关的词语;步骤二:紧张词和放松词强度检测:根据中文情绪词典,检测原始语料库文本是否包含紧张词和放松词,提取原始语料库文本内容中最大的紧张值Stress和最大的放松值Relation,使之作为特征集的一部分进行处理;步骤三:文本情感分类:采用支持向量机算法SVM(SupportVectorMachine)对新的特征向量进行分类,得到原始语料库的情感倾向值;步骤四:集成分类预测,将紧张词和放松词强度检测的情感分析结果提取出来,并结合语料库扩展的情感分类算法的最终分类情感极性一起输入Adaboost算法,构造最终分类器H(X)={h1(x),h2(x),...,ht(x)},其中X为数据集,x为数据实例,hi(x)为弱分类器;使用最终分类器进行集成,获得该语料库文本的最终分类情感极性。验证步骤:使用准确率PrecisionRate、召回率RecallRate、F值F-measure作为验证研究课题意义的实验评价标准,准确率、召回率、F值的计算方法如下:其中,ni表示真实类别i包含的文本上,nj表示分类后类别j包含的文本数,ni,j表示分类后类别j中属于真实类别i的文档数,Precision(i,j)表示准确率,分类正确的信息条数与所有的信息条数之比,Recall(i,j)表示召回率,分类正确的信息条数与样本中正确的信息条数之比,F表示准确率与召回率的调和平均数。基于情绪的情感分析算法加入紧张词和放松词强度检测部分,使用Adaboost算法预测原始文本的情感极值,从而提高情感分析技术的实验效果。一个具体实施方案包括:步骤S0101:获取原始语料库,并根据研究目的将原始语料库中的所有信息构造成相应的字符串并按照需求对其进行初步匹配,去除无用数据信息,构造文本和其真实情感极性值TrueValue的匹配对集合;步骤S0201:文本内容通常包含微博平台自身规定的特有的符号,并将剩余部分进行文本分词处理;步骤S0301:数据预处理之后,需要对语料库文本进行否定词检测,根据不同情感类别对语料库进行扩展,产生新的语料库文本;并根据原始语料库的原始极性值O_Senti,赋予新构造的语料库文本以新的极性值N_Senti;并将新的扩展语料库加入原始语料库集,形成扩展语料库;步骤S0302:使用英文紧张词和放松词标注词典,通过翻译工具转换成中文,并向中文词典中手动添加部分相关的词语;步骤S0401:获取扩展语料库,通过R语言中中文分词软件包Rwordseg对文本内容分词处理;步骤S0501:通过相应的特征选择算法,提取并整理文本内容中的特征;步骤S0601:根据中文情绪词典,检测原始语料库文本是否包含紧张词和放松词,提取原始语料库文本内容中最大的紧张值Stress和最大的放松值Relation,使之作为特征集的一部分进行处理;步骤S0602:将步骤S0501中的特征向量空间作为输入,使用随机森林算法进行文本情感分类,判断扩展语料库的情感倾向;步骤S0701:采用SVM算法对新的特征向量进行分类,得到原始语料库的情感倾向值;步骤S0702:从步骤S0602中取得原始语料库文本的分类极性O_Senti和新构造的语料库文本的分类极性N_Senti,使用Adaboost算法进行分类,构造多分类器模型,获得原始语料库的最终分类情感极性;步骤S0801:将紧张词和放松词强度检测的情感分析结果提取出来,并结合语料库扩展的情感分类算法的最终分类情感极性一起输入Adaboost算法,构造最终分类器H(X)={h1(x),h2(x),…,ht(x)},其中X为数据集,x为数据实例,hi(x)为弱分类器;使用最终分类器进行集成,获得该语料库文本的最终分类情感极性。本专利技术的特点及有益效果是:将DESA算法对扩展语料库和对原始语料库的实验结果与ETC算法的结果进行详细的对比,基于情绪的情感分析算法实验效果包括准确率、F值都更为理想。附图说明:图1为ETC的算法流程图。图2为ETC与DESA准确率对比效果。通过图2可知,ETC对于积极类别准确率效果较差,相比于DESA(扩展语料库)低了7%,比DESA(原始语料库)高了2%;而ETC对于中立类别和消极类别的准确率效果较佳,分别比DESA(扩展语料库)提高了8%和4.6%,分别比DESA(原始语料库)提高了4%和15%;总体准确率ETC比DESA(扩展语料库)提高3.2%,比DESA(原始语料库)提高6.9%。具体实施方式本专利技术提出一种基于情绪的文本分类算法,包含以下步骤:步骤一:获取中文情绪词典。使用英文紧张词和放松词标注词典,通过百度翻译等工具转换成中文,并向中文词典中手动添加部分相关的词语。步骤二:紧张词和放松词强度检测。根据中文情绪词典,检测原始语料库文本是否包含紧张词和放松词,提取原始语料库文本内容中最大的紧张值Stress和最大的放松值Relation,使之作为特征集的一部分进行处理。步骤三:文本情感分类。采用支持向量机算法(SupportVectorMachine,SVM)对新的特征向量进行分类,得到原始语料库的情感倾向值。步骤四:集成分类预测。将紧张词和放松词强度检测的情感分析结果提取出来,并结合语料库扩展的情感分类算法的最终分类情感极性一起输入Adaboost算法,构造最终分类器H(X)={h1(x),h2(x),…,ht(x)},其中X为数据集,x为数据实例,hi(x)为弱分类器;使用最终分类器进行集成,获得该语料库文本的最终分类情感极性。本专利技术使用准确率(PrecisionRate)、召回率(RecallRate)、F值(F-measure)作为验证研究课题意义的实验评价标准。准确率、召回率、F值的计算方法如下:几种实验评价标准的具体计算方法如公式(1),公式(2),公式(3)所示。其中,ni表示真实类别i包含的文本上,nj表示分本文档来自技高网...
基于情绪的文本分类方法

【技术保护点】
一种基于情绪的文本分类方法,其特征是,步骤如下:步骤一:获取中文情绪词典:使用英文紧张词和放松词标注词典,通过翻译工具转换成中文,并向中文词典中手动添加部分相关的词语;步骤二:紧张词和放松词强度检测:根据中文情绪词典,检测原始语料库文本是否包含紧张词和放松词,提取原始语料库文本内容中最大的紧张值Stress和最大的放松值Relation,使之作为特征集的一部分进行处理;步骤三:文本情感分类:采用支持向量机算法SVM(Support Vector Machine)对新的特征向量进行分类,得到原始语料库的情感倾向值;步骤四:集成分类预测,将紧张词和放松词强度检测的情感分析结果提取出来,并结合语料库扩展的情感分类算法的最终分类情感极性一起输入Adaboost算法,构造最终分类器H(X)={h1(x),h2(x),…,ht(x)},其中X为数据集,x为数据实例,hi(x)为弱分类器;使用最终分类器进行集成,获得该语料库文本的最终分类情感极性。

【技术特征摘要】
1.一种基于情绪的文本分类方法,其特征是,步骤如下:步骤一:获取中文情绪词典:使用英文紧张词和放松词标注词典,通过翻译工具转换成中文,并向中文词典中手动添加部分相关的词语;步骤二:紧张词和放松词强度检测:根据中文情绪词典,检测原始语料库文本是否包含紧张词和放松词,提取原始语料库文本内容中最大的紧张值Stress和最大的放松值Relation,使之作为特征集的一部分进行处理;步骤三:文本情感分类:采用支持向量机算法SVM(SupportVectorMachine)对新的特征向量进行分类,得到原始语料库的情感倾向值;步骤四:集成分类预测,将紧张词和放松词强度检测的情感分析结果提取出来,并结合语料库扩展的情感分类算法的最终分类情感极性一起输入Adaboost算法,构造最终分类器H(X)={h1(x),h2(x),…,ht(x)},其中X为数据集,x为数据实例,hi(x)为弱分类器;使用最终分类器进行集成,获得该语料库文本的最终分类情感极性。2.如权利要求1所述的基于情绪的文本分类方法,其特征是,验证步骤:使用准确率PrecisionRate、召回率RecallRate、F值F-measure作为验证研究课题意义的实验评价标准,准确率、召回率、F值的计算方法如下:其中,ni表示真实类别i包含的文本上,nj表示分类后类别j包含的文本数,ni,j表示分类后类别j中属于真实类别i的文档数,Precision(i,j)表示准确率,分类正确的信息条数与所有的信息条数之比,Recall(i,j)表示召回率,分类正确的信息条数与样本中正确的信息条数之比,F表示准确率与召回率的调和平均数。3.如权利要求1所述的基于情绪的文本分类方法,其特征是,基于情绪的情感分析算法加入紧张词和放松词强度检测部分,使用Adaboost算法预测原始文本的情...

【专利技术属性】
技术研发人员:侯庆志王正凯喻梅王建荣徐天一成基元
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1