一种基于中文文本进行情感倾向分析的方法及装置制造方法及图纸

技术编号:18018839 阅读:29 留言:0更新日期:2018-05-23 05:08
本发明专利技术公开了一种基于中文文本进行情感倾向分析的方法,包括:获取待测的中文本文,对所述中文文本中进行文本预处理得到所述中文文本中的指定文本;根据情感词典对所述指定文本进行情感分析得到第一情感特征值,并根据训练模型中的语料特征词典对所述指定文本进行情感分析得到第二情感特征值;根据所述第一情感特征值和所述第二情感特征值得到特征集合,将所述特征集合作为随机森林RF训练模型的输入特征向量进行情感预测,得到所述中文文本的情感倾向。本发明专利技术公开了一种基于中文文本进行情感倾向分析的装置。

【技术实现步骤摘要】
一种基于中文文本进行情感倾向分析的方法及装置
本专利技术涉及通信领域,尤其涉及一种基于中文文本进行情感倾向分析的方法及装置。
技术介绍
新闻的情感分析判别是新闻舆情预警的最重要组成部分。有效的对新闻的情感倾向进行分析判别,能够更好的向用户预警新闻情报。常见的情感分析总体上分为两种:机器学习情感分析方法和基于词典的情感分析方法。对于机器学习情感分析方法,其存在一定的缺陷,主要在于没有很好的扩展性、适应新词能力较差。无论是半监督还是全监督的机器学习方法都需要人工的训练语料对模型进行训练,如果训练语料的覆盖面不全(一般而言,对于层出不穷的新闻来说,无法做到覆盖面全),那么无法很好的适用于新出现的新闻语料,需要经常性的对模型进行训练与更新。对于基于词典的情感分析方法,其缺陷来自于词典本身。首先中文没有类似于英文SentiWordNet那样完善而开源的情感词典。其次,中文既可以单字成词,也可以多字成词的特殊性导致建立完善的中文情感词典的难度非常大。所以现有中文情感词典的效果都不是很理想。而在情感词典不准确的基础上想要对新闻进行情感倾向分析显然更加的困难以及不准确。因此,亟需一种基于中文文本进行情感倾向分析的技术方案,对中文新闻的情感倾向具有高准确率、高延展性的判别能力。
技术实现思路
有鉴于此,本专利技术实施例希望提供一种基于中文文本进行情感倾向分析的方法及装置,对中文新闻的情感倾向具有高准确率、高延展性的判别能力。本专利技术实施例的技术方案是这样实现的:一方面,本专利技术实施例提供一种基于中文文本进行情感倾向分析的方法,所述方法包括:获取待测的中文本文,对所述中文文本中进行文本预处理得到所述中文文本中的指定文本;根据情感词典对所述指定文本进行情感分析得到第一情感特征值,并根据训练模型中的语料特征词典对所述指定文本进行情感分析得到第二情感特征值;根据所述第一情感特征值和所述第二情感特征值得到特征集合,将所述特征集合作为随机森林RF训练模型的输入特征向量进行情感预测,得到所述中文文本的情感倾向。在上述方案中,所述对所述中文文本中进行文本预处理得到所述中文文本中的指定文本包括:对所述中文文本中进行文本切分处理得到所述中文文本的每一个分词和标点,并标注每一个分词的词性;根据词性对所述中文文本的分词进行过滤得到指定分词,并得到由所述指定分词和所述标点构成的所述指定文本;其中,所述指定分词为具有情感属性的分词。在上述方案中,所述方法还包括:对于不存在于所述情感词典中第一情感词,分别统计语料库中第二情感词与所述第一情感词同时出现的次数、所述第二情感词出现的次数;其中,第二情感词为与所述第一情感词同时出现次数最多的情感词;根据所述同时出现的次数和所述第二情感词出现的次数得到权值,根据所述第二情感词的情感分值和所述权值得到所述第一情感词的情感分值,将所述第一情感词和第一情感词对应的情感分值存储在所述情感词典中。在上述方案中,所述根据情感词典对所述指定文本进行情感分析得到第一情感特征值包括:根据所述情感词典对所述指定文本中的句子进行情感分析,确定每一个句子的文本内容的情感分数;对于每一个句子,获取每一个句子的句式和/或标点符号对应的情感权值,根据所述句式和/或标点符号对应的情感权值对所述句式和/或标点符号所属的句子的文本内容的情感分数进行修改后得到所述句子的情感分数;根据所述句子的情感分数确定所述指定文本的第一情感特征值。在上述方案中,所述确定每一个句子的文本内容的情感分数包括:根据所述情感词典确定所述指定文本的每一个情感词对应的情感分值,并获取所述情感词的情感系数,所述情感系数根据所述情感词前面出现的情感副词和/或否定词确定;根据所述情感词对应的情感分值和所述情感词的情感系数确定所述情感词的情感分数,根据所述情感词的情感分数确定所述指定文本的每一个句子的文本内容的情感分数。在上述方案中,所述方法还包括:根据所述情感词典统计所述指定文本的正向情感词的比例、负向情感词的比例和预设标点符号的个数,并得到由所述正向情感词的比例、所述负向情感词的比例和所述预设标点符号的个数组成的第三情感特征向量;根据所述第一情感特征值、所述第二情感特征值和所述第三情感特征向量得到所述特征集合。另一方面,本专利技术实施例还提供一种基于中文文本进行情感倾向分析的装置,所述装置包括:预处理单元、特征值分析单元和融合单元;其中,所述预处理单元,用于获取待测的中文本文,对所述中文文本中进行文本预处理得到所述中文文本中的指定文本;所述特征值分析单元,用于根据情感词典对所述指定文本进行情感分析得到第一情感特征值,并根据训练模型中的语料特征词典对所述指定文本进行情感分析得到第二情感特征值;所述融合单元,用于根据所述第一情感特征值和所述第二情感特征值得到特征集合,将所述特征集合作为随机森林RF训练模型的输入特征向量进行情感预测,得到所述中文文本的情感倾向。在上述方案中,所述预处理单元对所述中文文本中进行文本预处理得到所述中文文本中的指定文本包括:对所述中文文本中进行文本切分处理得到所述中文文本的每一个分词和标点,并标注每一个分词的词性;根据词性对所述中文文本的分词进行过滤得到指定分词,并得到由所述指定分词和所述标点构成的所述指定文本;其中,所述指定分词为具有情感属性的分词。在上述方案中,所述装置还包括:词典扩展单元,用于:对于不存在于所述情感词典中第一情感词,分别统计语料库中第二情感词与所述第一情感词同时出现的次数、所述第二情感词出现的次数;其中,第二情感词为与所述第一情感词同时出现次数最多的情感词;根据所述同时出现的次数和所述第二情感词出现的次数得到权值,根据所述第二情感词的情感分值和所述权值得到所述第一情感词的情感分值,将所述第一情感词和第一情感词对应的情感分值存储在所述情感词典中。在上述方案中,所述特征值分析单元根据情感词典对所述指定文本进行情感分析得到第一情感特征值包括:根据所述情感词典对所述指定文本中的句子进行情感分析,确定每一个句子的文本内容的情感分数;对于每一个句子,获取每一个句子的句式和/或标点符号对应的情感权值,根据所述句式和/或标点符号对应的情感权值对所述句式和/或标点符号所属的句子的文本内容的情感分数进行修改后得到所述句子的情感分数;根据所述句子的情感分数确定所述指定文本的第一情感特征值。在上述方案中,所述特征值分析单元确定每一个句子的文本内容的情感分数包括:根据所述情感词典确定指定文本的每一个情感词对应的情感分值,并获取所述情感词的情感系数,所述情感系数根据所述情感词前面出现的情感副词和/或否定词确定;根据所述情感词对应的情感分值和所述情感词的情感系数确定所述情感词的情感分数,根据所述情感词的情感分数确定所述指定文本的每一个句子的文本内容的情感分数。在上述方案中,所述特征值分析单元还用于:根据所述情感词典统计所述指定文本的正向情感词的比例、负向情感词的比例和预设标点符号的个数,并得到由所述正向情感词的比例、所述负向情感词的比例和所述预设标点符号的个数组成的第三情感特征向量;所述融合单元根据所述第一情感特征值、所述第二情感特征值和所述第三情感特征向量得到所述特征集合。本专利技术实施例的基于中文文本进行情感倾向分析的方法及装置,获取待测的中文本文,对所述中文文本中本文档来自技高网...
一种基于中文文本进行情感倾向分析的方法及装置

【技术保护点】
一种基于中文文本进行情感倾向分析的方法,其特征在于,所述方法包括:获取待测的中文本文,对所述中文文本中进行文本预处理得到所述中文文本中的指定文本;根据情感词典对所述指定文本进行情感分析得到第一情感特征值,并根据训练模型中的语料特征词典对所述指定文本进行情感分析得到第二情感特征值;根据所述第一情感特征值和所述第二情感特征值得到特征集合,将所述特征集合作为随机森林RF训练模型的输入特征向量进行情感预测,得到所述中文文本的情感倾向。

【技术特征摘要】
1.一种基于中文文本进行情感倾向分析的方法,其特征在于,所述方法包括:获取待测的中文本文,对所述中文文本中进行文本预处理得到所述中文文本中的指定文本;根据情感词典对所述指定文本进行情感分析得到第一情感特征值,并根据训练模型中的语料特征词典对所述指定文本进行情感分析得到第二情感特征值;根据所述第一情感特征值和所述第二情感特征值得到特征集合,将所述特征集合作为随机森林RF训练模型的输入特征向量进行情感预测,得到所述中文文本的情感倾向。2.根据权利要求1所述的方法,其特征在于,所述对所述中文文本中进行文本预处理得到所述中文文本中的指定文本包括:对所述中文文本中进行文本切分处理得到所述中文文本的每一个分词和标点,并标注每一个分词的词性;根据词性对所述中文文本的分词进行过滤得到指定分词,并得到由所述指定分词和所述标点构成的所述指定文本;其中,所述指定分词为具有情感属性的分词。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:对于不存在于所述情感词典中第一情感词,分别统计语料库中第二情感词与所述第一情感词同时出现的次数、所述第二情感词出现的次数;其中,第二情感词为与所述第一情感词同时出现次数最多的情感词;根据所述同时出现的次数和所述第二情感词出现的次数得到权值,根据所述第二情感词的情感分值和所述权值得到所述第一情感词的情感分值,将所述第一情感词和第一情感词对应的情感分值存储在所述情感词典中。4.根据权利要求1或3所述的方法,其特征在于,所述根据情感词典对所述指定文本进行情感分析得到第一情感特征值包括:根据所述情感词典对所述指定文本中的句子进行情感分析,确定每一个句子的文本内容的情感分数;对于每一个句子,获取每一个句子的句式和/或标点符号对应的情感权值,根据所述句式和/或标点符号对应的情感权值对所述句式和/或标点符号所属的句子的文本内容的情感分数进行修改后得到所述句子的情感分数;根据所述句子的情感分数确定所述指定文本的第一情感特征值。5.根据权利要求4所述的方法,其特征在于,所述确定每一个句子的文本内容的情感分数包括:根据所述情感词典确定所述指定文本的每一个情感词对应的情感分值,并获取所述情感词的情感系数,所述情感系数根据所述情感词前面出现的情感副词和/或否定词确定;根据所述情感词对应的情感分值和所述情感词的情感系数确定所述情感词的情感分数,根据所述情感词的情感分数确定所述指定文本的每一个句子的文本内容的情感分数。6.根据权利要求1或3所述的方法,其特征在于,所述方法还包括:根据所述情感词典统计所述指定文本的正向情感词的比例、负向情感词的比例和预设标点符号的个数,并得到由所述正向情感词的比例、所述负向情感词的比例和所述预设标点符号的个数组成的第三情感特征向量;根据所述第一情感特征值、所述第二情感特征值和所述第三情感特征向量得到所述特征集合。7.一种基于中文文本进行情感倾向分析的装置,其特征在于,所述装置包括:预处理单元、特征值分析单...

【专利技术属性】
技术研发人员:杨希杜晓黎孙长秋
申请(专利权)人:中移苏州软件技术有限公司中国移动通信集团公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1