一种负面舆情指数的计算方法及系统技术方案

技术编号:12135992 阅读:93 留言:0更新日期:2015-09-30 18:40
本发明专利技术涉及一种负面舆情指数的计算方法及系统,包括步骤S1,对待分类文本进行基于情感词典的正负面分类和基于Mode l模型的SVM分类,分别得到分类结果1和分类结果2;步骤S2,若所述分类结果1与所述分类结果2的值都为负面,则认为待分类文本为负面,继续执行步骤S3;若所述分类结果1与所述分类结果2的值不都为负面,则认为待分类文本为非负面,计算结束;步骤S3,将待分类文本分别与用户标注负面词典和训练集关键词典匹配,分别得到负面指标1和负面指标2;步骤S4,将所述分类结果1、所述负面指标1和所述负面指标2进行线性组合,得到待分类文本的负面舆情指数。本发明专利技术计算出的负面舆情指数准确率高,计算语料范围广且能够实时计算。

【技术实现步骤摘要】

本专利技术设及领域,尤其设及一种负面舆情指数的计算方法及系统
技术介绍
据中国互联网络信息中屯、(CNNIC)统计,截止2014年12月,中国网民规模达6. 49 亿。互联网普及率达到47.9%,较2013年底提升了 2.1个百分点。2014年,中国网民的人 均每周上网时长达26. 1小时,相比2013年底增加了 1. 1个小时。该说明互联网发展重屯、 从"广泛"向"深入"转换,各项网络应用深刻改变网民生活。 随着互联网的发展,互联网络作为社会舆论的工具,具有反应和引导社会舆论的 功能。针对该种自由无序的网络舆情信息,网络舆情指数计算的导向作用显得日益强大。及 时掌握舆情动态、积极引导社会舆情,是维护社会稳定的重要举措。因此,舆情指数计算是 研究舆情监控、事态推演W及预测等技术的基础,研究负面舆情指数计算具有重要的理论 和实际意义。 负面舆情指数计算的理论方法主要是文本(本专利技术主要处理中文文本)分类中的 二分类问题(负面与非负面),在文本分类中主要设及分词处理、特征选择、文本表示、文本 分类算法、评价指标等。 目前中国人民大学舆论研究所与百度合作,基于百度的海量捜索数据提出了中国 冷暖度指数等14个舆情指数。他们认为捜索量的高低反映了民众对该关键词所代表事件 的关注程度。百度每年汇总出全年捜索量最高和关注热度上升最快的前1000个捜索热词, 由之可W较为粗略地"刻画"出中国网民关注中国社会的"素描图"。该种技术对热捜词做 了综合的和整体式的解读,但如果对整个社会基本面的宏观把握和理解所需的周期太长, 对一个事件的舆情判断至少需要数天、数周甚至数月。 为了避免人工标注训练集进行有监督的舆情指数计算,有的学者提出用无监督聚 类的方法实现对舆情指数的计算。使用无监督聚类方法首先在效果上不如有监督的文本分 类,聚类簇数事先是未知的。其次,在超大规模数据集上的效率是否在可接受范围内还需要 考证。 对文本进行特征选择后用VSM描述特征空间会存在一种缺陷,即特征空间的数据 稀疏性,并且仅使用VSM描述不做任何处理的话不能很好的反映词汇间的语义关系。[000引南京大学的王吴与苏新宁提出一种基于条件随机场(Conditional Random Fields, CRFs)的角色标注模型。利用该模型对新闻或论坛讨论帖的标题进行角色标注,通 过对人名出现次数的统计结合人名的背景进行舆情关注点的发现。但是该模型需要的舆情 发现语料集封闭性的,具有一定的限制性。
技术实现思路
本专利技术所要解决的技术问题是提供一种负面舆情指数的计算方法及系统。 本专利技术解决上述技术问题的技术方案如下:一种负面舆情指数的计算方法,包括 w下步骤: 步骤Sl,对待分类文本进行基于情感词典的正负面分类和基于Model模型的SVM 分类,分别得到分类结果1和分类结果2 ; 步骤S2,若所述分类结果1与所述分类结果2的值都为负面,则认为待分类文本为 负面,继续执行步骤S3 ;若所述分类结果1与所述分类结果2的值不都为负面,则认为待分 类文本为非负面,计算结束; 步骤S3,将待分类文本分别与用户标注负面词典和训练集关键词典匹配,分别得 到负面指标1和负面指标2 ; 步骤S4,将所述分类结果1、所述负面指标1和所述负面指标2进行线性组合,得 到待分类文本的负面舆情指数。 在上述技术方案的基础上,本专利技术还可W做如下改进。 进一步地,在执行步骤S1之前,还包括在待分类文本是垃圾网页的情况下对待分 类文本进行过滤。 进一步地,步骤S3中所述用户标注负面词典即用户对多篇语料进行正负面人工 标注形成的词典; 所述训练集关键词典的形成包括;对训练集中的负面语料进行ICTCLAS分词处理 并进行VSM文本表示,然后进行TFIDF特征选择,从TFIDF特征选择的结果中抽取TFIDF权 重最大的前P个关键词,其中P为大于等于1的整数;将所述训练集中的负面语料抽取的关 键词去重、归一化权重后即形所述成训练集关键词典;其中所述训练集为人工标注正负面 的正面语料和负面语料的集合。 进一步地,步骤S1中,所述基于情感词典的正负面分类为基于通用情感词典的无 监督分类器对待分类文本进行分类; 所述Model模型的形成包括W下步骤: 对所述训练集进行TFIDF特征选择,并将TFIDF特征选择后的结果用矩阵Amx。表 示,其中m表示训练集中关键词的总数,m为大于等于1的整数,n表示训练集中语料总数, n为大于等于1的整数;[00巧对矩阵Amxn进行奇异值分解,SVD(AmXn) = UmXmSmxjTnXn,其中Umxm矩为mXm的 方阵,Zmxn为mXn的对角矩阵,VT。^。为nXn的方阵;[002引取矩阵Amxn的前k个奇异值对应的矩阵V Tkxn来表示矩阵A mxn,其中k为大于等于 1的整数; 对矩阵yTkx进行SVM训练,得到Model模型。 进一步地,步骤S4后还包括将负面舆情指数值超过预定阔值的待分类文本和所 述分类结果1与所述分类结果2的值均为非负面的待分类文本作为新的负面和非负面语料 更新所述训练集。 本专利技术解决上述技术问题的另一种技术方案如下;一种负面舆情指数的计算系 统,包括基于情感词典的正负面分类模块、基于Model模型的SVM分类模块、正负面判断模 块、用户标注负面词典匹配模块、训练集关键词典匹配模块和线性组合模块; 所述基于情感词典的正负面分类模块用于对待分类文本进行基于情感词典的正 负面分类并得到分类结果1 ;[002引所述基于Model模型的SVM分类模块用于对待分类文本进行基于Model模型的SVM分类并得到分类结果2; 所述正负面判断模块用于判断分类结果1和分类结果2的正负面; 所述用户标注负面词典匹配模块用于将待分类文本与用户标注负面词典匹配,得 到负面指标1 ; 所述训练集关键词典匹配模块用于将待分类文本与训练集关键词典匹配,得到负 面指标2 ; 所述线性组合模块用于将分类结果1、负面指标1和负面指标2进行线性组合,得 到待分类文本的负面舆情指数。 在上述技术方案的基础上,本专利技术还可W做如下改进。 进一步地,所述的负面舆情指数的计算系统还包括待分类文本过滤模块,用于在 待分类文本是垃圾网页的情况下对待分类文本进行过滤。 进一步地,所述用户标注负面词典即用户对多篇语料进行正负面人工标注形成的 词典; 所述训练集关键词典的形成包括;对训练集的负面语料进行ICTCLAS分词处理并 进行VSM文本表示,然后进行TFIDF特征选择,从TFIDF特征选择的结果中抽取TFIDF权重 最大的前P个关键词,其中P为大于等于1的整数;将所述训练集中的负面语料抽取的关键 词去重、归一化权重后即形所述成训练集关键词典;其中所述训练集为人工标注正负面的 正面语料和负面语料的集合。 进一步地,所述基于情感词典的正负面分类模块包括基于通用情感词典的无监督 分类器对待分类文本进行分类;[003引所述基于Model模型的SVM分类模块中所述Model模型的形成包括W下步骤: 对所述训练集进行TFIDF特征选择,并将TFIDF特征选择后的结果用矩阵Amx。表 示,其中m表示训练集中关键词的总数,m为大于等于1的整数,n表示训练集中语料总数, n为大于等于1的整数; 本文档来自技高网
...
一种负面舆情指数的计算方法及系统

【技术保护点】
一种负面舆情指数的计算方法,其特征在于,包括以下步骤:步骤S1,对待分类文本进行基于情感词典的正负面分类和基于Model模型的SVM分类,分别得到分类结果1和分类结果2;步骤S2,若所述分类结果1与所述分类结果2的值都为负面,则认为待分类文本为负面,继续执行步骤S3;若所述分类结果1与所述分类结果2的值不都为负面,则认为待分类文本为非负面,计算结束;步骤S3,将待分类文本分别与用户标注负面词典和训练集关键词典匹配,分别得到负面指标1和负面指标2;步骤S4,将所述分类结果1、所述负面指标1和所述负面指标2进行线性组合,得到待分类文本的负面舆情指数。

【技术特征摘要】

【专利技术属性】
技术研发人员:李雪梅刘大伟刘玮王海洋隋雪青程学旗戴鹏飞
申请(专利权)人:烟台中科网络技术研究所
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1