一种面向用户角色的通用舆论信息情感识别方法技术

技术编号:19691937 阅读:32 留言:0更新日期:2018-12-08 11:12
本发明专利技术公开了一种面向用户角色的通用舆论信息情感识别方法,能够结合用户角色信息和语义内容特征,实现舆论信息情感倾向精准识别,为后续舆论引导及事件处置提供支撑。利用通用语气倾向性词典构建初始情感倾向标注集,并训练CNN模型实现舆论内容情感倾向分类预测,基于在线情感标注的反馈手段,完成面向用户的情感倾向修正,利用修正后的情感倾向标注集重新训练模型,提高情感倾向识别率,最终面向用户的舆论信息情感倾向精准识别。本发明专利技术是面向多用户复杂语义的情感分析场景下的通用技术,较现有技术既解决基于语义内容的复杂舆论信息情感倾向识别,又能结合用户角色提供在线情感倾向修正能力,实现识别模型自修正与学习。

【技术实现步骤摘要】
一种面向用户角色的通用舆论信息情感识别方法
本专利技术涉及一种面向用户角色的通用舆论信息情感识别方法。
技术介绍
目前随着中国互联网的快速发展,网络媒体被公认为继报纸、电视之后反映社会舆情的主要载体,社会民众能够通过网络媒体(论坛、博客、微博)发表自己关心或利益相关的公共事件所持有的情绪、意见、态度等言论。通过对丰富情感的网络舆论信息分析,政府用户可以了解社会各个阶层民众的情绪、态度、看法以及意见和行为倾向,获取社情民意以引导社会健康发展;企业用户能够第一时间快速预警负面舆情,及时发现和处理企业的负面信息,保持企业的健康良好形象,因此舆论信息情感倾向识别分析已经成为政府、企业舆情监测工作内容的一部分。目前舆论情感倾向识别方法主要有三种,基于情感词标注的方法、基于语义模式分析方法及基于机器学习的倾向性分析方法。基于情感词标注的方法通过分析带有语气词的特征来判断倾向性,方法简单易用,但严重依赖于标注专家且不利用训练样本;基于语义模式分析方法利用自然语言处理技术,通过识别特定主题词与语气表达式之间的关系进行倾向性分析,但受限自然语言处理技术,实用性不足;而基于机器学习的倾向性分析方法又取决于训练集的大小与质量,同时具有很强的领域或主题依赖性,因而这类有监督的情感分析方法的效果仍然难以保证。特别是情感分析不仅仅是语气倾向性,还同用户角色及语义内容密切相关,如网络舆情内容中出现暴雪天气,对于当地交通部门来说,是负面倾向,因为暴雪会影响交通出行;对于当地气象部门来说,则是中性情感,发布极端天气预警是正常工作内容。在语义内容上,如表扬气象局发布暴雪天气信息准确,这是正面信息,若责怪、调侃气象局发布信息不准,则是负面信息。现有舆论情感倾向识别方法均是局限在某个特定领域或者关联于某个话题下进行倾向性的分析,不能很好地解决多用户复杂语义的情感分析,还缺乏一般性的通用技术。
技术实现思路
针对现有技术的不足,本专利技术提供了一种面向用户角色的通用舆论信息情感识别方法,包括如下步骤:步骤1,采集舆论信息数据训练集,对数据集中的舆论信息内容进行分词;步骤2,对数据集中的舆论信息内容进行情感倾向初始标注,得到情感倾向初始标注数据集;步骤3,提取语义特征,形成语义特征数据集;步骤4,构建CNN(ConvolutionalNeuralNetwork,卷积神经网络)分类模型,基于语义特征数据集及情感倾向初始标注数据集构建CNN分类模型,实现舆论信息情感倾向分类识别;步骤5,情感倾向标注修正,利用基于在线情感标注的反馈手段,实现专有特定用户的情感倾向标注修正;步骤6,定期或按需重新训练CNN分类模型,形成面向用户的专有情感识别分类器。步骤1包括:利用开源工具Ansj或Hanlp工具包,基于用户行业或领域自定义词典对数据集中的舆论信息内容进行分词,可在https://github.com/NLPchina/ansj_seg等网站下载。步骤2包括:将情感倾向分为正面、负面及中性三种类别,利用传统方法中基于通用语气倾向性词典,对数据集中的舆论信息内容进行语气极性判别和情感倾向初始标注,即对待标注舆论分别进行词典比对,计算三种极性词语总数,如果正面词多,则初始标注为正面;如负面词多,则初始标注为负面;若相等,则标注为中性。步骤3包括:基于步骤1的分词结果,利用doc2vec(文档转向量)原理(https://arxiv.org/pdf/1405.4053.pdf),基于大数据平台并行计算引擎Spark,进行词向量化转换,提取舆论信息语义表征,形成语义特征数据集。步骤4包括:CNN分类模型的输入即为语义特征数据集及情感倾向初始标注数据集,输出为情感倾向识别类型,基于CNN分类模型方法(ConvolutionalNeuralNetworksforSentenceClassification,https://arxiv.org/abs/1408.5882),实现初始的敏感舆论信息内容情感倾向的分类识别。步骤5包括:利用用户在线浏览敏感舆情信息时(用户关注的关键词即为敏感词,敏感信息即用户行业领域关注的信息),提供人机交互的在线情感标注的反馈手段,即通过页面点击修正情感倾向,使得用户能够通过人机交互方式完成情感倾向标注修改,实现结合用户角色的情感倾向标注修正。步骤6包括:利用用户日常工作时修正过的情感倾向标注数据,定期或按需重新训练CNN分类模型,不断提高情感倾向识别正确率,最终形成面向用户的专有情感识别分类器,本专利技术利用通用语气倾向性词典构建初始情感倾向标注集,并训练CNN(卷积神经网络)模型实现舆论内容情感倾向分类预测,基于在线情感标注的反馈手段,完成面向用户的情感倾向修正,利用修正后的情感倾向标注集重新训练模型,提高情感倾向识别率,最终面向用户的舆论信息情感倾向精准识别。本专利技术与现有技术相比,具有如下显著优点:1、本专利技术是一种通用的舆论信息情感倾向识别方法,结合用户角色信息,实现舆论信息情感倾向精准识别,为后续舆论引导及事件处置提供支撑;2、基于在线情感标注的反馈手段,在用户日常舆情监测工作时,可以基于人机交互的方式,方便地按需完成情感标注修正,为后续舆论信息情感倾向提供面向用户角色的正确标注;3、由于舆情的不确定性和多样性,在传统情感识别过程中,容易发生“主题漂移”现象,在先验知识不多的情况下,情感识别效果一般。本专利技术能够在先验知识不多的情况下,先利用通用的情感词典完成倾向标注,生成初始模型,随着用户的在线情感标注反馈,面向用户角色信息的正确标注逐渐增多,识别效果会大大改善。4、本专利技术在分词技术中采用了用户自定义词典,能够大大提高用户期望的分词效果,解决行业语义鸿沟,为后续面向用户角色的情感倾向识别提供相对准确的数据特征。5、用户可以自定义情感倾向词典或规则,且用户之间相互独立,屏蔽了面向多用户不同情感倾向词典的复杂操作。6、基于大数据平台计算引擎Spark计算doc2vec方法中的文档向量,不仅提升海量数据下的计算速度,同时通过文档的向量表达方式,有效解决舆论信息结构复杂、无情感词出现但有明显情感倾向的分析问题。7、使用本专利技术,不需要事先准备充足的情感词典定义,省去复杂的自然语言处理算法,在通用的情感倾向识别模型基础上,结合用户角色具备自修正能力,最终实现面向用户的情感倾向精准识别。附图说明下面结合附图和具体实施方式对本专利技术做更进一步的具体说明,本专利技术的上述或其他方面的优点将会变得更加清楚。图1是本专利技术的方法步骤示意图。图2是本专利技术的具体流程图。具体实施方式下面结合附图及实施例对本专利技术做进一步说明。如图1所示,本专利技术提供方法步骤示意图,包括以下步骤:步骤F01:舆论信息内容分词。根据用户行业或领域自定义词典对舆论信息内容分词,完成行业偏向性的分词采集。所述行业偏向性的分词采集,利用现有开源工具Ansj或Hanlp等工具包,基于用户行业或领域自定义词典对已采集到的舆论信息内容进行分词,获得相对准确的领域分词数据,提升后续情感倾向识别准确率。步骤F02:情感倾向初始标注。利用通用语气倾向性词典,实现语气极性判别和情感倾向初始标注。所述语气极性判别和情感倾向初始标注,采用简单易用的基于情感词标注的方法,利用通用语气倾向性词典实现语气极性判别,本发本文档来自技高网
...

【技术保护点】
1.一种面向用户角色的通用舆论信息情感识别方法,其特征在于,包括如下步骤:步骤1,采集舆论信息数据训练集,对数据集中的舆论信息内容进行分词;步骤2,对数据集中的舆论信息内容进行情感倾向初始标注,得到情感倾向初始标注数据集;步骤3,提取语义特征,形成语义特征数据集;步骤4,构建CNN分类模型,基于语义特征数据集及情感倾向初始标注数据集构建CNN分类模型,实现舆论信息情感倾向分类识别;步骤5,情感倾向标注修正,利用基于在线情感标注的反馈手段,实现专有特定用户的情感倾向标注修正;步骤6,利用用户修正的数据集,定期或按需重新训练CNN分类模型,形成面向用户的专有情感识别分类器。

【技术特征摘要】
1.一种面向用户角色的通用舆论信息情感识别方法,其特征在于,包括如下步骤:步骤1,采集舆论信息数据训练集,对数据集中的舆论信息内容进行分词;步骤2,对数据集中的舆论信息内容进行情感倾向初始标注,得到情感倾向初始标注数据集;步骤3,提取语义特征,形成语义特征数据集;步骤4,构建CNN分类模型,基于语义特征数据集及情感倾向初始标注数据集构建CNN分类模型,实现舆论信息情感倾向分类识别;步骤5,情感倾向标注修正,利用基于在线情感标注的反馈手段,实现专有特定用户的情感倾向标注修正;步骤6,利用用户修正的数据集,定期或按需重新训练CNN分类模型,形成面向用户的专有情感识别分类器。2.根据权利要求1所述的方法,其特征在于,步骤1包括:利用开源工具Ansj或Hanlp工具包,基于用户行业或领域自定义词典对数据集中的舆论信息内容进行分词。3.根据权利要求2所述的方法,其特征在于,步骤2包括:将情感倾向分为正面、负面及中性三种类别,利用通用语气倾向性词典,对数据集中的舆论信息内容进行语气极性判别和情感倾向初始标注,即对待标注舆论分别进行词典比对,计算三种极性词语总数,...

【专利技术属性】
技术研发人员:钱夔严红顾宁平韩国辉陈晓琳徐立洲肖志宇
申请(专利权)人:中国电子科技集团公司第二十八研究所
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1