【技术实现步骤摘要】
一种面向用户角色的通用舆论信息情感识别方法
本专利技术涉及一种面向用户角色的通用舆论信息情感识别方法。
技术介绍
目前随着中国互联网的快速发展,网络媒体被公认为继报纸、电视之后反映社会舆情的主要载体,社会民众能够通过网络媒体(论坛、博客、微博)发表自己关心或利益相关的公共事件所持有的情绪、意见、态度等言论。通过对丰富情感的网络舆论信息分析,政府用户可以了解社会各个阶层民众的情绪、态度、看法以及意见和行为倾向,获取社情民意以引导社会健康发展;企业用户能够第一时间快速预警负面舆情,及时发现和处理企业的负面信息,保持企业的健康良好形象,因此舆论信息情感倾向识别分析已经成为政府、企业舆情监测工作内容的一部分。目前舆论情感倾向识别方法主要有三种,基于情感词标注的方法、基于语义模式分析方法及基于机器学习的倾向性分析方法。基于情感词标注的方法通过分析带有语气词的特征来判断倾向性,方法简单易用,但严重依赖于标注专家且不利用训练样本;基于语义模式分析方法利用自然语言处理技术,通过识别特定主题词与语气表达式之间的关系进行倾向性分析,但受限自然语言处理技术,实用性不足;而基于机器学习的 ...
【技术保护点】
1.一种面向用户角色的通用舆论信息情感识别方法,其特征在于,包括如下步骤:步骤1,采集舆论信息数据训练集,对数据集中的舆论信息内容进行分词;步骤2,对数据集中的舆论信息内容进行情感倾向初始标注,得到情感倾向初始标注数据集;步骤3,提取语义特征,形成语义特征数据集;步骤4,构建CNN分类模型,基于语义特征数据集及情感倾向初始标注数据集构建CNN分类模型,实现舆论信息情感倾向分类识别;步骤5,情感倾向标注修正,利用基于在线情感标注的反馈手段,实现专有特定用户的情感倾向标注修正;步骤6,利用用户修正的数据集,定期或按需重新训练CNN分类模型,形成面向用户的专有情感识别分类器。
【技术特征摘要】
1.一种面向用户角色的通用舆论信息情感识别方法,其特征在于,包括如下步骤:步骤1,采集舆论信息数据训练集,对数据集中的舆论信息内容进行分词;步骤2,对数据集中的舆论信息内容进行情感倾向初始标注,得到情感倾向初始标注数据集;步骤3,提取语义特征,形成语义特征数据集;步骤4,构建CNN分类模型,基于语义特征数据集及情感倾向初始标注数据集构建CNN分类模型,实现舆论信息情感倾向分类识别;步骤5,情感倾向标注修正,利用基于在线情感标注的反馈手段,实现专有特定用户的情感倾向标注修正;步骤6,利用用户修正的数据集,定期或按需重新训练CNN分类模型,形成面向用户的专有情感识别分类器。2.根据权利要求1所述的方法,其特征在于,步骤1包括:利用开源工具Ansj或Hanlp工具包,基于用户行业或领域自定义词典对数据集中的舆论信息内容进行分词。3.根据权利要求2所述的方法,其特征在于,步骤2包括:将情感倾向分为正面、负面及中性三种类别,利用通用语气倾向性词典,对数据集中的舆论信息内容进行语气极性判别和情感倾向初始标注,即对待标注舆论分别进行词典比对,计算三种极性词语总数,...
【专利技术属性】
技术研发人员:钱夔,严红,顾宁平,韩国辉,陈晓琳,徐立洲,肖志宇,
申请(专利权)人:中国电子科技集团公司第二十八研究所,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。