基于主动监测引擎和大数据的网络舆情烈度演化分析系统技术方案

技术编号:25270831 阅读:36 留言:0更新日期:2020-08-14 23:04
本发明专利技术涉及互联网信息处理分析技术领域,公开了基于主动监测引擎和大数据的网络舆情烈度演化分析系统,包括主动监测引擎技术、NLP技术实现信息的数据分析单元中的情感分析功能和大数据技术,所述主动监测引擎技术是以网络爬虫为核心的舆论大数据监测系统,对网络空间中的信息进行主动探测,以监测数据源和采集信息。本发明专利技术运用舆情信息烈度演化模型分析,能更全面地研判网络舆情的演化以及其是否需要重视和关注等,为舆情信息监测和处置提供了更准确、更可靠的结果。强化了舆情研判和处置过程中的舆情信息烈度演化的实时监测和预警能力,对避免舆情隐患、舆情征兆向舆情风险、舆情事件扩散,全面提升品牌价值可以起到显著效果。

【技术实现步骤摘要】
基于主动监测引擎和大数据的网络舆情烈度演化分析系统
本专利技术涉及互联网信息处理分析
,具体是基于主动监测引擎和大数据的网络舆情烈度演化分析系统。
技术介绍
随着互联网的飞速发展,我国的网民规模、网络信息的数量和访问量都在以较快的速度增长着,中国互联网络信息中心(CNNIC)发布的第44次《中国互联网络发展状况统计报告》显示,截至2019年6月,我国网民规模达8.54亿,其中手机网民规模达到了8.47亿,互联网普及率为61.2%,网民使用手机上网的比例达99.1%,网络正在成为人们每天获取信息、表达观点、相互交流所不可或缺的媒介与工具。网络的自由性、交互性、匿名性与多元化也使互联网成为了一个巨大的民意空间,在这个空间中就极容易引发舆情,对于企业来说,如何准确定位网络上的舆情,把握舆情演化方向,及时处置负面舆论,维护企业良好品牌形象,是一项重要课题。因此,本领域技术人员提供了基于主动监测引擎和大数据的网络舆情烈度演化分析系统,以解决上述
技术介绍
中提出的问题。
技术实现思路
本专利技术的目的在于提供基于主动监测引擎和大数据的网络舆情烈度演化分析系统,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:基于主动监测引擎和大数据的网络舆情烈度演化分析系统,包括主动监测引擎技术、NLP技术实现信息的数据分析单元中的情感分析功能和大数据技术,所述主动监测引擎技术是以网络爬虫为核心的舆论大数据监测系统,对网络空间中的信息进行主动探测,以监测数据源和采集信息;所述NLP技术实现信息的数据分析单元中的情感分析功能针对采集到的数据,根据预定义的行业、地域及行业专属名词等关键词,通过NLP技术对文本信息进行分词处理;所述大数据技术利用大数据技术对海量数据进行分析,包括舆情信息的热点话题的传播趋势分析,可以基于舆情大数据分析生成舆情趋势图、地域分布图、正负面占比图、传播路径图、媒体覆盖比例、信息来源媒体列表、舆情信息列表等各类图表。作为本专利技术再进一步的方案:所述监测数据源包括新闻、平媒、论坛、贴吧、博客、微博、微信、新闻客户端等媒体,采集信息包括标题、URL、发布时间、正文、图片、媒体名称、摘要、发布者等信息。作为本专利技术再进一步的方案:所述主动监测引擎技术包括舆情数据采集、舆情数据处理、舆情数据判断、舆情数据浏览、舆情数据分析、舆情信息预警和舆情信息烈度演化分析,其实现包括以下步骤:S1、根据系统定义的关键词以及数据源,使用网络爬虫采集网络舆情信息,同时抽取文章的浏览量、回复量,并自动计算转载量和来源网站;S2、采集到的数据利用URL内存进行去重,通过单通道多路消息队列实现写入数据队列,入持久库并索引,写入中间库,通过格式化数据,去掉垃圾词和垃圾网站,实现数据的初步清洗;S3、对信息进行自动分类,自动按照关键词分类,自动区分正负面,并自动计算文章权重,判断舆情的类别以及性质;S4、以列表方式展示舆情信息,包括舆情信息的标题、摘要、发布时间、媒体来源、发布者、相同信息条数等项目,用户在浏览信息时,根据需求点击信息下方图标,将指定信息加入关注、加入预警、标为负面、标为正面、标为中性、删除;S5、根据关键词,实现舆情事件专题预览,将关于该事件的所有报道集中在一个专题里面,进行舆情信息的展示和分析,包括该舆情随时间的舆情数量变化趋势,根据文章的回复可进行网民态度的分析,判断其是正面、中性或负面;根据文章的来源网站,进行报道分析的传播途径的一键溯源;S6、当系统发现负面信息后,进一步计算该信息是否存在危险性,当出现高危信息后,会进行自动预警。在公共预警基础上,系统可以设置用户对应的主体预警词和信息,结合特有的高危实体识别以及情感强度计算,确保预警无人工干预的准确性;S7、通过综合分析负面舆情信息的源发媒体、首发时间、话题类别、跟帖量、转帖量、态度倾向、是否被大V关注、是否被主流媒体转载、是否和当前社会热点关联等因素,通过舆情信息时间-烈度演化分析模型,判断舆情的风险系数,如果超出安全阈值,则对用户发出预警提醒。作为本专利技术再进一步的方案:所述NLP技术实现信息的数据分析单元中的情感分析功能通过对不同语言要素(词、词组、短语、句式)的识别进行文章级别情感的识别,通过多年增量训练与专家积累的中文倾向性句式和短语的连用关系识别技术,可以将文章拆分为小的倾向区域,对于每个小的倾向区域进行统一情感权重计算,获取文章的具体整体情感。作为本专利技术再进一步的方案:所述NLP技术实现信息的数据分析单元中的情感分析功能在对文章整体情感的识别以外,还可以对专题事件中的文章或评论中所秉持的观点进行分类映射和正负面判断,针对网民对于事件的情感方向和重要观点进行分析,评论具有文本短小、多重含义和语言自由性强的特点,所以系统结合小文本分类和信息指纹加权技术对于特征放大后进一步将用户所秉持的观点进行提取,观点提取后,基于观点进行进一步的微观的情感识别和正负面判断。作为本专利技术再进一步的方案:所述舆情信息烈度演化分析包括红色预警分析、橙色预警分析、黄色预警分析和蓝色预警分析,所述红色预警分析为一级舆情烈度,表示该舆情传播速度极快,网民关注度极高,影响面极大,即将转化为实际行为,橙色预警分析为二级舆情烈度,表示该舆情传播速度较快,网民关注度较高,影响面较大,可能转化为实际行为,黄色预警分析为三级舆情烈度,表示该舆情传播速度一般,网民关注度一般,影响面一般,不太可能转化为实际行为,蓝色预警分析为四级舆情烈度,表示该舆情传播速度较慢,网民关注度较低,影响面较小,不能转化为实际行为,当同一篇新闻、平媒、论坛、贴吧、博客、微博、微信、新闻客户端的点击多、回复多、引用多,其关注度就高,舆情分析样本发表与传播之间的时间差越小,其传播速度就越快,权威媒体、大V等转发的越多,其影响面就越大。与现有技术相比,本专利技术的有益效果:1、运用网络爬虫、NLP、大数据、文本聚类等技术手段,实时监测舆情信息的源发媒体、首发时间、话题类别、跟帖量、转帖量、是否被大V关注、是否被主流媒体转载、是否和当前社会热点关联、原有相似舆情是否引起舆情事件等内容,用于指导对舆情信息的定级定话题和舆情的处置引导,并对舆情信息的发展态势开展预测预判,从而可以及时了解和掌握网络舆情信息的发展状况以及是否有扩大蔓延的苗头性的隐患。2、利用网络爬虫、NLP等技术手段,实现了对网络舆情信息的自动监测,从而避免了通过人工手段对舆情信息的烈度演化进行逐条分析的方法,大大了提高工作效率。3、通过把舆情信息烈度演化分析分为红色预警分析、橙色预警分析、黄色预警分析和蓝色预警分析四个等级,能更全面地研判网络舆情的演化以及其是否需要重视和关注等,为舆情信息监测和处置提供了更准确、更可靠的结果,针对不同的舆情烈度分析采取不同的对策,强化了舆情研判和处置过程中的舆情信息烈度演化的实时监测和预警能力,对避免舆情隐患、舆情征兆向舆情风险、舆情事件扩散,全面提升品牌价值可以起到显著效果。...

【技术保护点】
1.基于主动监测引擎和大数据的网络舆情烈度演化分析系统,包括主动监测引擎技术、NLP技术实现信息的数据分析单元中的情感分析功能和大数据技术,其特征在于,所述主动监测引擎技术是以网络爬虫为核心的舆论大数据监测系统,对网络空间中的信息进行主动探测,以监测数据源和采集信息;/n所述NLP技术实现信息的数据分析单元中的情感分析功能,针对采集到的数据,根据预定义的行业、地域及行业专属名词等关键词,通过NLP技术对文本信息进行分词处理;/n所述大数据技术利用大数据技术对海量数据进行分析,包括舆情信息的热点话题的传播趋势分析,可以基于舆情大数据分析生成舆情趋势图、地域分布图、正负面占比图、传播路径图、媒体覆盖比例、信息来源媒体列表、舆情信息列表等各类图表。/n

【技术特征摘要】
1.基于主动监测引擎和大数据的网络舆情烈度演化分析系统,包括主动监测引擎技术、NLP技术实现信息的数据分析单元中的情感分析功能和大数据技术,其特征在于,所述主动监测引擎技术是以网络爬虫为核心的舆论大数据监测系统,对网络空间中的信息进行主动探测,以监测数据源和采集信息;
所述NLP技术实现信息的数据分析单元中的情感分析功能,针对采集到的数据,根据预定义的行业、地域及行业专属名词等关键词,通过NLP技术对文本信息进行分词处理;
所述大数据技术利用大数据技术对海量数据进行分析,包括舆情信息的热点话题的传播趋势分析,可以基于舆情大数据分析生成舆情趋势图、地域分布图、正负面占比图、传播路径图、媒体覆盖比例、信息来源媒体列表、舆情信息列表等各类图表。


2.根据权利要求1所述的基于主动监测引擎和大数据的网络舆情烈度演化分析系统,其特征在于,所述监测数据源包括新闻、平媒、论坛、贴吧、博客、微博、微信、新闻客户端等媒体,采集信息包括标题、URL、发布时间、正文、图片、媒体名称、摘要、发布者等信息。


3.根据权利要求1所述的基于主动监测引擎和大数据的网络舆情烈度演化分析系统,其特征在于,所述主动监测引擎技术包括舆情数据采集、舆情数据处理、舆情数据判断、舆情数据浏览、舆情数据分析、舆情信息预警和舆情信息烈度演化分析,其实现包括以下步骤:
S1、根据系统定义的关键词以及数据源,使用网络爬虫采集网络舆情信息,同时抽取文章的浏览量、回复量,并自动计算转载量和来源网站;
S2、采集到的数据利用URL内存进行去重,通过单通道多路消息队列实现写入数据队列,入持久库并索引,写入中间库,通过格式化数据,去掉垃圾词和垃圾网站,实现数据的初步清洗;
S3、对信息进行自动分类,自动按照关键词分类,自动区分正负面,并自动计算文章权重,判断舆情的类别以及性质;
S4、以列表方式展示舆情信息,包括舆情信息的标题、摘要、发布时间、媒体来源、发布者、相同信息条数等项目,用户在浏览信息时,根据需求点击信息下方图标,将指定信息加入关注、加入预警、标为负面、标为正面、标为中性、删除;
S5、根据关键词,实现舆情事件专题预览,将关于该事件的所有报道集中在一个专题里面,进行舆情信息的展示和分析,包括该舆情随时间的舆情数量变化趋势,根据文章的回复可进行网民态度的分析,判断其是正面、中性或负面;根据文章的来源网站,进行报道分析的传播途径的一键溯源;
S6、当系统发现负面信息后,进一步计算该信...

【专利技术属性】
技术研发人员:杨森王黎李超郭栋
申请(专利权)人:国网山东省电力公司检修公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1