网络舆情分析方法、装置及存储介质制造方法及图纸

技术编号:20329273 阅读:38 留言:0更新日期:2019-02-13 05:49
本发明专利技术提供一种网络舆情分析方法,包括:采集与第一预设关键词相关的舆情文章,对所述舆情文章进行分词处理;分别将每篇舆情文章对应的词汇集合与多个第二预设关键词进行匹配,为每篇舆情文章标注与第二预设关键词对应的第一标签;计算所述舆情文章的情感得分,判断所述舆情文章的情感倾向,并标注第二标签;分别统计每个第一标签对应的舆情文章总数及负面舆情文章数量;及,分别计算每个第一标签对应的负面舆情影响力及总舆情影响力,并计算每个第一标签的舆情健康度。本发明专利技术还提出一种电子装置及存储介质。利用本发明专利技术,可以提高对舆情的监控预警能力,帮助用户针对舆情事件进行相应决策。

【技术实现步骤摘要】
网络舆情分析方法、装置及存储介质
本专利技术涉及计算机
,尤其涉及一种网络舆情分析方法、电子装置及计算机可读存储介质。
技术介绍
网络舆情是指在网络上流行的对社会事件不同看法的网络舆论,是社会舆论的一种表现形式。近年来,网络舆情对生活秩序和社会稳定的影响与日俱增,一些重大的网络舆情事件使人们开始认识到网络对社会监督起到的巨大作用。同时,网络舆情突发事件如果处理不当,极有可能诱发民众的不良情绪,引发群众的违规和过激行为,进而对社会稳定构成威胁。因此,对于网络舆情状态的监测就变得尤为重要。目前舆情系统大多是通过舆情分析师筛选舆情,然后对系统进行跟踪,从而对事件在影响力上对其舆情状态有一个大致的判断,但是这种方案存在监测媒体源不够全面的缺陷,且无法直观地了解到网络舆情的舆情状态,进而导致无法及时准确地进行预警。
技术实现思路
本专利技术提供一种网络舆情分析方法、电子装置及计算机可读存储介质,其主要目的在于提高对舆情的监控预警能力。为实现上述目的,本专利技术提供一种网络舆情分析方法,该方法包括:通过网络爬虫从预设的数据渠道采集与第一预设关键词相关的舆情文章,对所述舆情文章进行分词处理,得到每篇舆情文章对应的词汇集合;分别将每篇舆情文章对应的词汇集合与多个第二预设关键词进行匹配,根据匹配结果为每篇舆情文章标注与第二预设关键词对应的第一标签;根据预设分析规则,计算所述舆情文章的情感得分,判断所述舆情文章的情感倾向,并为所述舆情文章标注第二标签;根据所述第一标签,统计每个第一标签对应的舆情文章的总数,根据所述第二标签,统计每个第一标签对应负面舆情文章的数量;及分别计算每个第一标签对应的负面舆情影响力及总舆情影响力,并计算每个第一标签的舆情健康度。此外,为实现上述目的,本专利技术提供一种电子装置,该装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的网络舆情分析程序,该程序被所述处理器执行时实现如上所述的网络舆情分析方法的任意步骤。此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有网络舆情分析程序,该程序被处理器执行时实现如上所述的网络舆情分析方法的任意步骤。相较于现有技术,本专利技术提出的网络舆情分析方法、电子装置及计算机可读存储介质,对采集的舆情文章进行聚类分析,构建观点主题,实现了对舆情文章的高度概括;利用情感评分模型计算概括得到的观点主题的情感得分,确定舆情文章的情感倾向,提高了对舆情文章的情感分析准确率;利用第一标签对采集的舆情文章进行分类,分别计算每个第一标签的负面舆情影响力及总舆情影响力,确定每个第一标签对应的舆情健康度,直观地展示了当前每个第一标签对应的舆情状况;通过舆情文章的分布信息生成每个第一标签对应的舆情分布图,通过舆情文章的传播路径确定每个第一标签对应的中心媒体,并基于舆情健康度较低的第一标签生成预警信息,提高了对舆情的监控预警能力。附图说明图1为本专利技术电子装置较佳实施例的示意图;图2为图1中网络舆情分析程序的程序模块示意图;图3为本专利技术网络舆情分析方法较佳实施例的流程图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供一种网络舆情分析方法,该方法应用于一种电子装置1。参照图1所示,为本专利技术电子装置1较佳实施例的示意图。在本实施例中,电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有数据处理功能的终端设备,所述服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器。该电子装置1包括存储器11、处理器12,通信总线13,及网络接口14。其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备,例如该电子装置1上配备的插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)等。进一步地,存储器11还可以既包括该电子装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于该电子装置1的应用软件及各类数据,例如网络舆情分析程序10等,还可以用于暂时地存储已经输出或者将要输出的数据。处理器12在一些实施例中可以是一中央处理器(CentralProcessingUnit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如网络舆情分析程序10等。通信总线13用于实现这些组件之间的连接通信。网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置1与其他电子设备之间建立通信连接。图1仅示出了具有组件11-14的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。可选地,该电子装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(OrganicLight-EmittingDiode,OLED)触摸器等。其中,显示器也可以称为显示屏或显示单元,用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。在图1所示的装置实施例中,存储器11中存储有网络舆情分析程序10。处理器12执行存储器11中存储的网络舆情分析程序10时实现如下步骤:通过网络爬虫从预设的数据渠道采集与第一预设关键词相关的舆情文章,对所述舆情文章进行分词处理,得到每篇舆情文章对应的词汇集合。以集团A为例对本专利技术的方案进行说明,假设需了解集团A的舆情现状,在采集关于集团A的舆情文章之前,需针对集团A预先设置相关的一个或多个第一预设关键词,例如,集团A的法人名称、集团A旗下各公司的法人名称等,并预先设置待爬取的统一资源定位符(URL)列表,使用网络爬虫根据上述URL列表中的URL地址及预先设置的一个或多个关键词,从预设的数据渠道采集预设时间内(例如,一周)与集团A相关的舆情文章。具体地,预设的数据渠道包括但不仅限于微博、微信、论坛、新闻门户等,从上述数据渠道获取到的舆情文章主要包括新闻评论、论坛帖子、微博博文、微信文章等。上述采集与预设关键词相关的舆情文章的频率可根据需要设置,例如,实时,或者设置固定的时间间隔(例如,1天),或者在接收到用户发出的采集指令时执行采集与预设关键词相关的舆情文章的步骤。采集到关于集团A在预设时间内的舆情文章后,对舆情文章进行分词处理:分别提取每篇舆情文章的正文数据,去除超级文本标记语言(HTML)标签数据(例如,图片、链接,甚至音乐、程序等非文字元素)、图像标记等无关数据,然后通过正则表达式去除正文数据中的非中文字符。然后,对保留的正文数据通过分词工具进行分词,将中文本文档来自技高网...

【技术保护点】
1.一种网络舆情分析方法,应用于电子装置,其特征在于,该方法包括:通过网络爬虫从预设的数据渠道采集与第一预设关键词相关的舆情文章,对所述舆情文章进行分词处理,得到每篇舆情文章对应的词汇集合;分别将每篇舆情文章对应的词汇集合与多个第二预设关键词进行匹配,根据匹配结果为每篇舆情文章标注与第二预设关键词对应的第一标签;根据预设分析规则,计算所述舆情文章的情感得分,判断所述舆情文章的情感倾向,并为所述舆情文章标注第二标签;根据所述第一标签,统计每个第一标签对应的舆情文章的总数,根据所述第二标签,统计每个第一标签对应负面舆情文章的数量;及分别计算每个第一标签对应的负面舆情影响力及总舆情影响力,并计算每个第一标签的舆情健康度。

【技术特征摘要】
1.一种网络舆情分析方法,应用于电子装置,其特征在于,该方法包括:通过网络爬虫从预设的数据渠道采集与第一预设关键词相关的舆情文章,对所述舆情文章进行分词处理,得到每篇舆情文章对应的词汇集合;分别将每篇舆情文章对应的词汇集合与多个第二预设关键词进行匹配,根据匹配结果为每篇舆情文章标注与第二预设关键词对应的第一标签;根据预设分析规则,计算所述舆情文章的情感得分,判断所述舆情文章的情感倾向,并为所述舆情文章标注第二标签;根据所述第一标签,统计每个第一标签对应的舆情文章的总数,根据所述第二标签,统计每个第一标签对应负面舆情文章的数量;及分别计算每个第一标签对应的负面舆情影响力及总舆情影响力,并计算每个第一标签的舆情健康度。2.如权利要求1所述的网络舆情分析方法,其特征在于,所述“根据预设分析规则,计算所述舆情文章的情感得分,判断所述舆情文章的情感倾向”的步骤包括:采用聚类算法对所述舆情文章进行聚类分析,生成多个观点主题,根据观点主题包含的舆情文章的词向量计算观点主题的词向量;及将观点主题的词向量输入到预先训练好的情感评分模型中,输出观点主题的情感得分;及根据情感得分确定观点主题对应的舆情文章所属的情感倾向。3.如权利要求2所述的网络舆情分析方法,其特征在于,所述“分别计算每个第一标签对应的负面舆情影响力及总舆情影响力”的步骤包括:分别获取所述多个第一标签对应的每篇舆情文章的发布媒体信息,根据发布媒体信息确定每个第一标签对应的每篇舆情文章对应的媒体权重指数及媒体级别指数;根据每个第一标签对应的负面舆情文章的媒体权重指数及媒体级别指数,计算每个第一标签对应的负面舆情文章的负面舆情影响力;及根据每个第一标签对应的舆情文章的媒体权重指数及媒体级别指数,计算每个第一标签对应的舆情文章的总舆情影响力。4.如权利要求3所述的网络舆情分析方法,其特征在于,所述负面舆情影响力的计算公式为为:其中,INp表示第一标签p对应的M1p篇负面舆情文章的负面舆情影响力,αi表示第一标签p对应的不同负面舆情文章i的媒体权重指数,βi表示第一标签p对应的不同负面舆情文章i的的媒体级别指数;所述总舆情影响力的计算公式为:其中,ITp表示第一标签p对应的M2p篇舆情文章的总舆情影响力,αi表示第一标签p对应的不同舆情文章i的媒体权重指数,βi表示第一标签p对应的不同舆情文章i的的媒体级别指数;及所述舆情健康度的计算公式为:H=(1-INp/ITp)*10其中,INp表示第一标签p对应的M1p篇负面舆情文章的负面舆情影响力,ITp表示第一标签p对应的M2p篇舆情文章的总舆情影响力。5.如权利要求1至4中任意一项所述的网络舆情分析方法...

【专利技术属性】
技术研发人员:李温键盛瑞生高巍华张兆轶苑利慧陆柏含
申请(专利权)人:中国平安保险集团股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1