电网舆情评价方法、存储介质及计算机技术

技术编号:19647079 阅读:27 留言:0更新日期:2018-12-05 20:32
一种电网舆情评价方法、存储介质及计算机,其中方法包括如下步骤,元数据采集,所述元数据采集为,通过元搜索采集、网络爬虫采集、API采集或关键词采集的方式采集电网舆情相关数据;对相关数据进行舆情预警指数计算,基于内容敏感性、来源影响力、转载情况及舆论环境情况获得舆情预警指数结果;解决网络信息实时动态的把握分析问题。

Evaluation Method, Storage Media and Computer of Public Opinion in Power Grid

The method includes the following steps: metadata acquisition. The metadata acquisition is to collect relevant data of power network public opinion through meta-search acquisition, network crawler acquisition, API acquisition or keyword acquisition; and to calculate early warning index of public opinion for relevant data. Based on the content sensitivity, source influence, reprinting and public opinion environment, we can get the results of public opinion early warning index, and solve the problem of grasping and analyzing the real-time and dynamic network information.

【技术实现步骤摘要】
电网舆情评价方法、存储介质及计算机
本专利技术涉及大数据分析方法领域,尤其涉及一种电力行业网络舆情指数体系的构建方法。
技术介绍
随着互联网和信息化技术突飞猛进的发展,特别是网络媒体、微博、微信、博客等网络新媒体,以其形式丰富、互动性强、覆盖率高等特点对政治、经济、文化、社会环境产生了巨大影响。当前,我国正处的改革关键期、矛盾突发期诸种问题冲突的叠合积聚,网络舆情已经成为当前社会和谐度和稳定度的标志,成为领导和社会各界的关注焦点。因此,当前更需要增强引导舆论的能力,把握舆论主动权,引领正确的舆论导向,才能使网络新媒体发挥优势、健康发展,从而产生更大的社会效益。现有舆情指数体系使用范围过于宽泛,往往一套计算公式,套用在政务舆情、央国企、上市公司、社会热点等各种舆情事件,导致数据取样,数据有效性,量化指标等环节都不够精确,计算结果不够精确。而EIRI舆情指数体系,专门应用于电力行业,适用性具体明确。通过多次舆情事件的检验,确保了该舆情指数体系算法精确有效。“电力行业网络舆情指数体系(EIRI)”是由国家电网公司对外联络部、福建亿榕信息技术有限公司联合承办的电力行业舆情研究的重要课题,该指数体系作为电力行业一项科学的、可量化的、操作性强的、标准的网络舆情指数体系,重点突出电力行业网络舆情指数的实时动态性以及可理解、可描述、可解释等特点。
技术实现思路
为此,需要提供一种针对电力行业相关信息进行量化统计的方法,解决网络信息实时动态的把握分析问题。为实现上述目的,专利技术人提供了一种电网舆情评价方法,包括如下步骤,元数据采集,所述元数据采集为,通过元搜索采集、网络爬虫采集、API采集或关键词采集的方式采集电网舆情相关数据;对相关数据进行舆情预警指数计算,基于内容敏感性、来源影响力、转载情况及舆论环境情况获得舆情预警指数结果;所述内容敏感性包括敏感词等级得分、敏感词位置得分;所述来源影响力为判断采集数据的来源,根据预设的来源类别计算来源影响力得分;所述转载情况为根据转载媒体及转载媒体的对应数量指标,以及是否为首页、头条转载来计算转载情况得分;所述舆论环境情况为三个月内是否有采集数据相关的负面舆情,对内容敏感性得分、来源影响力得分、转载情况得分、舆论环境情况得分设定权重,计算舆情预警指数。进一步地,还包括步骤,对相关数据进行网络传播热度指数计算,所述网络传播热度指数计算方法如下:ENCI=Y1×b1+Y2×b2其中,a1、a2为标准化参数,b1、b2为权重系数,x1为一般新闻条数,包括网页新闻条数、电子报刊条数、电子应用客户端条数、微信公众号条数、微博条数或论坛博客条数;x2为其他新闻条数,包括视频网站新闻条数、其他网站新闻条数。具体地,其中,a1=1.05a2=1.001b1=0.80b2=0.25。优选地,还包括步骤计算有关数据微信传播指数,所述微信传播指数通过整体指标、质量指标、主动预判指标、优异指标加权计算获得。优选地,还包括步骤计算有关数据微博传播指数,所述微博传播指数通过活跃度及传播度加权计算获得。一种电网舆情评价存储介质,所述存储装置存储有计算机程序,所述计算机程序在被运行时执行下列步骤,元数据采集,所述元数据采集为,通过元搜索采集、网络爬虫采集、API采集或关键词采集的方式采集电网舆情相关数据;对相关数据进行舆情预警指数计算,基于内容敏感性、来源影响力、转载情况及舆论环境情况获得舆情预警指数结果;所述内容敏感性包括敏感词等级得分、敏感词位置得分;所述来源影响力为判断采集数据的来源,根据预设的来源类别计算来源影响力得分;所述转载情况为根据转载媒体及转载媒体的对应数量指标,以及是否为首页、头条转载来计算转载情况得分;所述舆论环境情况为三个月内是否有采集数据相关的负面舆情,对内容敏感性得分、来源影响力得分、转载情况得分、舆论环境情况得分设定权重,计算舆情预警指数。进一步地,所述计算机程序在被运行时还执行步骤,对相关数据进行网络传播热度指数计算,所述网络传播热度指数计算方法如下:ENCI=Y1×b1+Y2×b2其中,a1、a2为标准化参数,b1、b2为权重系数,x1为一般新闻条数,包括网页新闻条数、电子报刊条数、电子应用客户端条数、微信公众号条数、微博条数或论坛博客条数;x2为其他新闻条数,包括视频网站新闻条数、其他网站新闻条数。可选地,其中,a1=1.05a2=1.001b1=0.80b2=0.25。优选地,包括权利要求6-8任一项所述的存储介质。区别于现有技术,上述技术采用了标准化计算手段,在整个评价过程中,引入原先评价系统中没有的指标,并统一参数,使得量化标准相对统一,因此,本专利技术解决了网络舆情动态的实时分析问题。具体实施方式为详细说明技术方案的
技术实现思路
、构造特征、所实现目的及效果,以下结合具体实施例详予说明。一种电网舆情评价方法,包括如下步骤,元数据采集,所述元数据采集为,通过元搜索采集、网络爬虫采集、API采集或关键词采集的方式采集电网舆情相关数据;具体的,舆情爬虫系统可以基于pyspider框架制作,致力于解决快速编写修改爬虫代码,以适应快速变化的网站,并支持进行分布式部署。在此基础上针对大类站点编写了统一的基类与工具模块,使抓取脚本编写更加容易。此外,还采用了元搜索采集、网络爬虫采集、合作API采集、关键词采集等多种信息采集方式,均能够达到电网舆情相关元数据的搜索采集的效果。随后还进行步骤,数据加工和语义分析。采集信息需经过五级过滤或分类。一级过滤:信息排重,数据清理(失效数据,错误数据)。过滤后完成首次落地存储。二级过滤:根据媒介类型(如新闻、博客、论坛、微博等)进行信息分类。三级过滤:根据关键词涉及的组织机构(国资委、国家电网、同类行业、其他)进行分类。四级分类:根据有关公司地域归属(总部、地方(省、市、县))进行信息分类。五级过滤:根据系统预设关键字进行过滤。在本专利技术的一些具体实施例中,进行分类/过滤后,对相关数据进行舆情预警指数EWI计算,基于内容敏感性、来源影响力、转载情况及舆论环境情况获得舆情预警指数结果;所述内容敏感性包括敏感词等级得分、敏感词位置得分;所述来源影响力为判断采集数据的来源,根据预设的来源类别计算来源影响力得分;所述转载情况为根据转载媒体及转载媒体的对应数量指标,以及是否为首页、头条转载来计算转载情况得分;所述舆论环境情况为三个月内是否有采集数据相关的负面舆情,对内容敏感性得分、来源影响力得分、转载情况得分、舆论环境情况得分设定权重,计算舆情预警指数。具体的权重能够根据创作人员的需要自主设置,不同的权重设定能够反映内容敏感性、来源影响力、转载情况或舆论环境的不同影响力,作为一个优选的方案,舆情预警指数EWI的计算方法可以为:EWI=40%R1+16%R2+36%R3+8%R4其中R1为内容敏感性得分,R2为来源影响力得分,R3为转载情况得分,R4为舆论环境情况得分。在本实施例中,具体的判断步骤如下表所示,指标赋值列中的各项,若为数值则为百分比赋值,若为判断语句则进行判断,是则获得其所在行对应的权重,否则得分为零。例如,在舆论环境情况得分中,针对二级指标三个月内舆情进行判断,若有重大负面舆情则获得5/8的舆论环境情况得分,否则该项计零,再进行判断,若有同类负面舆情则本文档来自技高网
...

【技术保护点】
1.一种电网舆情评价方法,其特征在于,包括如下步骤,元数据采集,所述元数据采集为,通过元搜索采集、网络爬虫采集、API采集或关键词采集的方式采集电网舆情相关数据;对相关数据进行舆情预警指数计算,基于内容敏感性、来源影响力、转载情况及舆论环境情况获得舆情预警指数结果;所述内容敏感性包括敏感词等级得分、敏感词位置得分;所述来源影响力为判断采集数据的来源,根据预设的来源类别计算来源影响力得分;所述转载情况为根据转载媒体及转载媒体的对应数量指标,以及是否为首页、头条转载来计算转载情况得分;所述舆论环境情况为三个月内是否有采集数据相关的负面舆情,对内容敏感性得分、来源影响力得分、转载情况得分、舆论环境情况得分设定权重,计算舆情预警指数。

【技术特征摘要】
1.一种电网舆情评价方法,其特征在于,包括如下步骤,元数据采集,所述元数据采集为,通过元搜索采集、网络爬虫采集、API采集或关键词采集的方式采集电网舆情相关数据;对相关数据进行舆情预警指数计算,基于内容敏感性、来源影响力、转载情况及舆论环境情况获得舆情预警指数结果;所述内容敏感性包括敏感词等级得分、敏感词位置得分;所述来源影响力为判断采集数据的来源,根据预设的来源类别计算来源影响力得分;所述转载情况为根据转载媒体及转载媒体的对应数量指标,以及是否为首页、头条转载来计算转载情况得分;所述舆论环境情况为三个月内是否有采集数据相关的负面舆情,对内容敏感性得分、来源影响力得分、转载情况得分、舆论环境情况得分设定权重,计算舆情预警指数。2.根据权利要求1所述的电网舆情评价方法,其特征在于,还包括步骤,对相关数据进行网络传播热度指数计算,所述网络传播热度指数计算方法如下:ENCI=Y1×b1+Y2×b2其中,a1、a2为标准化参数,b1、b2为权重系数,x1为一般新闻条数,包括网页新闻条数、电子报刊条数、电子应用客户端条数、微信公众号条数、微博条数或论坛博客条数;x2为其他新闻条数,包括视频网站新闻条数、其他网站新闻条数。3.根据权利要求2所述的电网舆情评价方法,其特征在于,其中,a1=1.05a2=1.001b1=0.80b2=0.25。4.根据权利要求1所述的电网舆情评价方法,其特征在于,还包括步骤计算有关数据微信传播指数,所述微信传播指数通过整体指标、质量指标、主动预判指标、优异指标加权计算获得。5.根据权利要求1所述的电网舆情评价方法,其特征在于,还包括步骤计算有...

【专利技术属性】
技术研发人员:苏婷林海新王秋琳陈颖华
申请(专利权)人:福建亿榕信息技术有限公司国网信息通信产业集团有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1