【技术实现步骤摘要】
本专利技术涉及网络
,特别是一种微博热度指数的分析方法。
技术介绍
随着互联网技术的快速发展,网络舆情越来越影响社会的稳定发展,监控网络舆情是政府维护社会安定的一个重要环节。作为舆情监控其中的一个环节,热点新闻的预测显得尤其关键。微博以其独特的传播特性和实时交互特性改变着传统新闻信息的传播方式。尤其微博和移动终端的结合,使微博信息能够更加快速的被转发或评论,微博平台上大量的用户评论和交流信息能够快速汇集为观点,从而形成一定的舆论走向。微博天然的开放性、实时性、交互性、海量性和易检性,构成了热点新闻预测的基础。通过综合分析新闻在微博平台的话题量判断新闻的热度。中国专利技术专利CN 105224608 A公开了一种基于微博数据分析热点新闻预测方法,包括:从主流新闻网站采集新闻报道及其在微博上引起的微博用户反应信息;对微博文本进行分词和词频统计,计算词的TF-IDF值,并转换为使用向量空间描述一个微博话题;对微博话题进行分类,并统计描述微博话题的各个量化指标,计算新闻的各个热度指标;采用多元线性回归算法对样本数据进行学习,建立热点新闻预测模型,并判断之后的新闻是 ...
【技术保护点】
一种微博热度指数的分析方法,其特征在于,包括以下步骤,步骤S101:数据预处理,借用语料库过滤掉垃圾数据,筛选出与热度相关博文数据,然后进行预处理;步骤S102:微博热度指数计算,根据组内热度指数和修正热度指数综合计算得出微博相对热度指数。
【技术特征摘要】
1.一种微博热度指数的分析方法,其特征在于,包括以下步骤,步骤S101:数据预处理,借用语料库过滤掉垃圾数据,筛选出与热度相关博文数据,然后进行预处理;步骤S102:微博热度指数计算,根据组内热度指数和修正热度指数综合计算得出微博相对热度指数。2.按照权利要求1所述的一种微博热度指数的分析方法,其特征在于,所述步骤S101包括以下步骤,步骤S1011:数据过滤,建立微博相关语料库过滤掉垃圾数据,筛选出与热度相关的博文数据;步骤S1012:设置权重,对筛选出的关键词设置权重。3.按照权利要求1所述的一种微博热度指数的分析方法,其特征在于,所述步骤S102包括以下步骤,步骤S1021:线性函数转换,通过线性函数转换得到组内热度指数;步骤S1022:分段函数计算,通过分段函数计算得到修改热度指数;步骤S1023:热度指数综合计算,将热度指数分成组内热度指数和修改热度指数进行加权计算。4.按照权利要求1或3所述的一种微博热度指数的分析方法,其特征在于:所述组内热度指数为热度博文在所有博文中被提及的比例,所述修正热度指数为热度博文被提及的次数。5.按照权利要求4所述的一种微博热度指数的分析方法,其特征在于,所述微博热度指数计算公式如下:hotIndex=withInGroup×win+adjustIndex×wadj;其中,withinGroup:组内热度指数;adjustIndex:修正热度指数;win:组内指数权重;wadj:修正指数权重;win+wadj=1。6.按照权利要求5所述的一种微博热度指数的分析方法,其特征在于:所述组内指数权重为0.6,修正指数权重为0.4。7.按照权利要求5所述的一种微博热度指数的分析方法,其特征在于:所述组内热度指数计算公式如下:withInGroup=(countRation-min InGroup)/(max InGroup-min InGroup);其中,countRation:组内提及比例;minInGroup:组内最小提及比例;maxInGroup:组内最大提及比例。8.按照权利要求5所述的一种微博热度指数的分析方法,其特征在于:所述修正热度指数计算公式如下: a d j u s t I n d e x = c o u n t / 100 × 1 i f ( 0 < c o u n t ≤ 100 ) ( c o u n t - 100 ) / ( 1000 - 100 ) × 4 + 1 i f ...
【专利技术属性】
技术研发人员:杜蕾,黄三伟,
申请(专利权)人:湖南蚁坊软件有限公司,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。