一种基于互联网数据的舆情热点获取方法及系统技术方案

技术编号:26478736 阅读:20 留言:0更新日期:2020-11-25 19:22
本申请提供一种基于互联网数据的舆情热点获取方法。所述基于互联网数据的舆情热点获取方法中,服务器获取互联网上的新闻舆情数据,然后判断获取的新闻舆情数据的来源,其中来源包括主流新闻网站和新媒体网站,再根据该新闻舆情数据的不同来源分别进行舆情热点探测分析,并发现舆情热点,最后对发现的舆情热点进行预警;本发明专利技术实施例提供的方法能够实现对互联网舆情数据信息的采集、分析和归类,从而能够在舆情发生的第一时间,从源头发现舆情热点,从而能更好、更有效应地应对易发多发的网络舆情。

【技术实现步骤摘要】
一种基于互联网数据的舆情热点获取方法及系统
本申请涉及数据处理
,具体涉及一种基于互联网数据的舆情热点获取方法,一种应用所述基于互联网数据的舆情热点获取方法的系统。
技术介绍
随着我国4G移动网络普及程度加深,移动互联网用户规模近年来极巨扩大,互联网舆情的传播中心由传统的网站、论坛、博客向微博、微信、移动新闻客户端转移。移动互联网的发展改变了网络舆论场的格局,越来越多的网民使用智能手机上网发表对公共事务的观点和态度。由于移动互联网不同于固定互联网的特性,移动互联网舆情也在网络舆情的多个要素上体现出新的特征。移动网络平台最大的特点是泛在化,包括主体泛在、时间泛在、空间泛在,即任何人、在任何时间、任何地点都可以接入互联网。移动社交使网民之间构成基于“熟人”的强关系网络,如微信社交可以基于手机联系人,移动微博的关注对象一般是现实生活中的熟人或名人。这种基于熟人的信息沟通模式能降低信任成本,使移动互联网的用户黏性更强。移动互联网的泛在性,使网民能实时现场传播舆情,一些在固定互联网上不易引发舆论热潮的事件可能会成为了舆情“触点”,且由于其传播的即时本文档来自技高网...

【技术保护点】
1.一种基于互联网数据的舆情热点获取方法,其特征在于,所述方法包括步骤:/n服务器获取互联网上的新闻舆情数据;/n判断所述新闻舆情数据的来源,所述来源包括主流新闻网站和新媒体网站;/n根据所述新闻舆情数据的不同来源分别进行舆情热点探测分析,并发现舆情热点;/n对所述舆情热点进行预警。/n

【技术特征摘要】
1.一种基于互联网数据的舆情热点获取方法,其特征在于,所述方法包括步骤:
服务器获取互联网上的新闻舆情数据;
判断所述新闻舆情数据的来源,所述来源包括主流新闻网站和新媒体网站;
根据所述新闻舆情数据的不同来源分别进行舆情热点探测分析,并发现舆情热点;
对所述舆情热点进行预警。


2.根据权利要求1所述的方法,其特征在于,所述根据新闻舆情数据的不同来源分别进行舆情热点探测分析,并发现舆情热点的步骤包括:
若新闻舆情数据来源自主流新闻网站,则对所述新闻舆情数据进行语义分解,形成词语化数据;
对所述词语化数据进行二元分布统计;
对所述二元分布统计的结果进行标准分数计算,得到词语热点值;
根据词语热点值和预设的热点词库判定词语化数据中的热点词的共现阈值;
根据所述共现阈值进行线性加权计算,得到热度值;
根据热度值对所述新闻舆情数据进行热度判定。


3.根据权利要求2所述的方法,其特征在于,所述根据新闻舆情数据的不同来源分别进行舆情热点探测分析,并发现舆情热点的步骤包括:
若新闻舆情数据来源自新媒体网站,则对所述新闻舆情数据进行数据预处理,获得新媒体网站语料,并将所述新媒体网站语料集成为新媒体标准语料;
将所述新媒体标准语料按照预定的分类要求进行主题分类,获得主题语料库;
在所述主题语料库中选定新媒体网站语料,并对所述新媒体网站语料进行聚类分析,获得新媒体热点语料簇;
根据所述新媒体热点语料簇和所述新闻舆情数据的演化过程,筛选出最终的舆情热点。


4.根据权利要求3所述的方法,其特征在于,所述在主题语料库中选定新媒体网站语料,并对所述新媒体网站语料进行聚类分析,获得新媒体热点语料簇的步骤包括:
将所述新媒体网站语料进行分词,获得关键词集合;
根据预设的规则对所述关键词集合进行筛选后作为关键词特征项;
集合所有关键词特征项,计算各关键词出现的频率,获得参考词频;
根据所述参考词频计算得到关键词特征项的权重;
根据所述关键词特征项的权重和所述主题语料库计算得到新媒体热点语料簇。


5.根据权利要求...

【专利技术属性】
技术研发人员:郑创伟丁芳桂魏俊杰何翼谢志成
申请(专利权)人:深圳新闻网传媒股份有限公司深圳市创意智慧港科技有限责任公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1