【技术实现步骤摘要】
舆情分析方法及相关产品
[0001]本申请涉及大数据
,具体涉及一种舆情分析方法及相关产品。
技术介绍
[0002]互联网的飞速发展促进了很多新媒体的发展,不论是热点网页数据还是娱乐八卦,传播速度远超我们的想象。可以在短短数分钟内,有数万计转发,数百万的阅读。如此海量的信息可以得到爆炸式的传播,如何能够实时的把握民情并作出对应的处理对很多企业来说都是至关重要的。
[0003]目前,舆情分析都是先搜集舆情数据,然后再对舆情数据进行数据处理、文本分析等一系列操作之后才能得到舆情,这种处理方式单一,效率低,不能满足市场需求。寻找一种灵活多变,处理效率高的舆情分析方法是目前亟待解决的技术问题。
技术实现思路
[0004]本申请实施例提供了一种舆情分析方法及相关产品,通过离线和实时进行舆情分析,增加了舆情分析的方式,提高了舆情分析效率。
[0005]第一方面,本申请实施例提供一种舆情分析方法,所述方法应用于舆情分析系统,所述舆情分析系统包括:数据处理装置、消息队列、第一流计算引擎、第一服务器、第二 ...
【技术保护点】
【技术特征摘要】
1.一种舆情分析方法,其特征在于,所述方法应用于舆情分析系统,所述舆情分析系统包括:数据处理装置、消息队列、第一流计算引擎、第一服务器、第二流计算引擎、第二服务器以及搜索引擎,所述第一服务器维护第一数据库,所述第二服务器维护第二数据库;所述方法包括:通过所述数据处理装置爬取多个网页数据;通过所述数据处理装置将所述多个网页数据发布到所述消息队列;通过所述第一服务器从所述消息队列中消费所述多个网页数据中的第一部分网页数据,并将所述第一部分网页数据离线存储到所述第一数据库;通过所述第一流计算引擎从所述消息队列中消费所述多个网页数据中的第二部分网页数据,对所述第二部分网页数据进行舆情分析,得到所述第二部分网页数据的舆情分析结果,并将所述第二部分网页数据的舆情分析结果存储到所述第二数据库;通过所述第二流计算引擎从所述第一数据库中获取所述第一部分网页数据,并对所述第一部分网页数据进行舆情分析,得到所述第一部分网页数据的舆情分析结果,并将所述第一部分网页数据的舆情分析结果存储到所述第二数据库;通过所述第二服务器对所述第一部分网页数据的舆情分析结果,以及所述第二部分网页数据的舆情分析结果进行整合,得到所述多个网页数据的舆情分析结果,并将所述多个网页数据的舆情分析结果同步到所述搜索引擎。2.根据权利要求1所述的方法,其特征在于,所述将所述多个网页数据发布到消息队列,包括:对所述多个网页数据中的每个所述网页数据进行舆情评分,得到每个所述网页数据的舆情评分,其中,每个所述网页数据的舆情评分用于表征每个所述网页数据的处理优先级;将所述多个网页数据中的所述第一部分网页数据发送到所述Kafak队列中的第一预设主题,其中,所述第一部分网页数据中的任意一个网页数据的舆情评分小于评分阈值;将所述多个网页数据中的所述第二部分网页数据发送到所述Kafak队列中的第二预设主题,其中,所述第二部分网页数据中的任意一个网页数据的舆情评分大于或等于所述评分阈值;所述从所述消息队列中消费多个网页数据中的第一部分网页数据,包括:从所述第一预设主题中消费所述第一部分网页数据;所述从消息队列中消费所述多个网页数据中的第二部分网页数据,包括:从所述第二预设主题中消费所述第二部分网页数据。3.根据权利要求2所述的方法,其特征在于,所述对所述多个网页数据中的每个所述网页数据进行舆情评分,得到每个所述网页数据的舆情评分,包括:对所述多个网页数据进行聚类,得到K个第一网页数据组,其中,每个所述第一网页数据组对应同一个舆情事件,每个所述第一网页数据组包括所述多个网页数据中的一个或多个;对每个所述第一网页数据组中的多个网页数据进行聚类,得到与每个所述第一网页数据组对应的L个第二网页数据组,其中,每个所述第二网页数据组包括一个原创网页数据以及与所述原创网页数据对应的H个转载网页数据;根据每个所述第二网页数据组包括的一个原创网页数据以及H个转载网页数据,确定
每个所述第一网页数据组对应的舆情事件的舆情评分;根据每个所述第一网页数据组对应的舆情事件的舆情评分,确定所述多个网页数据中的每个所述网页数据的舆情评分。4.根据权利要求3所述的方法,其特征在于,所述根据每个所述第二网页数据组包括的一个原创网页数据以及H个转载网页数据,确定每个所述第一网页数据组对应的舆情事件的舆情评分,包括:根据每个所述第二网页数据组中的原创网页数据的预设比例以及每个所述第二网页数据组包括的转载网页数据的数量H,确定每个所述第二网页数据组的缩放比例,所述原创网页数据的预设比例表征了社会对所述原创网页数据归属的第一网页数据组所对应的舆情事件的关注度;对每个所述第一网页数据组下的所述L个第二网页数据组的缩放比例进行求和,得到每个所述第一网页数据组的缩放比例;对每个所述第一网页数据组进行情感识别,得到每个所述第一网页数据组对应的情感标签,其中,所述情感标签用于表征每个所述第一网页数据组对应的舆情事件为正面舆情事件或者负面舆情事件;获取每个所述第一网页数据组中的每个网页数据的发表媒体;根据每个所述第一网页数据组中的每个网页数据的发表媒体,确定每个第一网所述页数据组中的最高级别的发表媒体;根据发表媒体、情感标签与舆情评分之间的映射关系,以及每个第一网页数据组...
【专利技术属性】
技术研发人员:赵乐,
申请(专利权)人:平安普惠企业管理有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。