当前位置: 首页 > 专利查询>武汉大学专利>正文

针对网络舆情事件的基于模块化的舆情监测方法及系统技术方案

技术编号:20545985 阅读:22 留言:0更新日期:2019-03-09 18:54
本发明专利技术公开了一种针对网络舆情事件的基于模块化的舆情监测方法及系统,首先将网络社交平台分为若干模块进行监控;然后定时获取每个时间段内各个模块平台内的舆情活跃数,并预测舆情的舆情主要话题并计算模块话题活跃度;获取话题活跃度超过界限值的话题整体信息,并列入重点舆情列表;对所有模块进行整合,获取每个舆情模块的话题数量,用来重新分配每个模块的权重;接着获取该话题下所有舆情信息,对每个舆情信息进行聚类分类操作,得到基本的舆情分析报告;最后按比例抽取舆情样本放入集成模型中进行训练,预测未来该舆情话题的走向。本发明专利技术可以在第一时间侦测到重大舆情事件的爆发,得到实时舆情报,预测接下来的舆情走向。

Modular-based Public Opinion Monitoring Method and System for Network Public Opinion Events

The invention discloses a modular public opinion monitoring method and system for network public opinion events. Firstly, the network social platform is divided into several modules for monitoring; secondly, the active number of public opinion in each module platform in each period of time is acquired regularly, the main topics of public opinion are predicted and the active degree of module topics is calculated; and the topics whose active degree exceeds the threshold value are acquired. The overall information of the topic is included in the list of key public opinion; all modules are integrated to obtain the number of topics of each public opinion module, which is used to redistribute the weight of each module; then all public opinion information under the topic is obtained, and each public opinion information is clustered and classified to obtain the basic public opinion analysis report; finally, samples of public opinion are extracted proportionally and put into the integrated model. Practice training to predict the future trend of the topic of public opinion. The invention can detect the outbreak of major public opinion events in the first time, obtain real-time public opinion information, and predict the next trend of public opinion.

【技术实现步骤摘要】
针对网络舆情事件的基于模块化的舆情监测方法及系统
本研究属于计算机
,具体属于计算机学科中的机器学习、数据挖掘以及模块化权重的
;涉及一种基于集成方法的舆情预测方法及系统,具体涉及一种针对重大网络舆情事件的基于模块化的舆情监测方法及系统。
技术介绍
机器学习(MachineLearning)是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科。数据挖掘(英语:Datamining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。模型集成的主要思路是先通过一定的规则生成多个学习器,再采用某种集成策略进行组合,最后综合判断输出最终结果。一般而言,通常所说的集成学习中的多个学习器都是同质的"弱学习器"。基于该弱学习器,通过样本集扰动、输入特征扰动、输出表示扰动、算法参数扰动等方式生成多个学习器,进行集成后获得一个精度较好的"强学习器"。随着集成学习研究的深入,其广义的定义逐渐被学者们所接受,它是指对多个学习器集合采用学习的方式,而不对学习器性质加以区分。根据这一定义,多学习器系统(multi-classifiersystem)、多专家混合(mixtureofexperts)以及基于委员会的学习(committee-basedlearning)等多个领域都可以纳入到集成学习中。但当前仍然以同质分类器的集成学习研究居多。
技术实现思路
本专利技术为了解决社交网络特定网络舆情信息难以收集与分析而导致的舆情信息难以监控的问题,开拓性地提出了一种针对重大网络舆情事件的基于模块化的舆情监测方法及系统。本专利技术的方法所采用的技术方案是:一种针对网络舆情事件的基于模块化的舆情监测方法,其特征在于,包括以下步骤:步骤1:将网络社交平台分为若干模块进行监控;步骤2:定时获取每个时间段内各个模块平台内的舆情活跃数,并预测舆情的舆情主要话题并计算模块话题活跃度;步骤3:获取话题活跃度超过界限值的话题整体信息,并列入重点舆情列表;步骤4:对所有模块进行整合,获取每个舆情模块的话题数量,用来重新分配每个模块的权重;步骤5:获取该话题下所有舆情信息,对每个舆情信息进行聚类分类操作,得到基本的舆情分析报告;步骤6:根据步骤4中获得的每个模块的权重,按比例抽取舆情样本放入集成模型进行训练,预测未来该舆情话题的走向。本专利技术的系统所采用的技术方案是:一种针对网络舆情事件的基于模块化的舆情监测系统,其特征在于:包括监控模块、舆论信息采集模块、重点舆情列表构建模块、整合模块、舆论信息分析模块、未来该舆情话题走向预测模块;所述监控模块,用于将网络社交平台分为若干模块进行监控;所述舆论信息采集模块,用于定时获取每个时间段内各个模块平台内的舆情活跃数,并预测舆情的舆情主要话题并计算模块话题活跃度;所述重点舆情列表构建模块,用于获取话题活跃度超过界限值的话题整体信息,并列入重点舆情列表;所述整合模块,用于对所有模块进行整合,获取每个舆情模块的话题数量,用来重新分配每个模块的权重;所述舆论信息分析模块,用于获取该话题下所有舆情信息,对每个舆情信息进行聚类分类操作,得到基本的舆情分析报告;所述未来该舆情话题走向预测模块,用于根据获得的每个模块的权重,按比例抽取舆情样本放入集成模型进行训练,预测未来该舆情话题的走向。本专利技术针对各大社交门户网站提出了模块化的概念,并结合集成学习方法。该方法实现了对网络舆情的快速采集、高效分析,结合多个社交平台模块,使得最终得到的预测更加精准可靠。附图说明图1为本专利技术实施例的方法流程图;图2为本专利技术实施例系统中社交平台监控模块示意图;图3为本专利技术实施例系统中集成模型框架示意图。具体实施方式为了便于本领域普通技术人员理解和实施本专利技术,下面结合附图及实施例对本专利技术作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术。请见图1,本专利技术提供的一种针对网络舆情事件的基于模块化的舆情监测方法,包括以下步骤:步骤1:将网络社交平台分为若干模块进行监控;请见图2,本实施例将网络社交平台分为新浪微博采集模块、知乎采集模块、携程采集模块、房天下采集模块、百度贴吧采集模块、豆瓣采集模块等;步骤2:定时获取每个时间段内各个模块平台内的舆情活跃数,并利用分类集成方法预测舆情的舆情主要话题并计算模块话题活跃度;其中第i个模块话题活跃度ai计算公式为:步骤3:获取话题活跃度超过界限值(本实施例取30%)的话题整体信息,并列入重点舆情列表;步骤4:对所有模块进行整合,获取每个舆情模块的话题数量,用来重新分配每个模块的权重;步骤5:获取该话题下所有舆情信息,对每个舆情信息进行聚类分类操作,得到基本的舆情分析报告;本实施例中,利用聚类分类等方法对每个舆情信息的发表的时间、地理位置、用户年龄、性别、职业进行聚类分类操作,得到基本的舆情分析报告。步骤6:根据步骤4中获得的每个模块的权重,按比例抽取舆情样本放入集成模型进行训练,预测未来该舆情话题的走向;本实施例的集成模型,构建方法为:分别利用多种弱分类器对微博信息进行情感分析,然后通过集成的方式,对所有弱分类器的分类结果进行集成,最后利用“简单投票法”的集成策略将多个分类模型集成在一起,得到最终分类结果;设计好聚类器与分类集成器之后,将这两部分连接起来组成完整的舆情信息分析子模型;训练时,先将训练样本的舆情信息数据经过K-Means聚类器,从而形成多个簇,然后在每个簇上利用由神经网络、逻辑回归、决策树三种弱分类器组成的分类集成器进行训练,最终得到训练好的集成模型。请见图3,为本实施例的集成模型框架图,通过集成的方式,对所有单独模型的分类结果进行集成,最后利用“简单投票法”的集成策略将多个分类模型集成在一起,得到最终分类结果。设计好聚类器与分类集成器之后,将这两部分连接起来组成完整的舆情信息分析子模型。训练时,先将训练样本的舆情信息数据经过K-Means聚类器,从而形成多个簇,然后在每个簇上利用由神经网络,逻辑回归,决策树三种弱分类器组成的分类集成器进行训练,最终得到训练好的模型。本实施例还提供了一种针对网络舆情事件的基于模块化的舆情监测系统,包括监控模块、舆论信息采集模块、重点舆情列表构建模块、整合模块、舆论信息分析模块、未来该舆情话题走向预测模块;监控模块,用于将网络社交平台分为若干模块进行监控;舆论信息采集模块,用于定时获取每个时间段内各个模块平台内的舆情活跃数,并预测舆情的舆情主要话题并计算模块话题活跃度;重点舆情列表构建模块,用于获取话题活跃度超过界限值的话题整体信息,并列入重点舆情列表;整合模块,用于对所有模块进行整合,获取每个舆情模块的话题数量,用来重新分配每个模块的权重;舆论信息分析模块,用于获取该话题下所有舆情信息,对每个舆情信息进行聚类分类操作,得到基本的舆情分析报告;未来该舆情话题走本文档来自技高网
...

【技术保护点】
1.一种针对网络舆情事件的基于模块化的舆情监测方法,其特征在于,包括以下步骤:步骤1:将网络社交平台分为若干模块进行监控;步骤2:定时获取每个时间段内各个模块平台内的舆情活跃数,并预测舆情的舆情主要话题并计算模块话题活跃度;步骤3:获取话题活跃度超过界限值的话题整体信息,并列入重点舆情列表;步骤4:对所有模块进行整合,获取每个舆情模块的话题数量,用来重新分配每个模块的权重;步骤5:获取该话题下所有舆情信息,对每个舆情信息进行聚类分类操作,得到基本的舆情分析报告;步骤6:根据步骤4中获得的每个模块的权重,按比例抽取舆情样本放入集成模型进行训练,预测未来该舆情话题的走向。

【技术特征摘要】
1.一种针对网络舆情事件的基于模块化的舆情监测方法,其特征在于,包括以下步骤:步骤1:将网络社交平台分为若干模块进行监控;步骤2:定时获取每个时间段内各个模块平台内的舆情活跃数,并预测舆情的舆情主要话题并计算模块话题活跃度;步骤3:获取话题活跃度超过界限值的话题整体信息,并列入重点舆情列表;步骤4:对所有模块进行整合,获取每个舆情模块的话题数量,用来重新分配每个模块的权重;步骤5:获取该话题下所有舆情信息,对每个舆情信息进行聚类分类操作,得到基本的舆情分析报告;步骤6:根据步骤4中获得的每个模块的权重,按比例抽取舆情样本放入集成模型进行训练,预测未来该舆情话题的走向。2.根据权利要求1所述的针对网络舆情事件的基于模块化的舆情监测方法,其特征在于:步骤2中,利用分类集成方法预测舆情的舆情主要话题并计算模块话题活跃度;其中第i个模块话题活跃度ai计算公式为:3.根据权利要求1所述的针对网络舆情事件的基于模块化的舆情监测方法,其特征在于:步骤4中,权重计算公式为4.根据权利要求1所述的针对网络舆情事件的基于模块化的舆情监测方法,其特征在于:步骤5中,利用聚类分类等方法对每个舆情信息的发表的时间、地理位置、用户年龄、性别、职业进行聚类分类操作,得到基本的舆情分析报告。5.根据权利要求1-4任意一项所述的针对网络舆情事件的基于模块化的舆情监测方法,其特征在于:步骤6中所述的集成模型,构建方法为:...

【专利技术属性】
技术研发人员:唐存琛王極可
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1