【技术实现步骤摘要】
本专利技术涉及网络信息技术,尤其是涉及一种网络舆情反转预测方法、系统及电子设备。
技术介绍
1、新媒体时代下,网民规模扩大,公众的话语权和参与意识高涨,部分媒体为了流量博人眼球刻意引导公众,刻意激发公众情绪,导致网络舆情反转现象频发。而公众影响力较高的热点事件一旦发生反转,可能造成很多不良的社会影响,当事人受到二次伤害,社会情绪不稳定,激发社会矛盾等。为规避网络舆情反转问题,减少其带来的不良影响,网络舆情反转预测模型应运而生。现有网络舆情反转预测模型是利用网络舆情事件数据,从不同角度构建舆情反转预测特征体系,基于不同分类模型预测舆情反转事件的类型,为预判舆情走向提供支持,以便及时采取应对措施,给舆情引导和危机治理提供了一种有效的解决方案。
2、然而,现有的大多数网络舆情反转预测模型收集舆情事件数量较少,并且主要预测舆情发生反转后的分类问题,侧重事后的逆向分析,存在滞后性,难以在热点事件发生之初就预测其舆论走向,从而进行事先预防;同时,大多数预测模型利用平衡数据集进行预测,没有考虑到现实生活中网络舆情反转事件只占少数,更多的则是非反转事件,这种类不均衡的状态加大了分类的难度。因此,现有的网络舆情反转预测效果不佳。
技术实现思路
1、有鉴于此,本专利技术的目的在于提供一种网络舆情反转预测方法、系统及电子设备,能够提前对舆情事件是否会反转做出预判,提高了网络舆情反转预测的预测效果。
2、为了实现上述目的,本专利技术实施例采用的技术方案如下:
3、第一方
4、在一种实施方式中,从监管对象库中获取多个网络舆情事件信息之前,上述方法还包括:从多个目标网络平台获取网络舆情事件信息,并基于网络舆情事件信息建立监管对象库。
5、在一种实施方式中,从多个目标网络平台获取网络舆情事件信息,包括:如果目标网络平台有开放数据库,则访问目标网络平台的数据库获取网络舆情事件信息;如果目标网络平台没有开放数据库,则判断目标网络平台是否设置有爬取接口,如果目标网络平台设置有爬取接口,则通过爬取接口爬取网络舆情事件信息,如果目标网络平台设置没有爬取接口,则确定目标网络平台的爬取入口和遍历策略,并基于爬取入口和遍历策略从目标网络平台爬取网络舆情事件信息。
6、在一种实施方式中,通过特征构建模型提取网络舆情事件信息的特征,并将特征进行特征值转换得到多个待检测舆情事件的舆情事件数据,包括:通过特征构建模型确定网络舆情事件信息的特征维度,并提取网络舆情事件信息的特征;基于预先确定的赋值依据对特征进行赋值,得到特征值转换后的多个待检测舆情事件的舆情事件数据。
7、在一种实施方式中,反转预测模型包括:平衡数据生成子模型、分类器训练子模型和集成学习子模型;将待检测舆情事件的舆情事件数据输入到反转预测模型中,输出待检测舆情事件是否会发生反转的预测结果,包括:将待检测舆情事件的舆情事件数据输入到平衡数据生成子模型中,输出平衡数据;其中,平衡数据包括数量相等的舆情反转数据和舆情非反转数据;将平衡数据输入到分类器训练子模型中进行分类器训练,输出基分类器,并重复分类器训练的过程得到基分类器集合;将待检测舆情事件的舆情事件数据输入到集成学习子模型中,输出待检测舆情事件是否会发生反转的预测结果;其中,集成学习子模型通过将舆情事件数据输入到基分类器集合中的每个基分类器,得到多个预测结果,并将多个预测结果中数量最多的一种作为待检测舆情事件是否会发生反转的预测结果。
8、在一种实施方式中,将待检测舆情事件的舆情事件数据输入到平衡数据生成子模型中,输出平衡数据,包括:采用bootstrap采样方法,有放回地从舆情事件数据中随机抽取第一预设数量的舆情反转事件样本和第二预设数量的舆情非反转样本,得到舆情事件样本集合;基于舆情事件样本集合,采用改进的无参smote算法,生成新的舆情反转数据,并输出平衡数据。
9、在一种实施方式中,基于舆情事件样本集合,采用改进的无参smote算法,生成新的舆情反转数据,包括:基于与每个舆情反转事件样本距离最近的样本,确定每个舆情反转事件样本的样本类型;其中,样本类型包括:安全样本和边界样本;如果舆情反转事件样本为安全样本,则按照以下方式生成新的舆情反转数据
10、
11、其中,gap~u(0,1),xi表示第i个安全样本,xsafe表示安全样本xi的局部安全区域内随机样本,安全样本xi的局部安全区域为:
12、
13、其中,表示安全样本集合,d(·)表示两个样本之间的欧几里得距离,rad表示与安全样本xi距离最近的舆情非反转样本之间的距离;
14、如果舆情反转事件样本为边界样本,则按照以下方式生成新的舆情反转数据
15、
16、其中,gap~u(0,1),xi表示第i个边界样本,表示与边界样本xi距离最近的舆情非反转样本,σ表示标准差的估计值,|ts+|表示舆情反转事件样本的数量。
17、在一种实施方式中,将平衡数据输入到分类器训练子模型中进行分类器训练,输出基分类器,包括:步骤s1:计算平衡数据的信息熵和平衡数据的每个特征的条件熵;步骤s2:基于信息熵和条件熵,将信息增益率最大的特征确定为当前分裂节点;步骤s3:根据当前分裂节点对应的目标特征的每个取值分别构建对应取值的子节点,并确定子节点的样本子集;其中,子节点的样本子集中的每个样本的目标特征的取值相同;步骤s4:基于子节点的样本子集,递归执行上述步骤s1至步骤s3,直至到达叶子节点或无法继续划分,输出当前基分类器。
18、在一种实施方式中,将待检测舆情事件的预测结果输入到shap解释模型中,输出影响舆情反转的主要因素,包括:基于待检测舆情事件的预测结果,计算每个待检测舆情事件的shap值;基于shap值构建可视化shap值的特征重要性条形图以及特征shap依赖图;基于可视化shap值的特征重要性条形图以及特征shap依赖图,确定待检测舆情事件的每个特征对预测结果的影响程度,得到影响舆情反转的主要因素。
19、第二方面,本专利技术实施例提供了一种网络舆情反转预测系统,包括:监管对象库、特征构建模型、反转预测模型、shap解释模型和舆情监管模块;监管对象库用于获取多个网络舆本文档来自技高网...
【技术保护点】
1.一种网络舆情反转预测方法,其特征在于,应用于网络舆情反转预测系统,所述网络舆情反转预测系统包括:监管对象库、特征构建模型、反转预测模型、SHAP解释模型和舆情监管模块;所述方法包括:
2.根据权利要求1所述的方法,其特征在于,从所述监管对象库中获取多个网络舆情事件信息之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,从多个目标网络平台获取网络舆情事件信息,包括:
4.根据权利要求1所述的方法,其特征在于,通过所述特征构建模型提取所述网络舆情事件信息的特征,并将所述特征进行特征值转换得到多个待检测舆情事件的舆情事件数据,包括:
5.根据权利要求1所述的方法,其特征在于,所述反转预测模型包括:平衡数据生成子模型、分类器训练子模型和集成学习子模型;
6.根据权利要求5所述的方法,其特征在于,将所述待检测舆情事件的舆情事件数据输入到所述平衡数据生成子模型中,输出平衡数据,包括:
7.根据权利要求6所述的方法,其特征在于,基于所述舆情事件样本集合,采用改进的无参SMOTE算法,生成新的舆情反转数据,
8.根据权利要求5所述的方法,其特征在于,将所述平衡数据输入到所述分类器训练子模型中进行分类器训练,输出基分类器,包括:
9.根据权利要求1所述的方法,其特征在于,将所述待检测舆情事件的预测结果输入到所述SHAP解释模型中,输出影响舆情反转的主要因素,包括:
10.一种网络舆情反转预测系统,其特征在于,包括:监管对象库、特征构建模型、反转预测模型、SHAP解释模型和舆情监管模块;
11.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至9任一项所述的方法的步骤。
...【技术特征摘要】
1.一种网络舆情反转预测方法,其特征在于,应用于网络舆情反转预测系统,所述网络舆情反转预测系统包括:监管对象库、特征构建模型、反转预测模型、shap解释模型和舆情监管模块;所述方法包括:
2.根据权利要求1所述的方法,其特征在于,从所述监管对象库中获取多个网络舆情事件信息之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,从多个目标网络平台获取网络舆情事件信息,包括:
4.根据权利要求1所述的方法,其特征在于,通过所述特征构建模型提取所述网络舆情事件信息的特征,并将所述特征进行特征值转换得到多个待检测舆情事件的舆情事件数据,包括:
5.根据权利要求1所述的方法,其特征在于,所述反转预测模型包括:平衡数据生成子模型、分类器训练子模型和集成学习子模型;
6.根据权利要求5所述的方法,其特征在于,将所述待检测舆情事件的舆情事件数据输...
【专利技术属性】
技术研发人员:谢国杰,王巍,郭林松,王婧雯,程鑫颖,
申请(专利权)人:数字浙江技术运营有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。