System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及互联网数据处理,尤其涉及一种用于构建舆情事件消退预测模型的技术。
技术介绍
1、舆情事件通常是引起舆论关注、影响的热点、突发等社会事件。随着互联网特别是移动互联网的飞速发展,以及智能手机的普及,社会上的热点、突发等事件会引起人们的广泛关注,在网络上以文字、图片、视频,甚至短连接等方式发表、转发意见,以及对他人发表、转发意见进行评论等,可能演化成舆情事件,在互联网上产生大量与舆情事件相关的舆情网络数据。
2、通常,根据舆情事件的发展周期,大致可分为潜伏期、形成期、波动期以及消退期。其中,消退期意味着人们对舆情事件基本不再关注,相应的舆论退潮、回落及固化。而影响舆情事件的形成、波动及消退的因素众多,且各因素之间可能还存在相互作用和影响,比较复杂,如何确定对舆情事件产生影响的因素,以对舆情事件的消退进行预测存在较大困难,在预测过程中往往需要人工干预,比如人为确定各因素的权重等。
3、因此,如何对舆情事件是否处于消退期进行预测,是本申请要解决的技术问题。
技术实现思路
1、本申请的目的是提供一种用于构建舆情事件消退预测模型的方法、装置及设备,用于对舆情事件是否处于消退期进行预测,以至少部分解决现有技术中难以对舆情事件是否处于消退期进行预测的技术问题。
2、根据本申请的一个方面,提供了一种用于构建舆情事件消退预测模型的方法,其中,所述方法包括:
3、基于预设时间阈值,获取与已处于消退期的历史舆情事件相关的不同阶段的若干个多源异构舆情网
4、基于预设特征库,对每个预处理后的多源异构舆情网络数据进行特征量化处理,得到每个预处理后的多源异构舆情网络数据对应预设特征库的每个特征的特征值,作为每个预处理后的多源异构舆情网络数据的第一特征集;
5、基于皮尔逊相关系数,对每个预处理后的多源异构舆情网络数据的第一特征集进行特征选择,得到所述预处理后的多源异构舆情网络数据的第二特征集,并基于所有预处理后的多源异构舆情网络数据的第二特征集,得到每个预处理后的多源异构舆情网络数据的第三特征集,以及对每个预处理后的舆情网络数据的第三特征集中的每个特征的特征值进行标准化处理,得到每个预处理后的舆情网络数据的第四特征集,其中,每个预处理后的舆情网络数据的第三特征集包括相同的若干个特征及其特征值;
6、基于每个预处理后的多源异构舆情网络数据对应的历史舆情事件所处的阶段,对每个预处理后的多源异构舆情网络数据进行真值标注,并将每个预处理后的多源异构舆情网络数据的第四特征集和对应的真值作为一个数据样本,以及对已处于消退期的不同历史舆情事件进行上述操作,基于获得的全部数据样本,组成样本数据集;
7、基于所述样本数据集,训练pnn神经网络模型,当训练后的pnn神经网络模型的预测准确率满足预设阈值,则完成舆情事件消退预测模型的构建。
8、可选地,其中,所述多源异构舆情网络数据包括:
9、互联网的不同信息源上的与所述舆情事件相关的数据,其中,所述数据包括文本类和非文本类。
10、可选地,其中,所述若干个特征包括:
11、若干个多维度下的特征,其中,所述多维度包括多个一级维度,其中,每个一级维度下包括多个二级维度,其中,每个二级维度下包括若干个特征。
12、可选地,其中,所述多个一级维度包括:
13、传播者;
14、传播内容;
15、传播动机;
16、传播及演化。
17、可选地,其中,所述传播者下的二级维度包括:
18、媒体参与度;
19、自媒体影响度;
20、身份可信度。
21、可选地,其中,所述媒体参与度下的若干个特征包括:中央级媒体报道量;
22、省级媒体报道量;
23、地市级媒体报道量;
24、其它媒体报道量。
25、可选地,其中,所述自媒体影响度下的若干个特征包括:
26、个人认证用户原创量占比;
27、个人认证用户转发量占比;
28、个人认证用户评论量占比;
29、个人认证用户被转发数占比;
30、个人认证用户被评论数占比;
31、个人认证用户被点赞数占比。
32、可选地,其中,所述身份可信度下的若干个特征包括:舆情事件发生地信息量占比。
33、可选地,其中,所述传播内容下的二级维度包括:
34、精细度;
35、情感倾向度;
36、丰富度。
37、可选地,其中,所述精细度下的若干个特征包括:
38、每条原创信息平均字数;
39、每条转发信息平均字数;
40、每条评论信息平均字数。
41、可选地,其中,所述情感倾向度下的若干个特征包括:正面原创及转发量;
42、中性原创及转发量;
43、负面原创及转发量;
44、正面评论量;
45、中性评论量;
46、负面评论量。
47、可选地,其中,所述丰富度下的若干个特征包括:
48、仅包括短链的信息占比;
49、仅包括视频的信息占比;
50、仅包括图片的信息占比;
51、包括短链及视频的信息占比;
52、包括短链及图片的信息占比;
53、包括视频及图片的信息占比;
54、包括短链、视频及图片的信息占比;
55、包括视频的信息占比。
56、可选地,其中,所述传播动机下的二级维度包括:
57、动机强度;
58、动机表达度。
59、可选地,其中,所述动机强度下的若干个特征包括:极端性信息占比。
60、可选地,其中,所述动机表达度下的若干个特征包括:
61、行为意向表达度;
62、深度追因表达度;
63、持续爆料关注度;
64、处置结果关注度。
65、可选地,其中,所述传播及演化下的二级维度包括:传播度;
66、演化度。
67、可选地,其中,所述传播度下的若干个特征包括:
68、原创信息量;
69、转发信息量;
70、评论信息量。
71、可选地,其中,所述演化度下的若干个特征包括:
72、信息量环比变化率。
73、可选地,所述一种用于构建舆情事件消退预测模型的方法还包括:
74、基于所述预设时间阈值,获取与舆情事件相关的多源异构舆情网络数据,并对所述多源异构舆情网络数据进行预处理,以得到预处理后的多源异构舆情网络数据;
75、基于本文档来自技高网...
【技术保护点】
1.一种用于舆情事件消退预测的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述多源异构舆情网络数据包括:
3.根据权利要求1所述的方法,其特征在于,所述若干个特征包括:
4.根据权利要求3所述的方法,其特征在于,所述多个一级维度包括:
5.根据权利要求4所述的方法,其特征在于,所述传播者下的二级维度包括:
6.根据权利要求5所述的方法,其特征在于,所述媒体参与度下的若干个特征包括:
7.根据权利要求5所述的方法,其特征在于,所述自媒体影响度下的若干个特征包括:
8.根据权利要求5所述的方法,其特征在于,所述身份可信度下的若干个特征包括:
9.根据权利要求4所述的方法,其特征在于,所述传播内容下的二级维度包括:
10.根据权利要求9所述的方法,其特征在于,所述精细度下的若干个特征包括:
11.根据权利要求9所述的方法,其特征在于,所述情感倾向度下的若干个特征包括:
12.根据权利要求9所述的方法,其特征在于,所述丰富度下
13.根据权利要求4所述的方法,其特征在于,所述传播动机下的二级维度包括:
14.根据权利要求13所述的方法,其特征在于,所述动机强度下的若干个特征包括:
15.根据权利要求13所述的方法,其特征在于,所述动机表达度下的若干个特征包括:
16.根据权利要求4所述的方法,其特征在于,所述传播及演化下的二级维度包括:
17.根据权利要求16所述的方法,其特征在于,所述传播度下的若干个特征包括:
18.根据权利要求16所述的方法,其特征在于,所述演化度下的若干个特征包括:
19.根据权利要求1所述的方法,其特征在于,所述方法还包括:
20.一种用于构建舆情事件消退预测模型的装置,其特征在于,所述装置包括:
21.根据权利要求20所述的装置,其特征在于,所述装置还包括:
22.一种计算机可读介质,其特征在于,
23.一种用于构建舆情事件消退预测模型的设备,其特征在于,所述设备包括:
...【技术特征摘要】
1.一种用于舆情事件消退预测的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述多源异构舆情网络数据包括:
3.根据权利要求1所述的方法,其特征在于,所述若干个特征包括:
4.根据权利要求3所述的方法,其特征在于,所述多个一级维度包括:
5.根据权利要求4所述的方法,其特征在于,所述传播者下的二级维度包括:
6.根据权利要求5所述的方法,其特征在于,所述媒体参与度下的若干个特征包括:
7.根据权利要求5所述的方法,其特征在于,所述自媒体影响度下的若干个特征包括:
8.根据权利要求5所述的方法,其特征在于,所述身份可信度下的若干个特征包括:
9.根据权利要求4所述的方法,其特征在于,所述传播内容下的二级维度包括:
10.根据权利要求9所述的方法,其特征在于,所述精细度下的若干个特征包括:
11.根据权利要求9所述的方法,其特征在于,所述情感倾向度下的若干个特征包括:
12.根据权利要求9所述的方...
【专利技术属性】
技术研发人员:请求不公布姓名,请求不公布姓名,
申请(专利权)人:上海蜜度科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。