一种基于社交网络的舆情事件预测方法、设备及存储介质技术

技术编号:26972125 阅读:28 留言:0更新日期:2021-01-06 00:03
本发明专利技术提供了一种基于社交网络的舆情事件预测方法、设备及存储介质,其可以有效地提高舆情事件预测的精度,方法包括以下步骤:针对每个舆情事件,采集相关的社交网络数据,从舆情事件发生前若干天的社交网络数据中提取关键词,构建每天的关键词合集合,并提取出用户间的传播关系;将社交网络数据进行语料预处理后得到语料库,将所有的关键词表示为词向量;构建每天的关键词的语义关联信息图和传播关系图;基于图卷积网络构建动态双重图卷积网络模型,分别将前若干天中每天的关键词的语义关联信息图和传播关系图输入动态双重图卷积网络模型,同时输入在前数据,直至计算得到前一天的关键词的特征向量;进行非线性变换,输出舆情事件的预测结果。

【技术实现步骤摘要】
一种基于社交网络的舆情事件预测方法、设备及存储介质
本专利技术涉及舆情分析、数据挖掘和深度学习
,具体涉及一种基于社交网络的舆情事件预测方法、设备及存储介质。
技术介绍
随着计算机的普及运用以及信息技术的深入发展,微博、论坛、贴吧、博客等社交媒体和新闻网站已经成为信息传播的重要战场。网民们每天接收着来着虚拟世界和现实世界的各种信息,并在社交网络上畅所欲言地发表自己对社会事件的观点和意见。当虚拟世界中爆发某网络事件或现实世界中爆发某社会事件时,可能会引起网民们的广泛关注与讨论,届时它将演化成为舆情事件,对社会的公共安全造成重大的影响。同时,舆情信息工作需要采集的数据量十分庞大,信息的传播呈现出一种“蜂窝状”的发散性结构,致使舆情的分析和预测难度加大,而且舆情事件的爆发时间具有不稳定的状态,这些问题使得舆情的应对工作面临巨大的挑战。因此,研究一种新型有效的舆情事件的分析与预测方法不仅能帮助政府及时把握舆情发展规律、有效开展舆情的管控工作,还能更好的维护社会的稳定和长期发展。传统的事件预测方法主要使用的是回归模型、贝叶斯网络、灰色预测模本文档来自技高网...

【技术保护点】
1.一种基于社交网络的舆情事件预测方法,其特征在于,包括以下步骤:/n步骤1:针对每个舆情事件,采集相关的社交网络数据,从舆情事件发生前若干天的社交网络数据中提取关键词,构建每天的关键词合集合,并从社交网络数据中提取出用户间的传播关系;/n步骤2:将社交网络数据进行语料预处理后得到语料库,将所有的关键词表示为词向量;/n步骤3:基于每天的关键词集合和用户间的传播关系,构建每天的关键词的语义关联信息图和传播关系图;/n步骤4:基于图卷积网络构建动态双重图卷积网络模型,分别将前若干天中每天的关键词的语义关联信息图和传播关系图输入动态双重图卷积网络模型,同时分别对应将每天对应的在前数据输入动态双重图...

【技术特征摘要】
1.一种基于社交网络的舆情事件预测方法,其特征在于,包括以下步骤:
步骤1:针对每个舆情事件,采集相关的社交网络数据,从舆情事件发生前若干天的社交网络数据中提取关键词,构建每天的关键词合集合,并从社交网络数据中提取出用户间的传播关系;
步骤2:将社交网络数据进行语料预处理后得到语料库,将所有的关键词表示为词向量;
步骤3:基于每天的关键词集合和用户间的传播关系,构建每天的关键词的语义关联信息图和传播关系图;
步骤4:基于图卷积网络构建动态双重图卷积网络模型,分别将前若干天中每天的关键词的语义关联信息图和传播关系图输入动态双重图卷积网络模型,同时分别对应将每天对应的在前数据输入动态双重图卷积网络模型中,直至计算得到前一天的关键词的特征向量;
步骤5:对于每个舆情事件,将输出的前一天的关键词的特征向量进行非线性变换,输出舆情事件的预测结果。


2.根据权利要求1所述的一种基于社交网络的舆情事件预测方法,其特征在于:在步骤1中,具体包括以下步骤:
步骤101:首先确定所关注的舆情事件的关键词,然后通过爬虫程序采集该舆情事件相关的社交网络数据;
步骤102:对采集的社交网络数据进行数据清洗;
步骤103:对于每个舆情事件,找出其发生前M天的社交网络数据,在每天的社交网络数据中使用关键词提取方法提取前N个关键词,M、N为正整数;
步骤104:对于每个舆情事件,从该舆情事件相关的社交网络数据中,提取出用户间的传播关系,传播关系包括用户之间的转发关系、评论关系、回复关系。


3.根据权利要求1所述的一种基于社交网络的舆情事件预测方法,其特征在于:在步骤2中,对社交网络数据进行语料预处理得到语料库,使用Word2Vec模型训练词向量,然后将步骤1中提取出来的所有关键词转换成向量表示,得到所有关键词的初始的语义特征向量H0。


4.根据权利要求2所述的一种基于社交网络的舆情事件预测方法,其特征在于:在步骤2中,在对社交网络数据进行语料预处理时,对于中文数据使用jieba工具进行分词,对于英文数据提取词干。


5.根据权利要求3所述的一种基于社交网络的舆情事件预测方法,其特征在于:在步骤3中,具体包括以下步骤:
步骤301:对于每个舆情事件,第t天的关键词的语义关联信息图记为Gpt,其节点集为Vn={v1,v2,···,vn},其中,|Vn|=N,每个节点表示一个关键词;
将语义关联信息图记Gpt使用维度为N×N的语义关联信息矩阵Pt来表示,Pt中的每个值Pt[i,j](i≠j)则表示Gpt中的任意两个不同的关键词vi和vj之间的语义关联信息值;以点互信息(PMI)定义语义关系,语义关联信息矩阵Pt的计算公式为:



其中,PMIt(vi,vj)表示第t天中任意两个不同的关键词vi和vj之间的点互信息值,其计算公式为:



其中,dt(vi,vj)表示第t天中任意两个不同的关键词vi和vj共同出现的文档数,dt(vi)表示第t天中关键词vi至少出现一次的文档数,dt(vj)表示第t天中关键词vj至少出现一次的文档数,Dt表示第t天的文档总数,log是自然对数函数;
步骤302:将用户间的传播关系转换为关键词的传播关系,若两个用户之间具有传播关系,则认为提取的两个用户对应的社交网络数据中的关键词具有传播关系,对于每个舆情事件,第t天的关键词的传播关系图记为Gat,其节点集为Vn={v1,v2,···,vn},其中,|Vn|=N,每个节点表示一个关键词;
将传播关系图Gat使用维度为N×N的传播关系矩阵At来表示,At中的每个值At[i,j](i≠j)则表示Gat中的任意两个不同的关键词vi和vj之间是否存在传播关系,传播关系矩阵At的计算公式为:



其中,wA和wB是具有传播关系的两个文本TA和TB中的不同单词,并且都属于节点集Vn。


6.根据权利要求5所述的一种基于社交网络的舆情事件预测方法,其特征在于:在步骤4中,具体包括以下步骤:
步骤401:基于图卷积网络构建动态双重图卷积网络模型,动态双重图卷积网络模型包括图卷积层和时间编码层,图卷积层包括两个图卷积网络,采用带标签值的训练集,对于动态双重图卷积网络模型进行训练,直至模型收敛,得到训练好的动态双重图卷积网络模型;
步骤402:将每天的关键词的语义关联信息图和传播关系图对应的语义关联信息矩阵和传播关系矩阵进行对称归一化处理;
步骤403:以M天中的最早一天为第1天,分别将第1天的经归一化处理的语义关联信息矩阵和传播关系矩阵以及关键词的初始的语义特征向量,输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量;
步骤404:将语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量;
步骤405:将聚合后的特征向量输入动态双重图卷积网络模型的时间编码层进行时间编码嵌入,以捕获关键词之间的时序特征,获得时间编码嵌入后的特征向量;
步骤406:将得到的第t-1天对应的时间编码嵌入后的特征向量,与第t天的经归一化处理的语义关联信息矩阵和传播关系矩阵,一起输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量,其中1<t≤M-1,M、t为正整数;
步骤407:将第t天的语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量;
步骤408:将第t天的聚合后的特征向量输入动态双重图卷积网络模型的时间编码层进行时间编码嵌入,以捕获关键词之间的时序特征,获得第t天的时间编码嵌入后的特征向量;
步骤409:以上一步的t为新的t-1,基于时序重复执行步骤406-408,直...

【专利技术属性】
技术研发人员:蒋沂桔贾焰周斌高立群陈晨光王雪李爱平江荣涂宏魁王晔喻承
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1