【技术实现步骤摘要】
一种基于社区划分和熵的舆情热点跟踪及预测方法与装置
本专利技术涉及一种基于社区划分和熵的舆情热点跟踪及预测方法,特别涉及一种基于社区划分和熵的舆情热点跟踪及预测方法与装置。
技术介绍
随着社交网络的普及,人们可以随时随地的获取信息和发表言论。因为社交网络的方便性和实时性,使其成为公众网络舆论的主要平台。随着社交网络用户的大量增加,社交网络已经积累形成了社交大数据,其中包含着海量舆情数据。舆情分析能够为政府和相关单位及时了解民意,反映社会信息,控制引导舆论正确的发展,对社会稳定和国家发展至关重要。大数据环境下如何对海量的社交网络数据进行快速的分析,实现舆情发现、是当前政府、企业和科研机构的一个研究热点。热点跟踪与预测是研究如何追踪热点话题的后续发展动态信息、预测热点漂移形成新热点话题的技术。其主要任务为,监测并分析后续舆情数据中与已知话题的相关性,预测后续热点话题。目前,国内外常用的话题跟踪技术主要有K近邻算法(KNN)、支持向量机(SVM)和朴素贝叶斯算法(NBC)。通过这些方法对热点话题进行分类,实现跟踪及预测。KNN理论上很成熟,简单易实现,且分类准确性较高, ...
【技术保护点】
一种基于社区划分和熵的舆情跟踪与预测方法,其包括以下部分:A.根据用户对热点话题的关注兴趣,构建相似关系网络,并对相似网络的结构特征进行分析,对相似网络进行社区划分,并分析社区内节点的特征,获取社区内多个Hub节点(连接数最多的节点);B.因社区中Hub节点关注的热点话题数量较多,实时关注Hub节点用户,并获取其网络主页实时数据;C.对获取的每篇用户主页文档利用自然语言处理(NLP)工具进行分词、去除停用词处理,然后计算每个词的信息熵,并按信息熵大小排序;D.根据每篇文档排序结果中n个TOP关键词,确定该文档所属的舆情热点,实现对舆情热点的跟踪,将排序靠前的、没有出现在已有 ...
【技术特征摘要】
1.一种基于社区划分和熵的舆情跟踪与预测方法,其包括以下部分:A.根据用户对热点话题的关注兴趣,构建相似关系网络,并对相似网络的结构特征进行分析,对相似网络进行社区划分,并分析社区内节点的特征,获取社区内多个Hub节点(连接数最多的节点);B.因社区中Hub节点关注的热点话题数量较多,实时关注Hub节点用户,并获取其网络主页实时数据;C.对获取的每篇用户主页文档利用自然语言处理(NLP)工具进行分词、去除停用词处理,然后计算每个词的信息熵,并按信息熵大小排序;D.根据每篇文档排序结果中n个TOP关键词,确定该文档所属的舆情热点,实现对舆情热点的跟踪,将排序靠前的、没有出现在已有热点话题中的m个关键词作为对后续热点的预测,从而完成热点话题的跟踪及预测;E.组合多个社区中Hub节点的n个关键词并排序形成跟踪关键词集,组合多个社区中Hub节点m个关键词并排序形成预测关键词集。2.根据权利要求1中所描述的一种基于社区划分和熵的舆情跟踪与预测方法,其特征在于,所描述的部分A中,是以用户为节点,用户之间的相似性为边构建一种无向带权相似关系网络,该相似关系网络具有小世界性、集群性和无标度性。对相似关系网络进行社区划分,将关注相同话题具有相似兴趣爱好的用户划分到同一社区,计算社区内节点的度数中心度、介数中心度和接近中心度,选取度数中心度大的节点作为社区内的Hub节点。3.根据权利要求1中所描述的一种基于社区划分和熵的舆情跟踪与预测方法,其特征在于,所描述的部分B中,若Hub节点含有较少的关键词,根据权利要求2相似网络构建原理,若仅让关键词包含于该Hub节点中关键词的节点与该Hub节点相连,则Hub节点的连接节点数较少,Hub节点度数非常小,与Hub节点的定义(Hub节点具有较多的连结数)矛盾;同理,若普通节点含有较多关键词,则存在较多节点与之相连,其度数较大,该节点将归为...
【专利技术属性】
技术研发人员:刘昕,王丰,曹帅,王奕文,邹苹钧,
申请(专利权)人:中国石油大学华东,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。