微博平台热词抓取与社交群体分析方法及装置制造方法及图纸

技术编号:37467187 阅读:31 留言:0更新日期:2023-05-06 09:42
本申请涉及一种微博平台热词抓取与社交群体分析方法及装置,其中,方法包括:基于预设自然语言处理词典建立词语相关性图,利用抓取的微博文本计算目标时间范围内关键词与热度,挖掘当前热点话题与相关热词;将涉及热点话题传播的社交用户按预设时间顺序排列为传播级联,建立好友关系图,得到传播级联特征和好友关系特征;基于动态超图神经网络技术,使用传播级联特征和好友关系特征共同进行社区划分,生成社区的动态划分结果。由此,解决了相关技术中,针对热点话题的提取方法一般适合处理静态文本库,缺少时间变化要素,定量分析微博文本的热度缺乏新的技术手段,网络中的社区划分方法忽略现有模型中动态的传播关系的问题。方法忽略现有模型中动态的传播关系的问题。方法忽略现有模型中动态的传播关系的问题。

【技术实现步骤摘要】
微博平台热词抓取与社交群体分析方法及装置


[0001]本申请涉及网络空间安全
,特别涉及一种微博平台热词抓取与社交群体分析方法及装置。

技术介绍

[0002]互联网的迅猛发展,深刻改变着舆论生成方式和传播方式,改变着媒体格局和舆论生态。因此,如果能够面向海量微博数据,实现对当前时刻热度最高的话题的及时抓取与处理,就可以获得平台当前的热点内容,提取该话题在社交用户间的传播趋势,进而帮助分析微博用户社交网络结构,找出信息传播的主要覆盖群群体,对及时准确把握微博平台上的网络舆论态势,具有重要的社会意义。
[0003]相关技术中,针对热点话题的提取主要基于自然语言处理技术,通过搜集大量的文本组成语料库,对句子进行分词,然后利用两个单词在不同文本中的共现程度,学习单词之间的相关性,或者利用一个单词和它的上下文,使用可训练的模型学习单词的表示。此外,社交网络结构的分析中的一个重要问题是网络中的社区划分,传统的社区划分方法主要分为传统的优化算法和基于可训练模型的算法,前者一般通过给定指标,如模块度、模块度密度、归一化互信息等指标,将社交网络的社本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种微博平台热词抓取与社交群体分析方法,其特征在于,包括以下步骤:基于预设自然语言处理词典建立词语相关性图,并利用抓取的微博文本计算目标时间范围内的关键词与热度,并以所述关键词和所述热度更新所述词语相关性图,挖掘当前的热点话题与相关热词;将涉及所述热点话题传播的社交用户按预设时间顺序排列为传播级联,并结合基于社交用户之间的关注关系,建立好友关系图,得到传播级联特征和好友关系特征;以及基于动态超图神经网络技术,使用所述传播级联特征和所述好友关系特征共同进行社区划分,生成社区的动态划分结果。2.根据权利要求1所述的方法,其特征在于,所述基于预设自然语言处理词典建立词语相关性图,包括:对所述预设自然语言处理词典进行预处理,利用OpenHowNet模块提供的功能筛选出与目标词语相关性大于预设阈值的词语,构建出完整的所述词语相关性图。3.根据权利要求1所述的方法,其特征在于,所述以所述关键词和所述热度更新所述词语相关性图,挖掘当前的热点话题与相关热词,包括:对文本数据进行中文分词并进行数据清洗,得到微博的分词结果;检查所述分词结果中各分词在所述词语相关性图中的连接关系,其中,如果词语不存在,则在所述词语相关性图中加入相应的节点,并添加对应词语与各主题关键词的连边,连边暂时赋权重为0;每隔预设时长更新所述词语相关性图中的各边权重;由于微博的社交热度会随着时间衰减,设计时间衰减函数;计算任一时刻词语之间的相关性。4.根据权利要求3所述的方法,其特征在于,所述相关性的计算公式为:r
t
=θr+(1

θ)f(t,i)Δr#(1.3),其中,θ∈[0,1]为一可自主调节的超参数,t为时间,i为词语。5.根据权利要求1所述的方法,其特征在于,所述基于动态超图神经网络技术,使用所述传播级联特征和所述好友关系特征共同进行社区划分,生成社区的动态划分结果,包括:构建静态好友关系图,并进行用户表示初始化和社区划分初始化;构建动态传播级联,以更新用户表示,...

【专利技术属性】
技术研发人员:王天博赵昊鹏李化成夏春和
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1