【技术实现步骤摘要】
一种基于频繁词集与BERT语义的微博热点话题发现方法
[0001]本专利技术属于短文本聚类技术研究领域,尤其涉及一种基于频繁词集与 BERT语义的微博热点话题发现方法。
技术介绍
[0002]当今社会是一个网络化的时代,随着信息技术和网络技术的快速发展,通过互联网传播的信息量更是呈爆炸式增长。微博作为当下常用的社交网络新媒体平台,每天都有大量的包含社会各方面的信息流出,已经成为越来越多的用户发布和获取信息的重要渠道。
[0003]微博凭借其平台的开放性、内容简洁性和低门槛等特性,成为越来越多的网民获取新闻时事、自我表达以及社会公共舆论的重要平台。微博作为当代生活中重要的舆论发生地,已经成为热点话题传播的重要媒介。目前情况来看,微博热点话题时常会对社会的影响力很大,其影响范围、扩散速度都是意料之外的。因此,准确挖掘微博中的热点话题对于事件监测、观点挖掘、舆情控制等具有极其重要的作用。如何挖掘和处理微博数据已经成为国内外学者的研究热点,其中对中文微博平台的热点话题发现是微博研究领域的一个重点课题。
[0004]传 ...
【技术保护点】
【技术特征摘要】
1.一种基于频繁词集与BERT语义的微博热点话题发现方法,其特征在于:该方法包括如下步骤:步骤1、获取微博数据集;步骤1.1、在微博平台上随机爬取海量微博数据作为训练BERT预训练模型的数据集;步骤1.2、采用爬虫技术以定主题的方式爬取某段时间内微博热点话题数据集;步骤2、数据预处理及特征词汇提取;步骤2.1、对获取的微博数据集中的热点话题数据进行预处理,包括数据清洗、中文分词处理、停用词处理;步骤2.2、使用TF
‑
IDF和TextRank进行特征词汇提取;步骤3、构建基于频繁词集与BERT语义的文本双表示模型;步骤3.1、对处理后的微博热点话题数据集进行频繁词集挖掘,并计算频繁词集相似度;步骤3.2、对处理后的微博热点话题数据集进行BERT句向量表示,并计算BERT语义相似度;步骤3.3、利用频繁词集相似度和BERT语义相似度构建文本双表示模型计算微博文本融合相似度进行话题谱聚类;步骤4、热点话题评估分析;通过引入H指数并结合话题词热度和用户参与度两个维度对话题聚类结果进行热度值计算。2.根据权利要求1所述的一种基于频繁词集与BERT语义的微博热点话题发现方法,其特征在于:微博数据预处理包括数据清洗、中文分词处理和停用词处理;(1)数据清洗:过滤掉微博数据中对主题提取无意义的英文、数字、标点符号、特殊符号及各种表情符号,并剔除了字数小于6的无意义微博文本;(2)中文分词处理:采用jieba分词工具包实现分词;(3)停用词处理:通过使用构建的停用词表去除文本中出现频繁没有实际意义的停用词;使用TF
‑
IDF和TextRank提取关键词并进行合并形成关键词集合,使用该关键词集合对微博文本进行初步过滤。3.根据权利要求1所述的一种基于频繁词集与BERT语义的微博热点话题发现方法,其特征在于:采用频繁词集和BERT语义两个维度进行微博文本表示;频繁词集相似度采用Jaccard相似度来进行度量,如公式(1)所示:其中M和N表示两个不同的微博热点话题文本,M.txt和N.txt表示由频繁词集表示的微博热点话题文本,count(M.txt∩M.txt)表示两个微博文本共有的频繁词集的个数,count(M.txt∩M...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。