一种展示社交媒体热点子话题的文本可视化方法技术

技术编号:29401125 阅读:42 留言:0更新日期:2021-07-23 22:38
本发明专利技术提供了一种展示社交媒体热点子话题的文本可视化方法,包括如下步骤:步骤S101,输入社交媒体文本语料集,得到文档词项矩阵;步骤S102,计算词与词之间的共现后验概率矩阵;步骤S103,计算未在原始短文本中出现的词可以填充到该文本中的概率,将概率最大的N个词填充到原始短文本后;步骤S104,文本聚类;步骤S105,对步骤S104得到的各个文本簇分别提取关键短语和关键语句;步骤S106,基于关键短语对各个文本簇分别生成词云图;步骤S107,使用FoamTree组合各个词云图进行文本可视化;步骤S108,使用JavaScript监听到维诺图某个区域被点击时展示对应文本簇的关键语句。采用本发明专利技术的方法,可以清楚地区分出社交媒体文本语料集的各个子话题,对社交媒体舆情监测具有一定意义。

【技术实现步骤摘要】
一种展示社交媒体热点子话题的文本可视化方法
本专利技术涉及文本可视化
,特别是涉及一种可以根据社交媒体文本的语义信息区分出各个热点子话题的文本可视化方法。
技术介绍
以短文本为主要信息传播载体的媒体平台在社会中扮演越来越重要的角色,社交媒体平台每天都会产生大量的数据,其中包含了大量的社会舆论事件,挖掘出某一突发热点事件所包含的各个子话题对于研究突发热点事件所包含的网络舆情信息具有重大意义。为了从海量文本数据中挖掘资源的内在价值,基于主题的文本挖掘技术已经成为数据挖掘中重要的信息提取手段。文档的主题挖掘或主题词提取,结果更具有代表性,更能表达文本的主要信息与数据的隐藏价值。文本挖掘技术主要类别包括分类和聚类。分类将数据项分配给借助标签训练数据创建的多个预定义类别之一。另一方面,聚类旨在基于数据项之间的相似性将给定的一组数据项划分为多个类别。由于为了从任何主题下的文本媒体数据中查找子话题,并且没有任何预定义的类别或训练数据,所以聚类方法是话题发现的常用方法。与普通文本相比,以短文本为代表的社交媒体数据存在稀疏性问题。稀疏性导致了单词共现不足、上下文信息不足等问题,传统的文本聚类算法在短文本环境下的效果较差。因此为了提高短文本聚类算法的效果,近年有许多关于短文本特征扩展算法的研究,但大多数的研究或基于外部语料集或基于复杂的机器学习模型。文本挖掘挖掘出的信息依然不能满足人们利用浏览或者筛选等方式对文本数据进行合理的分析、理解和应用。为了应对这种挑战,文本可视化技术应运而生,它将文本中复杂的或者难以通过文字表达的内容和规律以符号的形式表现出来,同时向人们提供与视觉信息进行快速交互的功能,使人们可以利用与生俱来的视觉感知能力快速获取文本的关键信息。但是目前主流的可视化技术都不能很好地根据语义或者上下文信息展示某个大的话题下的各个小的子话题。
技术实现思路
有鉴于此,本专利技术设计了一种展示社交媒体热点子话题的文本可视化方法,包括如下步骤:步骤S101,输入社交媒体文本语料集,进行数据清洗和停用词过滤,得到文档词项矩阵;步骤S102,根据词与词是否在同一文档中共同出现计算词与词之间的共现后验概率矩阵;步骤S103,根据词与词之间的共现后验概率,基于在原始短文本中出现的词计算未在原始短文本中出现的词可以填充到该文本中的概率,将概率最大的N个词填充到原始短文本中完成特征扩展以解决短文本语义稀疏性的问题;步骤S104,在数据预处理后的语料集上进行文本聚类;步骤S105,对步骤S104得到的各个文本簇分别提取关键短语和关键语句;步骤S106,基于关键短语对每个文本簇分别生成词云图;步骤S107,使用维诺图JavaScript框架FoamTree组合步骤S106生成的各个词云图进行文本可视化;步骤S108,使用JavaScript的事件监听器监听到维诺图的某个区域被点击时展示对应文本簇的关键语句。步骤S102中计算词与词之间的共现后验概率符合以下公式:公式中p(wj|wm)表示词wm出现时词wj出现的概率,n(wm,di)表示在文档di中词wm出现的次数,函数C为统计次数的函数。步骤S103中计算未在原始短文本中出现的词可以填充到该文本中的概率符合以下公式:设语料集词典的大小为M,词wj未在原始文档中出现,则公式中vti,j表示词wj可以填充到文档di后作为扩展特征的概率,也可以理解为虚拟词wj对于文档di的权重。具体的特征扩展方法为如果某个短文档的词项个数(特征个数)少于某一阈值,则挑选语料集词典中未在原始文档出现的权重最大的若干虚拟词填充到原始文档后直到文档的词项个数达到阈值。步骤S104中文本聚类方法可以选择多种,可以选择根据时间聚类以在最后的文本可视化结果中传递时间信息,可以选择根据地理位置聚类以在最后的文本可视化结果中传递空间信息,可以选择根据语义聚类以在最后的文本可视化结果中区分出语料集的不同子话题。根据时间、空间聚类可以直接使用步骤S101的数据预处理结果,根据语义聚类使用步骤S102和步骤S103的数据预处理结果以解决文本语义稀疏性问题。步骤S105中在聚类算法得到的各个文本簇中提取关键词对于一般语料集采用基于依存句法与语义角色标注进行事件三元组抽取,对于社交媒体语料集采用提取以井号开头并以井号结尾的短语,因为在社交媒体中往往以这种格式的短语来表示一个特定的话题。提取关键语句的方法是判断文档向量与聚类中心向量的欧式距离,距离越近,语句的权重越大,设特征空间的特征数为M,di,j表示文档di在特征空间特征j的值,ck,j表示聚类中心ck在特征空间特征j的值,则文档di与聚类中心ck的距离计算公式为:步骤S107中使用维诺图JavaScript框架FoamTree组合各个文本簇的词云图的具体方法为:将每个文本簇的词云图嵌入到维诺图的不同多边形区域中。步骤S108中使用JavaScript的事件监听器监听点击事件来展示各个文本簇关键语句的具体方法为:当维诺图多边形区域的点击事件被触发时在该区域的上方浮现一个Tooltip弹窗展示该文本簇对应的关键语句。附图说明后文将参照附图以示例性而非限制性的方式详细描述本专利技术的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。本专利技术的目标及特征考虑到如下结合附图的描述将更加明显,附图中:图1为本专利技术实施例的文本可视化流程图。图2为本专利技术实施例的基于传统词云图进行文本可视化的效果图。图3为本专利技术实施例的基于语义聚类的文本可视化效果图。图4为本专利技术实施例的基于时间聚类的文本可视化效果图。图5为本专利技术实施例的展示关键语句文本可视化效果图。具体实施方式为了使得本专利技术能够针对其专利技术要点更加明显易懂,下面将结合附图和实例对本专利技术作进一步的说明。在下面的描述中阐述了很多细节和具体实例,提供这些实例是为了能够更透彻地理解本专利技术,并且能够将本专利技术完整形象地传达给本领域的技术人员。虽然本专利技术能够以很多不同于此描述的其它方式实施,但是本领域技术人员可以在不违背本专利技术内涵的情况下做相应的推广,因此本专利技术不受下面公开的具体实例及具体附图所限制。图1展示了本专利技术实施例可视化2019年FIBA篮球世界杯微博数据集的流程图。包括以下步骤:步骤S101,输入微博数据集,该数据集包含了8659条微博帖子,去除停用词、标点符号和URL链接,使用PythonJieba库进行中文分词,得到文档词项矩阵。如果根据微博发布的时间或地理位置来进行分类,则直接进入步骤S104,否则通过步骤S102和步骤S103进行短文本特征自扩展解决短文本语义稀疏性问题,然后经过步骤S104使用K-means算法进行文本聚类。数据集中微博文本包含的词项个数最多为52,最少为10,平均为26,此实例将文本特征自扩展中特征扩展后的特征数目阈值设置为25,K-m本文档来自技高网
...

【技术保护点】
1.一种展示社交媒体热点子话题的文本可视化方法,其特征在于包括如下步骤:/n步骤S101,输入社交媒体文本语料集,进行数据清洗和停用词过滤,得到文档词项矩阵;/n步骤S102,根据词与词是否在同一文档中共同出现计算词与词之间的共现后验概率矩阵;/n步骤S103,根据词与词之间的共现后验概率,基于在原始短文本中出现的词计算未在原始短文本中出现的词可以填充到该文本中的概率,将概率最大的N个词填充到原始短文本中完成特征扩展以解决短文本语义稀疏性的问题;/n步骤S104,在数据预处理后的语料集上进行文本聚类;/n步骤S105,对步骤S104得到的各个文本簇分别提取关键短语和关键语句;/n步骤S106,基于关键短语对每个文本簇分别生成词云图;/n步骤S107,使用维诺图JavaScript框架FoamTree组合步骤S106生成的各个词云图进行文本可视化;/n步骤S108,使用JavaScript的事件监听器监听到维诺图的某个区域被点击时展示对应文本簇的关键语句。/n

【技术特征摘要】
1.一种展示社交媒体热点子话题的文本可视化方法,其特征在于包括如下步骤:
步骤S101,输入社交媒体文本语料集,进行数据清洗和停用词过滤,得到文档词项矩阵;
步骤S102,根据词与词是否在同一文档中共同出现计算词与词之间的共现后验概率矩阵;
步骤S103,根据词与词之间的共现后验概率,基于在原始短文本中出现的词计算未在原始短文本中出现的词可以填充到该文本中的概率,将概率最大的N个词填充到原始短文本中完成特征扩展以解决短文本语义稀疏性的问题;
步骤S104,在数据预处理后的语料集上进行文本聚类;
步骤S105,对步骤S104得到的各个文本簇分别提取关键短语和关键语句;
步骤S106,基于关键短语对每个文本簇分别生成词云图;
步骤S107,使用维诺图JavaScript框架FoamTree组合步骤S106生成的各个词云图进行文本可视化;
步骤S108,使用JavaScript的事件监听器监听到维诺图的某个区域被点击时展示对应文本簇的关键语句。


2.根据权利要求1所述的一种展示社交媒体热点子话题的文本可视化方法,其特征在于所述步骤S102中计算词与词之间共现后验概率矩阵的方法符合以下公式:



公式中p(wj|wm)表示词wm出现时词wj出现的概率,n(wm,di)表示在文档di中词wm出现的次数,函数C为统计次数的函数。


3.根据权利要求1所述的一...

【专利技术属性】
技术研发人员:周锋王煜辉李小勇张玙静
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1