一种微博文本的主题探测方法及装置制造方法及图纸

技术编号:35729549 阅读:11 留言:0更新日期:2022-11-26 18:28
本申请公开了一种微博文本的主题探测方法及装置,包括:先随机获取多个微博文本及文本数据,将所有文本数据组建成文本数据集,并获取所有用户节点及所有文本连接,构建复杂网络;然后,对复杂网络划分成多个社团,获取每个社团中的每个用户节点所发的微博博文,并组建用户节点文档;最后,对用户节点文档进行分词处理,获取待分析语料,采用主题模型对每个社团的主题进行探测。本申请解决了由于复杂网络具有嘈杂的特点,即两个互不相关的用户节点有可能在某种情况下被错误的连接在一起,这些互不相关的用户节点会对微博文本的主题探测造成干扰,从而降低主题探测的准确性的问题,本申请引入社团结构的特点,提高了主题探测的准确性。确性。确性。

【技术实现步骤摘要】
一种微博文本的主题探测方法及装置


[0001]本申请涉及社交网络
,尤其涉及一种微博文本的主题探测方法及装置。

技术介绍

[0002]微博是一种分享简短实时信息的广播式的社交网络平台。用户通过微博,将自己对于某个热点话题的意见想法以书面语言形式进行表达交流,产生了微博文本。主题探测是指从这些微博文本中抽取关键词或术语,并在此基础上加以聚类,从而探测到微博文本的主题,这里的主题即为探测到的关键词或术语。如果能探测微博文本中隐含的主题并且确定具有重要影响力的关键领导者,就可以监视热点事件的舆论传播,并引导舆情,因此,微博文本主题探测的准确性尤为重要。
[0003]目前,常采用主题模型对这些微博文本中的主题进行探测,主题模型是一种基于词频计算文本中词汇的概率,进而获取主题的建模方法。微博用户通常被交织的转发评论关系连接在一起,微博文本也普遍被多条超链接连接在一起,形成复杂的网络结构,如果每个微博用户视为一个用户节点,那么多个用户节点相互连接就构成了一个复杂网络,相较于分析单个微博文本,使用主题模型分析复杂网络中的微博文本,所得到的主题更具有客观性和更高的准确性。
[0004]但是,由于复杂网络具有嘈杂的特点,即两个互不相关的用户节点有可能在某种情况下被错误的连接在一起,这些互不相关的用户节点会对微博文本的主题探测造成干扰,从而降低主题探测的准确性。

技术实现思路

[0005]为了解决由于复杂网络具有嘈杂的特点,即两个互不相关的用户节点有可能在某种情况下被错误的连接在一起,这些互不相关的用户节点会对微博文本的主题探测造成干扰,从而降低主题探测的准确性问题,本申请通过以下实施例公开了一种微博文本的主题探测方法及装置。
[0006]本申请第一方面公开了一种微博文本的主题探测方法,包括:
[0007]随机获取多个微博文本及每个所述微博文本的文本数据,所述文本数据包括当前微博文本的链接、当前微博文本所属的用户身份、当前微博文本所属的用户的关注数、当前微博文本所属的用户的粉丝数、当前微博文本的发布时间、当前微博文本的内容、当前微博文本的被转发数、当前微博文本的被评论数、当前微博文本的被评论内容及当前微博文本的被点赞数;
[0008]将所有微博文本的文本数据组建成一个文本数据集;
[0009]根据所述文本数据集,获取所有的用户节点及所有的文本连接,所述所有的用户节点包括每个微博文本所属的用户、每个微博文本的评论用户、每个微博文本的点赞用户及每个微博文本的转发用户,所述所有的文本连接包括各个微博文本之间的连接关系;
[0010]根据所述所有的用户节点及所述所有的文本连接,构建复杂网络;
[0011]对所述复杂网络进行划分,并获取多个社团及输出字典,每个所述社团均包括多个用户节点,所述输出字典包括每个用户节点与每个所述社团之间的映射关系;
[0012]根据所述输出字典及所述文本数据集,获取每个社团中的每个用户节点所发的微博博文;
[0013]获取用户节点文档,所述用户节点文档为同一用户节点所发的微博博文组建而得的文档;
[0014]对所述用户节点文档进行分词处理,获取待分析语料,所述分词处理包括去除标点符号、去除数字、去除字母及去除停用词;
[0015]根据每个社团中的待分析语料,采用主题模型对每个社团的主题进行探测。
[0016]可选的,所述根据所述输出字典及所述文本数据集,获取每个社团中的每个用户节点所发的微博博文,包括:
[0017]根据所述输出字典,获取每个社团的每个用户节点的用户身份;
[0018]根据所述每个用户节点的用户身份,从所述文本数据集中获取每个社团中的每个用户节点所发的微博博文。
[0019]可选的,在所述根据每个社团中的待分析语料,采用主题模型对每个社团的主题进行探测之后,所述一种微博文本的主题探测方法还包括:
[0020]获取每个社团中所有的微博文本,并对所述所有的微博文本进行情感分析;
[0021]获取每个社团的情感分析结果,并将所述情感分析结果划分成消极、积极及中立三个情感极性;
[0022]获取每个社团的情感极性划分结果,所述情感极性划分结果即为所述每个社团对探测到的主题的情感趋向。
[0023]可选的,所述文本数据还包括原微博文本的属性,所述原微博文本为被当前微博文本转发的文本,所述原微博文本的属性包括原微博文本的链接、原微博文本所属的用户身份、原微博文本的内容。
[0024]可选的,所述所有的用户节点还包括每个原微博文本所属的用户。
[0025]本申请第二方面公开了一种微博文本的主题探测装置,所述主题探测装置应用于本申请第一方面所述的一种微博文本的主题探测方法,包括:
[0026]文本数据获取模块,用于随机获取多个微博文本及每个所述微博文本的文本数据,所述文本数据包括当前微博文本的链接、当前微博文本所属的用户身份、当前微博文本所属的用户的关注数、当前微博文本所属的用户的粉丝数、当前微博文本的发布时间、当前微博文本的内容、当前微博文本的被转发数、当前微博文本的被评论数、当前微博文本的被评论内容及当前微博文本的被点赞数;
[0027]文本数据集组建模块,用于将所有微博文本的文本数据组建成一个文本数据集;
[0028]用户节点及文本连接获取模块,用于根据所述文本数据集,获取所有的用户节点及所有的文本连接,所述所有的用户节点包括每个微博文本所属的用户、每个微博文本的评论用户、每个微博文本的点赞用户及每个微博文本的转发用户,所述所有的文本连接包括各个微博文本之间的连接关系;
[0029]复杂网络模块构建,用于根据所述所有的用户节点及所述所有的文本连接,构建复杂网络;
[0030]社团及输出字典获取模块,用于对所述复杂网络进行划分,并获取多个社团及输出字典,每个所述社团均包括多个用户节点,所述输出字典包括每个用户节点与每个所述社团之间的映射关系;
[0031]微博博文获取模块,用于根据所述输出字典及所述文本数据集,获取每个社团中的每个用户节点所发的微博博文;
[0032]用户节点文档获取模块,用于获取用户节点文档,所述用户节点文档为同一用户节点所发的微博博文组建而得的文档;
[0033]待分析语料获取模块,用于对所述用户节点文档进行分词处理,获取待分析语料,所述分词处理包括去除标点符号、去除数字、去除字母及去除停用词;
[0034]主题探测模块,用于根据每个社团中的待分析语料,采用主题模型对每个社团的主题进行探测。
[0035]可选的,所述微博博文获取模块,包括:
[0036]用户身份获取单元,用于根据所述输出字典,获取每个社团的每个用户节点的用户身份;
[0037]微博博文获取单元,用于根据所述每个用户节点的用户身份,从所述文本数据集中获取每个社团中的每个用户节点所发的微博博文。
[0038]可选的,在主题探测模块之后,所述一种微博文本的主题探测装置本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种微博文本的主题探测方法,其特征在于,包括:随机获取多个微博文本及每个所述微博文本的文本数据,所述文本数据包括当前微博文本的链接、当前微博文本所属的用户身份、当前微博文本所属的用户的关注数、当前微博文本所属的用户的粉丝数、当前微博文本的发布时间、当前微博文本的内容、当前微博文本的被转发数、当前微博文本的被评论数、当前微博文本的被评论内容及当前微博文本的被点赞数;将所有微博文本的文本数据组建成一个文本数据集;根据所述文本数据集,获取所有的用户节点及所有的文本连接,所述所有的用户节点包括每个微博文本所属的用户、每个微博文本的评论用户、每个微博文本的点赞用户及每个微博文本的转发用户,所述所有的文本连接包括各个微博文本之间的连接关系;根据所述所有的用户节点及所述所有的文本连接,构建复杂网络;对所述复杂网络进行划分,并获取多个社团及输出字典,每个所述社团均包括多个用户节点,所述输出字典包括每个用户节点与每个所述社团之间的映射关系;根据所述输出字典及所述文本数据集,获取每个社团中的每个用户节点所发的微博博文;获取用户节点文档,所述用户节点文档为同一用户节点所发的微博博文组建而得的文档;对所述用户节点文档进行分词处理,获取待分析语料,所述分词处理包括去除标点符号、去除数字、去除字母及去除停用词;根据每个社团中的待分析语料,采用主题模型对每个社团的主题进行探测。2.根据权利要求1所述的一种微博文本的主题探测方法,其特征在于,所述根据所述输出字典及所述文本数据集,获取每个社团中的每个用户节点所发的微博博文,包括:根据所述输出字典,获取每个社团的每个用户节点的用户身份;根据所述每个用户节点的用户身份,从所述文本数据集中获取每个社团中的每个用户节点所发的微博博文。3.根据权利要求1所述的一种微博文本的主题探测方法,其特征在于,在所述根据每个社团中的待分析语料,采用主题模型对每个社团的主题进行探测之后,所述一种微博文本的主题探测方法还包括:获取每个社团中所有的微博文本,并对所述所有的微博文本进行情感分析;获取每个社团的情感分析结果,并将所述情感分析结果划分成消极、积极及中立三个情感极性;获取每个社团的情感极性划分结果,所述情感极性划分结果即为所述每个社团对探测到的主题的情感趋向。4.根据权利要求1或3所述的一种微博文本的主题探测方法,其特征在于,所述文本数据还包括原微博文本的属性,所述原微博文本为被当前微博文本转发的文本,所述原微博文本的属性包括原微博文本的链接、原微博文本所属的用户身份、原微博文本的内容。5.根据权利要求4所述的一种微博文本的主题探测方法,其特征在于,所述所有的用户节点还包括每个原微博文本所属的用...

【专利技术属性】
技术研发人员:张赜涛赵娜龙镇刘铠华王剑秦江龙刘文涛张强荐刘前马伟云王鑫锴文俊杰陈琳洁杨燕柴焰明
申请(专利权)人:云南日报报业集团
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1