当前位置: 首页 > 专利查询>之江实验室专利>正文

一种考虑用户在线关系网络的舆情主题发现方法技术

技术编号:26763011 阅读:77 留言:0更新日期:2020-12-18 23:19
本发明专利技术公开了一种考虑用户在线关系网络的舆情主题发现方法,其步骤包括:1构建用户在线关系网络,2设计有参贝叶斯模型user link topic model生成文本主题,3利用坍塌式吉布斯抽样算法进行参数推断。本发明专利技术在应对大规模社交网络时,能有效、快速、准确地发现用户关注度高的舆情主题,有助于舆情主题检测,从而为决策者提供重要信息,用于评估在过去特定时间内对于民众舆情引导效果,并有助于及时了解用户当下所关心的热点话题。

【技术实现步骤摘要】
一种考虑用户在线关系网络的舆情主题发现方法
本专利技术涉及舆情主题发现
,具体涉及一种考虑用户在线关系网络的舆情主题发现方法。
技术介绍
随着社交媒体和移动应用的快速发展,如:百度贴吧、新浪微博、twitter、reddit等,在线社交媒体已经成为用户分享、发表观点、诉说诉求的重要工具,这些社交媒体有着惊人的速度、覆盖面和渗透力,民众所分享的信息被社交媒体广泛吸收,这些信息通常数量多、内容少,普遍存在随意性语言并且受到其他用户的影响,这些特点对于分析信息中文本对应的主题影响很大。不同用户彼此间通过发帖、关注、转发等形式形成了用户在线关系网络,用户所发表的观点通过社交网络进行传播,彼此影响,形成关于社会热点的各种舆情主题。舆情主题检测能为政府决策提供重要信息,有助于政府及相关部门评估特定时间内对于民众舆情的引导效果,并有助于及时了解民众当下所关心的热点话题。
技术实现思路
本专利技术为了克服现有技术存在的不足之处,提出了一种考虑用户在线关系网络的舆情主题发现方法,以期能有效发现用户在线关系网络中的舆情主题,有助于本文档来自技高网...

【技术保护点】
1.一种考虑用户在线关系网络的舆情主题发现方法,其特征是按如下步骤进行:/n步骤1、构建用户在线关系网络G:/n步骤1.1、获取U个用户分别发表的N

【技术特征摘要】
1.一种考虑用户在线关系网络的舆情主题发现方法,其特征是按如下步骤进行:
步骤1、构建用户在线关系网络G:
步骤1.1、获取U个用户分别发表的Nu篇文档中的文本信息并构成文本集合D,去除所述文本集合D中所有标点符号并进行分词操作后,再去除停用词和低频词,从而得到预处理后的包含U×Nu篇文档的文本集合D′;其中,预处理后的第u个用户发表的Nu篇文档记为表示第u个用户发表的第nu篇文档,将第nu篇文档中的词集合记为其中,表示第u个用户发表的第nu篇文档中第m个单词,表示第u个用户发表的第nu篇文档中的词个数;
步骤1.2、根据用户-帖子二部图,采用随机游走方法获取用户在线关系网络G;
步骤1.3、获取所述用户在线关系网络G中与第u个用户最近邻的N个邻居用户;
步骤2、指定预处理后的文本集合D′中的主题个数为K;
步骤3、设计有参贝叶斯模型,并通过分析用户在所述用户在线关系网络G中的文本信息与用户链接信息,生成文本对应主题;
步骤3.1、按照式(2)分别生成所述用户在线关系网络G中的背景主题词分布φB:



式(2)中,~表示服从,π表示单词从主题词分布中生成概率的期望;且π服从超参数为γ的Beta分布;1-π表示单词从背景主题词分布φB中生成概率的期望;β是狄利克雷分布的超参数,且服从狄利克雷Dirichlet分布,并有:



式(3)中,表示第v个单词在相应背景主题下所有词所占权重,V是预处理后的文本集合D′中所有不重复词的总数;
步骤3.2、对于所述用户在线关系网络G中的K个主题,按照式(4)分别生成第k个主题的词分布从而得到用户在线关系网络G中所有主题下的词分布记为



式(4)中,服从狄利克雷Dirichlet分布,并有:



式(5)中,φkv表示第v个单词在第k个主题下所有词所占比重;
步骤3.3、对于所述用户在线关系网络G中的每个用户:
步骤3.3.1、按照式(6)生成第u个用户的主题分布



式(6)中,α为先验分布超参数;服从狄利克雷Dirichlet分布,并有:



式(7)中,表示第u个用户发表的第nu篇文档的主题分布情况;
步骤3.3.2、对用户发表的每篇文档:
按照式(8)生成第u个用户发表的第nu篇文档的主题



式(8)中,服从参数为的多项式Multi分布;
按照式(9)生成单词的主题-背景主题指示变量



式(9)中,是二元指示变量,且服从伯努利Bernoulli分布,并用于选择第u个用户发表的第nu篇短文本中的第m个单词是从背景主题词分布中生成还是从主题词分布中生成;当时,表示第u个用户发表的第nu篇文档中第m个单词从主题词分布中产生,当时,表示第u个用户发表的第nu篇文档中第m个单词从背景主题词分布中产生;
按照式(10)生成短文本中每个词:



式(10)中,表示第u个用户发表的第nu篇文档对应主题的词分布,第u个用户发表的第nu篇文档中第m个单词服从参数为或的多项式Multi分布;
步骤3.4、根据式(11)创建存在链接的第u个用户和第u′个用户之间链接指示变量yu,u′,且yu,u'∈{1,-1}:...

【专利技术属性】
技术研发人员:张吉姜元春孙见山余婷梁瑞成单海军李怡钱洋柴一栋
申请(专利权)人:之江实验室合肥工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1