当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于社交媒体内容和结构的用户实时观点检测方法技术

技术编号:21714528 阅读:35 留言:0更新日期:2019-07-27 19:14
本发明专利技术公开了一种基于社交媒体内容和结构的用户实时观点检测方法,该方法主要包括:基于微博API和哈希标签实时地爬取事件相关的微博以及微博作者的社交网络信息;基于微博文本和用户的社交网络信息,利用哈希标签和远程监督技术生成训练数据;基于动态神经网络模型训练,完成用户级别的动态观点检测。本发明专利技术不需要大量标注语料,可以预测用户在下个时间段的关于某一主题的立场,得益于循环神经网络对用户行为的模拟,有着更高的准确率;可以在用户语料缺失的情况下利用社交网络信息预测用户观点;可以在获得新的微博数据,动态地在已训练好的动态神经网络上进行迭代,避免了从头开始训练费时的问题。

A Real-time View Detection Method Based on Social Media Content and Structure

【技术实现步骤摘要】
一种基于社交媒体内容和结构的用户实时观点检测方法
本专利技术涉及一种基于社交媒体内容和结构的用户实时观点检测方法,属于信息处理

技术介绍
社交媒体实时观点预测(DynamicOpinionPrediction),又称用户级别的动态立场预测,是指为微博中的每一个用户标注一个正确的观点,用户的观点由两部分组成,第一部分是用户讨论或关心的主题,第二部分是用户的立场。正确、及时和高效地预测用户观点,不仅有助于掌握社会舆情和政府决策,具有深远的社会价值,而且有利于企业制定合适的市场策略,具有重要的市场研究价值。目前,社交媒体为社会公众提供了前所未有的舆论表达新手段和自由的公共事务讨论新空间,已成为现今社会内容文本和网络数据的重要载体,反映了社会的舆论趋势、汇集了民意。特别是近几年,随着以推特,脸书,新浪微博和微信等社交平台的迅猛发展,用户的社会关系和用户发表的文本信息量急剧增长,如何利用这些结构数据和内容数据进行正确而高效的观点预测,是目前面临的一大挑战。当前的用户级别的观点预测方法按照特征提取方法可以分为基于纯文本的观点预测方法、基于社交网络结构的观点预测方法以及基于文本上下文注意力机制的观点预测方法,按照分类器类型可以分为静态观点预测方法和动态观点预测方法。现有的比较成熟的方法大多面向纯文本,把观点预测看作一个文本分类的问题,使用长短时记忆神经网络(LSTM)和条件随机场(CRF)对社交网络用户进行立场分类。少数工作只考虑用户关系信息,把用户观点看作一个影响力在加权网络上传播的过程。也有一些工作考虑了文本之间的主题相关性,引入了上下文注意力(Attention)的概念,认为主题相近的微博文本用户的关注度较高,从而提高了文本分类的准确率和召回率。关于分类器类型的选择,就目前已有的研究方法而言,基于动态分类器的用户观点检测很少,有且仅限于概率图模型,而且面向文本级别进行分类。
技术实现思路
专利技术目的:为了填补融合社交网络结构和内容进行用户观点预测研究的不足,本专利技术提供一种基于社交媒体内容和结构的用户实时观点检测方法,能够解决社交网络特有的用户观点预测实时性的问题;能够整合用户关系和用户微博文本这两种模态的信息,旨在提升用户观点检测的准确率。技术方案:为实现上述目的,本专利技术采用了实时抓取社交媒体数据、预处理整合网络结构和文本内容、动态训练神经网络和预测用户观点的技术方案,所述的基于社交媒体内容和结构的用户实时观点检测方法,包括以下步骤:(1)抓取微博文本并分析得到微博作者,抓取作者的社交网络信息;(2)构建用户级别的社交媒体数据库,包括社交网络结构数据库和社交网络文本数据库,分别存储社交网络结构数据和文本数据;(3)进行面向社交网络结构与文本内容的预处理,包括:首先对社交网络文本数据库中的微博按照发布时间排序,然后以设定时间为单位进行分割,得到以时间为区分的文本数据块;接着对社交网络结构数据库中的用户用哈希表进行存储;最后对每个以时间为单位的文本数据块,遍历每条微博,得到活跃过的用户ID集合以及用户最近发的设定条数的微博,然后遍历每条微博并输出,每次输出用户最近发的1条微博时,伴随着同时输出他的邻居们最近发的设定条数的微博;(4)将步骤(3)处理得到的数据进行存储,得到融合社交网络结构与文本的数据结构,作为神经网络的训练数据集和测试数据集;该数据结构中包括若干数据块,每个数据块中包括若干用户发表的微博串,每条微博由用户自身微博博文和它的语境构成,每条微博博文有对应的主题;训练数据集中每条微博标记了用户的真实立场;(5)利用训练数据集训练动态神经网络;其中训练数据集以步骤(3)中设定的分割时间为单位,采用增量训练的过程,每次训练完一个数据块后,将循环神经网络神经元的参数值进行保存,下次进行训练时,先载入原先的循环神经网络的参数值,然后使用最新的训练数据执行梯度下降算法,在原先已训练好的循环神经元的参数值的基础上进行更新;(6)在使用完训练数据集中的数据块后,得到一个训练好的基于动态神经网络的用户观点分类器;(7)利用训练好的用户观点分类器和预测数据块预测此数据块中每个的实时用户观点。在优选的实施方案中,步骤(1)中调用微博流式API来实时地监听用户可见的微博窗口,允许输入一组哈希标签来过滤抓取到的微博;在监听到最新的微博后,分析微博json数据,得到微博作者的用户ID,然后调用微博查询式API问询用户ID,获得用户的社交网络信息。在优选的实施方案中,社交网络结构数据库中的社交网络数据表以用户ID为主键,每一行第一列为用户ID,其他列为关注该用户的用户ID;社交网络文本数据库中的文本数据表以微博ID为主键,其中每一行第一列为微博的作者的用户ID,第二列为微博的文本,第三列为是否转发标识,第四列为微博的发布时间,最后一列为这条微博的ID。在优选的实施方案中,面向社交网络结构与文本内容的预处理具体包括:(3.1)将社交网络数据表读入并存储为一张以用户ID为键的哈希表,每个键映射到的值是用户关注对象的ID集合;(3.2)将文本数据表按照发布时间升序排序,然后以“天”为时间单位进行分割,得到若干文本数据子表;(3.3)对每个文本数据子表执行了下述操作:i)遍历得到一个哈希表,键是用户ID,键集合是这一天活跃过的用户ID集合,每个键映射到的值是一张数据表,该数据表以微博ID为主键,键集合是用户这一天最近发的3条微博,主键映射到的非主属性是离该微博的时间戳最近的5条邻居微博;ii)遍历i)中哈希表中的每个用户,输出该用户的时间线和时间线上每条微博所处的邻居微博的情况。在优选的实施方案中,融合社交网络结构与文本的数据集组织形式如下表所示:表中,每十八行表示一个用户,用户每天被设定为发了三条微博,每条微博占六行,第一行是用户本人的微博,第二至六行是用户发这条微博时周围人发的微博。在优选的实施方案中,基于动态神经网络的训练与预测方式是:把开始到当前时间为止的所有时序数据块作为训练数据,预测数据为当前时间往下一个时间点的时序数据块;训练时,并不从头开始训练,设当前数据块为e,载入已训练好的e-1数据块对应的模型参数,使用数据块e更新模型的参数,而不是初始化模型后用数据块1至e的数据训练;预测数据块e+1时,载入已训练好的e数据块对应模型的参数,预测数据块e+1的用户观点。在优选的实施方案中,基于动态神经网络的用户观点分类器是一个神经网络分类器,基于反向传播梯度下降算法优化模型参数;分类器由6个模块构成,自底向上分别为长短时记忆神经网络(LSTM)层,平均Pooling层,语境注意力(Attention)层,门循环神经网络(GRU)层,平均Pooling层和Softmax层;LSTM层和平均Pooling层输入用户微博文本的词向量串表示,输出微博文本的向量表示;语境Attention层输入用户微博的语境,输出融合了社交网络信息的用户微博的向量表示;GRU层,平均Pooling层和Softmax层输入用户微博数据单元串的向量表示串,输出用户的主题相关立场归一化分布,即观点分布。有益效果:本专利技术方法基于动态神经网络模型,同时利用用户社交网络结构信息和文本信息,动态追踪用户的实时观点,与现有的观点预测方法,本专利技术观点预测的准确率本文档来自技高网
...

【技术保护点】
1.一种基于社交媒体内容和结构的用户实时观点检测方法,其特征在于,包括以下步骤:(1)抓取微博文本并分析得到微博作者,抓取作者的社交网络信息;(2)构建用户级别的社交媒体数据库,包括社交网络结构数据库和社交网络文本数据库,分别存储社交网络结构数据和文本数据;(3)进行面向社交网络结构与文本内容的预处理,包括:首先对社交网络文本数据库中的微博按照发布时间排序,然后以设定时间为单位进行分割,得到以时间为区分的文本数据块;接着对社交网络结构数据库中的用户用哈希表进行存储;最后对每个以时间为单位的文本数据块,遍历每条微博,得到活跃过的用户ID集合以及用户最近发的设定条数的微博,然后遍历每条微博并输出,每次输出用户最近发的1条微博时,伴随着同时输出他的邻居们最近发的设定条数的微博;(4)将步骤(3)处理得到的数据进行存储,得到融合社交网络结构与文本的数据结构,作为神经网络的训练数据集和测试数据集;该数据结构中包括若干数据块,每个数据块中包括若干用户发表的微博串,每条微博由用户自身微博博文和它的语境构成,每条微博博文有对应的主题;训练数据集中每条微博标记了用户的真实立场;(5)利用训练数据集训练动态神经网络;其中训练数据集以步骤(3)中设定的分割时间为单位,采用增量训练的过程,每次训练完一个数据块后,将循环神经网络神经元的参数值进行保存,下次进行训练时,先载入原先的循环神经网络的参数值,然后使用最新的训练数据执行梯度下降算法,在原先已训练好的循环神经元的参数值的基础上进行更新;(6)在使用完训练数据集中的数据块后,得到一个训练好的基于动态神经网络的用户观点分类器;(7)利用训练好的用户观点分类器和预测数据块预测此数据块中每个的实时用户观点。...

【技术特征摘要】
1.一种基于社交媒体内容和结构的用户实时观点检测方法,其特征在于,包括以下步骤:(1)抓取微博文本并分析得到微博作者,抓取作者的社交网络信息;(2)构建用户级别的社交媒体数据库,包括社交网络结构数据库和社交网络文本数据库,分别存储社交网络结构数据和文本数据;(3)进行面向社交网络结构与文本内容的预处理,包括:首先对社交网络文本数据库中的微博按照发布时间排序,然后以设定时间为单位进行分割,得到以时间为区分的文本数据块;接着对社交网络结构数据库中的用户用哈希表进行存储;最后对每个以时间为单位的文本数据块,遍历每条微博,得到活跃过的用户ID集合以及用户最近发的设定条数的微博,然后遍历每条微博并输出,每次输出用户最近发的1条微博时,伴随着同时输出他的邻居们最近发的设定条数的微博;(4)将步骤(3)处理得到的数据进行存储,得到融合社交网络结构与文本的数据结构,作为神经网络的训练数据集和测试数据集;该数据结构中包括若干数据块,每个数据块中包括若干用户发表的微博串,每条微博由用户自身微博博文和它的语境构成,每条微博博文有对应的主题;训练数据集中每条微博标记了用户的真实立场;(5)利用训练数据集训练动态神经网络;其中训练数据集以步骤(3)中设定的分割时间为单位,采用增量训练的过程,每次训练完一个数据块后,将循环神经网络神经元的参数值进行保存,下次进行训练时,先载入原先的循环神经网络的参数值,然后使用最新的训练数据执行梯度下降算法,在原先已训练好的循环神经元的参数值的基础上进行更新;(6)在使用完训练数据集中的数据块后,得到一个训练好的基于动态神经网络的用户观点分类器;(7)利用训练好的用户观点分类器和预测数据块预测此数据块中每个的实时用户观点。2.根据权利要求1所述的基于社交媒体内容和结构的用户实时观点检测方法,其特征在于:步骤(1)中调用微博流式API来实时地监听用户可见的微博窗口,允许输入一组哈希标签来过滤抓取到的微博;在监听到最新的微博后,分析微博json数据,得到微博作者的用户ID,然后调用微博查询式API问询用户ID,获得用户的社交网络信息。3.根据权利要求1所述的基于社交媒体内容和结构的用户实时观点检测方法,其特征在于:社交网络结构数据库中的社交网络数据表以用户ID为主键,每一行第一列为用户ID,其他列为关注该用户的用户ID;社交网络文本数据库中的文本数据表以微博ID为主键,其中每一行第一列为微博的作者的用户ID,第二列为微博的文本,第三列为是否转发标识,第四列为微博的发布时间,最后一列...

【专利技术属性】
技术研发人员:周德宇朱力行
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1