一种基于社交媒体内容和结构的用户实时观点检测方法技术

技术编号：21714528 阅读：35 留言：0更新日期：2019-07-27 19:14

本发明专利技术公开了一种基于社交媒体内容和结构的用户实时观点检测方法，该方法主要包括：基于微博API和哈希标签实时地爬取事件相关的微博以及微博作者的社交网络信息；基于微博文本和用户的社交网络信息，利用哈希标签和远程监督技术生成训练数据；基于动态神经网络模型训练，完成用户级别的动态观点检测。本发明专利技术不需要大量标注语料，可以预测用户在下个时间段的关于某一主题的立场，得益于循环神经网络对用户行为的模拟，有着更高的准确率；可以在用户语料缺失的情况下利用社交网络信息预测用户观点；可以在获得新的微博数据，动态地在已训练好的动态神经网络上进行迭代，避免了从头开始训练费时的问题。

A Real-time View Detection Method Based on Social Media Content and Structure

全部详细技术资料下载

【技术实现步骤摘要】
一种基于社交媒体内容和结构的用户实时观点检测方法
本专利技术涉及一种基于社交媒体内容和结构的用户实时观点检测方法，属于信息处理

技术介绍
社交媒体实时观点预测(DynamicOpinionPrediction)，又称用户级别的动态立场预测，是指为微博中的每一个用户标注一个正确的观点，用户的观点由两部分组成，第一部分是用户讨论或关心的主题，第二部分是用户的立场。正确、及时和高效地预测用户观点，不仅有助于掌握社会舆情和政府决策，具有深远的社会价值，而且有利于企业制定合适的市场策略，具有重要的市场研究价值。目前，社交媒体为社会公众提供了前所未有的舆论表达新手段和自由的公共事务讨论新空间，已成为现今社会内容文本和网络数据的重要载体，反映了社会的舆论趋势、汇集了民意。特别是近几年，随着以推特，脸书，新浪微博和微信等社交平台的迅猛发展，用户的社会关系和用户发表的文本信息量急剧增长，如何利用这些结构数据和内容数据进行正确而高效的观点预测，是目前面临的一大挑战。当前的用户级别的观点预测方法按照特征提取方法可以分为基于纯文本的观点预测方法、基于社交网络结构的观点预测方法以及基于文本上下文注意力机制的观点预测方法，按照分类器类型可以分为静态观点预测方法和动态观点预测方法。现有的比较成熟的方法大多面向纯文本，把观点预测看作一个文本分类的问题，使用长短时记忆神经网络(LSTM)和条件随机场(CRF)对社交网络用户进行立场分类。少数工作只考虑用户关系信息，把用户观点看作一个影响力在加权网络上传播的过程。也有一些工作考虑了文本之间的主题相关性，引入了上下文注意力(Atten...

【技术保护点】
1.一种基于社交媒体内容和结构的用户实时观点检测方法，其特征在于，包括以下步骤：(1)抓取微博文本并分析得到微博作者，抓取作者的社交网络信息；(2)构建用户级别的社交媒体数据库，包括社交网络结构数据库和社交网络文本数据库，分别存储社交网络结构数据和文本数据；(3)进行面向社交网络结构与文本内容的预处理，包括：首先对社交网络文本数据库中的微博按照发布时间排序，然后以设定时间为单位进行分割，得到以时间为区分的文本数据块；接着对社交网络结构数据库中的用户用哈希表进行存储；最后对每个以时间为单位的文本数据块，遍历每条微博，得到活跃过的用户ID集合以及用户最近发的设定条数的微博，然后遍历每条微博并输出，每次输出用户最近发的1条微博时，伴随着同时输出他的邻居们最近发的设定条数的微博；(4)将步骤(3)处理得到的数据进行存储，得到融合社交网络结构与文本的数据结构，作为神经网络的训练数据集和测试数据集；该数据结构中包括若干数据块，每个数据块中包括若干用户发表的微博串，每条微博由用户自身微博博文和它的语境构成，每条微博博文有对应的主题；训练数据集中每条微博标记了用户的真实立场；(5)利用训练数据集训练动...

【技术特征摘要】
1.一种基于社交媒体内容和结构的用户实时观点检测方法，其特征在于，包括以下步骤：(1)抓取微博文本并分析得到微博作者，抓取作者的社交网络信息；(2)构建用户级别的社交媒体数据库，包括社交网络结构数据库和社交网络文本数据库，分别存储社交网络结构数据和文本数据；(3)进行面向社交网络结构与文本内容的预处理，包括：首先对社交网络文本数据库中的微博按照发布时间排序，然后以设定时间为单位进行分割，得到以时间为区分的文本数据块；接着对社交网络结构数据库中的用户用哈希表进行存储；最后对每个以时间为单位的文本数据块，遍历每条微博，得到活跃过的用户ID集合以及用户最近发的设定条数的微博，然后遍历每条微博并输出，每次输出用户最近发的1条微博时，伴随着同时输出他的邻居们最近发的设定条数的微博；(4)将步骤(3)处理得到的数据进行存储，得到融合社交网络结构与文本的数据结构，作为神经网络的训练数据集和测试数据集；该数据结构中包括若干数据块，每个数据块中包括若干用户发表的微博串，每条微博由用户自身微博博文和它的语境构成，每条微博博文有对应的主题；训练数据集中每条微博标记了用户的真实立场；(5)利用训练数据集训练动态神经网络；其中训练数据集以步骤(3)中设定的分割时间为单位，采用增量训练的过程，每次训练完一个数据块后，将循环神经网络神经元的参数值进行保存，下次进行训练时，先载入原先的循环神经网络的参数值，然后使用最新的训练数据执行梯度下降算法，在原先已训练好的循环神经元的参数值的基础上进行更新；(6)在使用完训练数据集中的数据块后，得到一个训练好的基于动态神经网络的用户观点分类器；(7)利用训练好的用户观点分类器和预测数据块预测此数据块中每个的实时用户观点。2.根据权利要求1所述的基于社交媒体内容和结构的用户实时观点检测方法，其特征在于：步骤(1)中调用微博流式API来实时地监听用户可见的微博窗口，允许输入一组哈希标签来过滤抓取到的微博；在监听到最新的微博后，分析微博json数据，得到微博作者的用户ID，然后调用微博查询式API问询用户ID，获得用户的社交网络信息。3.根据权利要求1所述的基于社交媒体内容和结构的用户实时观点检测方法，其特征在于：社交网络结构数据库中的社交网络数据表以用户ID为主键，每一行第一列为用户ID，其他列为关注该用户的用户ID；社交网络文本数据库中的文本数据表以微博ID为主键，其中每一行第一列为微博的作者的用户ID，第二列为微博的文本，第三列为是否转发标识，第四列为微博的发布时间，最后一列...

【专利技术属性】
技术研发人员：周德宇，朱力行，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人