当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于社会媒体用户动态行为的微博主题挖掘方法技术

技术编号:19821737 阅读:41 留言:0更新日期:2018-12-19 14:41
本发明专利技术公开了一种基于社会媒体用户动态行为的微博主题挖掘方法,包括如下步骤:1)构建用户对话网络;2)利用网络表示学习建模动态交互,得到融合了内容和结构且与其邻居结点相关的用户表示;3)引入注意力机制建模用户对主题的影响力,得到交互感知边表示;4)交互感知边表示作为神经变分推理的输入,从而挖掘一致性更佳的主题。该微博主题挖掘方法通过建模动态交互和用户对主题影响力,得到的微博主题相比于现有模型在相关分数值评价指标上取得更好的表现。

【技术实现步骤摘要】
一种基于社会媒体用户动态行为的微博主题挖掘方法
本专利技术涉及自然语言处理以及社会媒体数据挖掘
,具体为一种基于社会媒体用户动态行为的微博主题挖掘方法。
技术介绍
社会媒体网站(如新浪微博等)的出现使得互联网上内容的形式大大改变。微博允许用户在其上发布和浏览信息,并具有一些很强的社交属性功能,如转发和回复功能。微博平台上存储着海量的文本数据,并且每天都在以惊人的速度增长。微博文本内容包含了大量的信息,从中挖掘主题信息可以用来进行话题推荐、突发事件检测、精准营销等。目前,文本主题挖掘技术应用于新闻、文章等长文本数据上已经具有了较好的效果。但是,微博文本长度短,通常被限制在140字以下,每条微博信息稀疏以及人们在微博上的用词随意等特点大大地增加了微博文本处理的难度。因此,这要求面向微博的主题挖掘技术需要采用与传统主题挖掘所不同的方法。目前,微博主题挖掘的相关研究主要包括:(1)利用集聚策略。该方法将短文本按照某种规则集聚成一个伪长文档,降低了短文本的数据稀疏性。如首先将同一作者发表的微博合并为一篇长文档,然后利用三层贝叶斯结构的主题模型挖掘潜在主题;(2)利用词嵌入(wordemb本文档来自技高网...

【技术保护点】
1.一种基于社会媒体用户动态行为的微博主题挖掘方法,其特征在于,包括以下步骤:(1)构建用户对话网络将一个用户看作对话网络G中的一个节点v,同时将该用户所有发表过的微博聚集成一个文档Mv=(w1,w2,…,wn),其中wi(i=1,2,3…n)表示Mv的第i个单词,n为文档Mv的词语个数;文档Mv作为该用户所指向节点v的文本信息;若节点v代表的用户转发过对话网络G中节点u代表的用户发表过的微博,则将节点u和v相连,以此操作构建出用户对话网络G=(V,E,T),其中V为对话网络G中节点的集合,

【技术特征摘要】
1.一种基于社会媒体用户动态行为的微博主题挖掘方法,其特征在于,包括以下步骤:(1)构建用户对话网络将一个用户看作对话网络G中的一个节点v,同时将该用户所有发表过的微博聚集成一个文档Mv=(w1,w2,…,wn),其中wi(i=1,2,3…n)表示Mv的第i个单词,n为文档Mv的词语个数;文档Mv作为该用户所指向节点v的文本信息;若节点v代表的用户转发过对话网络G中节点u代表的用户发表过的微博,则将节点u和v相连,以此操作构建出用户对话网络G=(V,E,T),其中V为对话网络G中节点的集合,是对话网络G中边的集合,T代表了节点附带的文本信息;(2)动态交互建模将每个节点v表示为基于结构表示v(s)和基于文本表示v(t)的两部分拼接;即节点v的表示为其中表示拼接符号,d为节点表示v的维度;基于结构表示v(s):采用神经网络语言模型将基于结构表示v(s)看作待学习的参数,为了最大化一个节点与其邻居共现的概率,通过最小化公式(1)学习基于结构表示v(s);公式(1)中Ls为为了学习基于结构表示v(s)的损失函数值,表示第i个节点的基于结构的表示,表示第(i+j)个节点的基于结构的表示,窗口大小为k,条件概率的形式化见公式(2)基于文本表示v(t):通过相互注意力机制学习得到基于本文表示v(t),相互注意力机制利用池化操作挖掘节点对的主题信息,给定一个节点v的文本信息Mv,将其中每个词语替换为相应的词嵌入从而得到文本表示序列Sv=(w1,w2,…,wm),其中d′表示词嵌入的维度,m表示Sv中词语的个数,对于给定文本表示序列Sv,利用卷积操作对其进行编码,见公式(3)xi=C·(Sv)i:i+l-1+b(3)公式(3)表示卷积矩阵对Sv在窗口大小为l的第i个窗口进行卷积操作,其中b为偏置向量,对于文本表示序列Su进行同样的卷积操作,卷积操作之后得到矩阵和m和n分别是文本表示序列Su和Sv的长度,作为相互注意力机制的输入;相互注意力机制通过公式(4)计算关联矩阵F=relu(PTAQ)(4)其中矩阵是相互注意力机制中待学习的参数,采用relu作为激活函数,关联矩阵F的元素Fi,j表示矩阵P的第i列向量P·i和矩阵Q的第j列向量Q·j之间的关联得分,之后分别沿着横向和纵向对关联矩阵F进行池化操作,形式化分别为公式(5)(6),采用平均池化操作:公式(5)中为矩阵F的第i行第1列元素Fi,1、第i行第2列元素Fi,2直至第i行第n列元素Fi,n的平均值;公式(6)中为矩阵F的第1行第j列元素F1,j,第2行第j列元素F2,j直至第m行第j列元素Fm,j的平均值;经平均池化后,产生矩阵P和Q各自对应的池化向量和之后利用归一化指数函数将池化向量g(p)和g(q)概率化,分别得到向量a(p)和a(q),向量a(p)的第i个元素计算见公式(7);公式(7)中是池化向量g(p)的第t个元素;通过公式(8)、(9)计算分别得到节点u和v的基于文本表示u(t)和v(t);u(t)=Pa(p)(8)v(t)=Qa(q)(9)为获得基于文本表示,通过最小化目标函数公式(10)Lt(e)=αlogp(v(t)|u(t))+βlogp(v(t)|u(s))+γlogp(v(s)|u(t))(10)公式(10)中Lt(e)表示为了学习基于文本表示的损失函数值,α表示节点u基于文本表...

【专利技术属性】
技术研发人员:贺瑞芳张雪菲赵文丽朱永凯黄静
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1