【技术实现步骤摘要】
一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统
本专利技术涉及数据挖掘
,尤其是一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统。
技术介绍
在社交网络上,由于大量用户的参与,产生了一系列的用户活动数据和用户文本、音频、视频数据。用户可以通过各种网络渠道发布消息或上传图片和视频。用户可以将他们日常的所见所闻所感写成一句话,通过电脑或者手机随时随地分享给朋友;还可以关注朋友的动态。随着社交网络用户数量的不断增加,从用户的动态中可以挖掘出用户的兴趣爱好、关注话题。数据挖掘和分析的人们的目光也越来越多地投向了社交网络,国内外研究社交网络挖掘和用户影响力的学者很多,成果颇丰。比如计算网页重要度的计算方法PageRank、在PageRank算法的基础上提出的TunkRank算法、TwitterRank算法等。以上所阐述的方法虽然使用了不同的度量方式来计算影响力,但实质上,这些算法关注点基本都是用户显式声明的关系网络。然而,用户显式声明的好友网络往往具有较大的冗余性,具体表现为大量显式声明的好友网络对于用户的影响力没有实质作用。比如,僵尸粉是指有名无实的粉丝,它们通常是由系统自动产生的恶意注册用户,僵尸粉与博主之间存在一种关注的关系,但是并不意味着他们之间的行为存在影响关系。这种类型的方法发现出来的影响关系和强度对预测用户感兴趣内容、推荐可能感兴趣用户等方面的实际应用有很大的干扰。目前因果关系领域中对社交网络的分析主要利用的是用户活动数据。用户的活动包括发送动态、评论、转发、关注等。使用用户行为数据的预处理难度低。基于活动的时序 ...
【技术保护点】
1.一种结合行为序列和文本信息的社交网络用户间因果关系发现方法,其特征在于,包括以下步骤:S1)、通过python+scrapy的架构编写网络爬虫,根据用户ID构造目标URL,抓取目标社交网络中的用户信息和发布的动态数据;S2)、根据数据的时间信息,先按照最小的时间单位对数据进行等间距划分,以最小时间单位期间视为一个时刻,构造出时序行为数据X=(x1,x2,...,xn)和时序文本数据,其中,xi表示第i个用户的时序行为数据,每个时序行为数据标记该时刻中用户的活动情况,其所对应时刻的文本由该时刻中产生的所有文本拼接而成;S3)、利用时序行为数据对时序间隔进行优化,构造目标函数F(θ)并优化目标函数F(θ)以找到自适应的最优间隔,其中,优化目标是最大化以间隔序列θ为参数的目标函数:
【技术特征摘要】
1.一种结合行为序列和文本信息的社交网络用户间因果关系发现方法,其特征在于,包括以下步骤:S1)、通过python+scrapy的架构编写网络爬虫,根据用户ID构造目标URL,抓取目标社交网络中的用户信息和发布的动态数据;S2)、根据数据的时间信息,先按照最小的时间单位对数据进行等间距划分,以最小时间单位期间视为一个时刻,构造出时序行为数据X=(x1,x2,...,xn)和时序文本数据,其中,xi表示第i个用户的时序行为数据,每个时序行为数据标记该时刻中用户的活动情况,其所对应时刻的文本由该时刻中产生的所有文本拼接而成;S3)、利用时序行为数据对时序间隔进行优化,构造目标函数F(θ)并优化目标函数F(θ)以找到自适应的最优间隔,其中,优化目标是最大化以间隔序列θ为参数的目标函数:其中,n为用户数量,|θ|是时序长度,表示采用间隔θ对数据进行重新划分,xi表示第i个用户的时序行为数据,为信息熵,是变量的传递熵,表示其在时序上的信息传递,λ为正则化系数;S4)、使用最优相邻间隔合并法求解目标函数的最大值及其相应的参数θ*,具体为:对于一个特定时序间隔序列θ,考察在其基础上所有两两相邻的时刻,分别计算其合并后的θi对应的目标函数值,选出其中目标函数值最大的方案合并,然后令重复上述方法,直到下一步的最大目标函数值不大于当前时序间隔序列的目标函数值,则求得最优的间隔序列θ*,迭代结束;S5)、重新切分时序文本数据,利用步骤S4)中得到的最优间隔θ*构造出基于最优间隔θ*的文本序列;由于文本已经按照最小时间单位切分,因此新的间隔序列在时序文本序列上做的操作是减少时刻,拼接文本,构造最优间隔θ*对应的文本序列;S6)、计算文本中词汇的TF-IDF值,选用文本向量模型LDA对步骤S5)中获得的自然语言的文本进行向量化表示,得到可以输入到计算机程序的时序文本向量U=(u1,u2,...,un),其中,ui表示第i个用户对应的文本向量矩阵;S7)、对两两用户的文本向量序列进行多维连续的传递熵计算,得到一个结果矩阵Te_rst,每个元素Te_rst[i][j]表示用户i对用户j的信息传递熵,所述的传递熵定义如下:其中,为给定用户j自身滞后期文本信息后,用户j当前时刻文本信息与用户i滞后期文本信息的条件互信息,l为数据长度,k为滞后长度,为用户j当前时刻文本信息、用户i滞后期文本信息、用户j滞后期文本信息的联合概率密度,为给定用户i滞后期文本信息、用户j滞后期文本信息后,用户j当前时刻文本信息的概率密度,为给定用户j滞后期文本信息后,用户j当前时刻文本信息的概率密度;S8)、对传递熵矩阵进行剪枝处理,得到用户因果关系网络;检测传递熵结果的每个元素值,通过设定的阈值来过滤不显著的信息传递值,将这条边从因果网络中删除;然后,比较两个变量之间两个方向的传递熵,若两者差异明显,则删除传递熵值小的方向,最终剩下的非零值表示用户因果网络中存在的边。2.根据权利要求1所述的一种结合行为序列和文本信息的社交网络用户间因果关系发现系统,其特征在于,包括以下模块:数据获取模块,用于编写网络爬虫,根据用户ID构造目标URL,抓取目标社交网络中的用户信息和发布的动态数据;时序数据预处理模块,用于根据用户数据的时间信息,先按照最小的时间单位对数据进行等间距划分,构造出时序行为数据和时序文本数据,其中时序行为数据表示为X=(x1,x2,...,xn),xi表示第i个用户的时序行为数据;时序间隔优化模块,用于利用时序行为数据对时序间隔进行优化,使得数据的切分更加有效;构造目标函数并优化目标函数以找到自适应的最优间隔;时序文本数据重构及向量化模块,用于重新切分时序文本数据,利用时序间隔优化模块得到的最优间隔构造出文本序列,并选用文本向量模型对...
【专利技术属性】
技术研发人员:蔡瑞初,谢泳,陈薇,郝志峰,陈炳丰,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。