一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统技术方案

技术编号:20221760 阅读:21 留言:0更新日期:2019-01-28 20:16
本发明专利技术提供了一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统,包括:S1)、数据获取;S2)、以最小的时间单位对数据进行等间距预处理;S3)、利用时序行为数据,优化目标函数以找到最优间隔;S4)用合并时刻拼接文本的方式重新构造文本数据,文本向量化表示;S5)对两两用户的文本向量序列进行传递熵计算;S6)、剪枝得到用户因果关系网络;S7)、用户因果网络存储与导出;S8)用户因果关系查询及可视化。本发明专利技术解决了用户活动稀疏给传递熵计算带来的问题;用文本数据推断社交网络的用户因果关系,信息量比纯粹的行为数据更丰富;提供了一个交互式的用户因果关系推断、查询和导出系统。

【技术实现步骤摘要】
一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统
本专利技术涉及数据挖掘
,尤其是一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统。
技术介绍
在社交网络上,由于大量用户的参与,产生了一系列的用户活动数据和用户文本、音频、视频数据。用户可以通过各种网络渠道发布消息或上传图片和视频。用户可以将他们日常的所见所闻所感写成一句话,通过电脑或者手机随时随地分享给朋友;还可以关注朋友的动态。随着社交网络用户数量的不断增加,从用户的动态中可以挖掘出用户的兴趣爱好、关注话题。数据挖掘和分析的人们的目光也越来越多地投向了社交网络,国内外研究社交网络挖掘和用户影响力的学者很多,成果颇丰。比如计算网页重要度的计算方法PageRank、在PageRank算法的基础上提出的TunkRank算法、TwitterRank算法等。以上所阐述的方法虽然使用了不同的度量方式来计算影响力,但实质上,这些算法关注点基本都是用户显式声明的关系网络。然而,用户显式声明的好友网络往往具有较大的冗余性,具体表现为大量显式声明的好友网络对于用户的影响力没有实质作用。比如,僵尸粉是指有名无实的粉丝,它们通常是由系统自动产生的恶意注册用户,僵尸粉与博主之间存在一种关注的关系,但是并不意味着他们之间的行为存在影响关系。这种类型的方法发现出来的影响关系和强度对预测用户感兴趣内容、推荐可能感兴趣用户等方面的实际应用有很大的干扰。目前因果关系领域中对社交网络的分析主要利用的是用户活动数据。用户的活动包括发送动态、评论、转发、关注等。使用用户行为数据的预处理难度低。基于活动的时序数据推断因果关系可以在一定程度上得到比较好的效果,但其存在的不足是数据没有包含真实内容信息。假设用户X在t-1时刻有活动,用户Y在t时刻也有活动,从时序上看似乎存在或强或弱的影响关系。但如果考虑其文本内容,有可能Y在t时刻的活动讨论的话题与X在t-1时刻截然不同。这就是文本信息的独特作用。文本内容既代表用户存在活动,又能提取出这个时间节点上的活动关注的主题是什么,根据不同用户对各个主题的关注度在时序上的分布,可以更为准确地推断出他们之间是否存在因果关系。通过分析用户在社交网络上发表的文本信息之间存在的关联,最终获得更为可靠的社交网络中的用户因果关系。另外,在时序数据的使用中,现有技术基本是对数据进行等间隔划分,由于稀疏性会导致某些数据的作用不大甚至会误导信息传递的发现,因此,我们可以用一个更为适当的方法来找到最优间隔序列,重新构造数据。
技术实现思路
针对现有技术的不足,本专利技术提供一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统。本专利技术的技术方案为:一种结合行为序列和文本信息的社交网络用户间因果关系发现方法,包括以下步骤:S1)、通过python+scrapy的架构编写网络爬虫,根据用户ID构造目标URL,抓取目标社交网络中的用户信息和发布的动态数据;S2)、根据数据的时间信息,先按照最小的时间单位对数据进行等间距划分,以最小时间单位期间视为一个时刻,构造出时序行为数据X=(x1,x2,...,xn)和时序文本数据,其中,xi表示第i个用户的时序行为数据,每个时序行为数据标记该时刻中用户的活动情况,其所对应时刻的文本由该时刻中产生的所有文本拼接而成;S3)、利用时序行为数据对时序间隔进行优化,构造目标函数F(θ)并优化目标函数F(θ)以找到自适应的最优间隔,其中,优化目标是最大化以间隔序列θ为参数的目标函数:其中,n为用户数量,|θ|是时序长度,表示采用间隔θ对数据进行重新划分,xi表示第i个用户的时序行为数据,为信息熵,是变量的传递熵,表示其在时序上的信息传递,λ为正则化系数;S4)、使用最优相邻间隔合并方法求解目标函数的最大值及其相应的参数θ*,具体为:对于一个特定时序间隔序列θ,考察在其基础上所有两两相邻的时刻,分别计算其合并后的θi对应的目标函数值,选出其中目标函数值最大的方案合并,然后令重复上述方法,直到下一步的最大目标函数值不大于当前时序间隔序列的目标函数值,则求得最优的间隔序列θ*,迭代结束;S5)、重新切分时序文本数据,利用步骤S4)中得到的最优间隔θ*构造出文本序列,由于文本已经按照一天为单位切分,因此新的间隔序列在时序文本序列上做的操作是减少时刻,拼接文本,构造最优间隔θ*对应的文本序列;S6)、计算文本中词汇的TF-IDF值,选用文本向量模型LDA对步骤S5)中获得的自然语言的文本进行向量化表示,得到可以输入到计算机程序的时序文本向量U=(u1,u2,...,un),其中,ui表示第i个用户对应的文本向量矩阵;S7)、对两两用户的文本向量序列进行多维连续的传递熵计算,得到一个结果矩阵Te_rst,每个元素Te_rst[i][j]表示用户i对用户j的信息传递熵,所述的传递熵定义如下:其中,为给定用户j自身滞后期文本信息后,用户j当前时刻文本信息与用户i滞后期文本信息的条件互信息,l为数据长度,k为滞后长度,为用户j当前时刻文本信息、用户i滞后期文本信息、用户j滞后期文本信息的联合概率密度,为给定用户i滞后期文本信息、用户j滞后期文本信息后,用户j当前时刻文本信息的概率密度,为给定用户j滞后期文本信息后,用户j当前时刻文本信息的概率密度;S8)、对传递熵矩阵进行剪枝处理,检测传递熵结果的每个元素值,通过设定的阈值来过滤不显著的信息传递值,将这条边从因果网络中删除;然后,比较两个变量之间两个方向的传递熵,若两者差异明显,则删除传递熵值小的方向,最终剩下的非零值表示用户因果网络中存在的边。本专利技术还提供一种结合行为序列和文本信息的社交网络用户间因果关系发现系统,包括以下模块:数据获取模块,用于编写网络爬虫,根据用户ID构造目标URL,抓取目标社交网络中的用户信息和发布的动态数据;时序数据预处理模块,用于根据用户数据的时间信息,先按照最小的时间单位对数据进行等间距划分,构造出时序行为数据和时序文本数据,其中时序行为数据表示为X=(x1,x2,...,xn),xi表示第i个用户的时序行为数据;时序间隔优化模块,用于利用时序行为数据对时序间隔进行优化,使得数据的切分更加有效;构造目标函数并优化目标函数以找到自适应的最优间隔;时序文本数据重构及向量化模块,用于重新切分时序文本数据,利用时序间隔优化模块得到的最优间隔构造出文本序列,并选用文本向量模型对最优间隔对应的社交网络文本进行向量化表示,得到可以输入到计算机程序的时序文本向量U=(u1,u2,...,un),其中,ui表示第i个用户对应的文本向量矩阵;由于文本已经按照最小时间单位切分,因此新的间隔序列在时序文本序列上做的操作是减少时刻,拼接文本;时序文本的传递熵计算模块,用于对两两用户的文本向量序列进行多维连续的传递熵计算,得到一个用户对应于另一用户的传递熵;用户因果关系推断模块,用于传递熵矩阵进行剪枝操作得到用户因果关系网络;用户因果网络存储与导出模块,用于将系统自动将推断出来的用户因果关系持久化到硬盘中;系统提供用户因果关系导出接口,可以将系统中用户的因果关系提取、导出到文件;用户因果关系查询及可视化模块,用于通过输入一系列用户ID,查询这些特定用户之间的因果关系,并本文档来自技高网
...

【技术保护点】
1.一种结合行为序列和文本信息的社交网络用户间因果关系发现方法,其特征在于,包括以下步骤:S1)、通过python+scrapy的架构编写网络爬虫,根据用户ID构造目标URL,抓取目标社交网络中的用户信息和发布的动态数据;S2)、根据数据的时间信息,先按照最小的时间单位对数据进行等间距划分,以最小时间单位期间视为一个时刻,构造出时序行为数据X=(x1,x2,...,xn)和时序文本数据,其中,xi表示第i个用户的时序行为数据,每个时序行为数据标记该时刻中用户的活动情况,其所对应时刻的文本由该时刻中产生的所有文本拼接而成;S3)、利用时序行为数据对时序间隔进行优化,构造目标函数F(θ)并优化目标函数F(θ)以找到自适应的最优间隔,其中,优化目标是最大化以间隔序列θ为参数的目标函数:

【技术特征摘要】
1.一种结合行为序列和文本信息的社交网络用户间因果关系发现方法,其特征在于,包括以下步骤:S1)、通过python+scrapy的架构编写网络爬虫,根据用户ID构造目标URL,抓取目标社交网络中的用户信息和发布的动态数据;S2)、根据数据的时间信息,先按照最小的时间单位对数据进行等间距划分,以最小时间单位期间视为一个时刻,构造出时序行为数据X=(x1,x2,...,xn)和时序文本数据,其中,xi表示第i个用户的时序行为数据,每个时序行为数据标记该时刻中用户的活动情况,其所对应时刻的文本由该时刻中产生的所有文本拼接而成;S3)、利用时序行为数据对时序间隔进行优化,构造目标函数F(θ)并优化目标函数F(θ)以找到自适应的最优间隔,其中,优化目标是最大化以间隔序列θ为参数的目标函数:其中,n为用户数量,|θ|是时序长度,表示采用间隔θ对数据进行重新划分,xi表示第i个用户的时序行为数据,为信息熵,是变量的传递熵,表示其在时序上的信息传递,λ为正则化系数;S4)、使用最优相邻间隔合并法求解目标函数的最大值及其相应的参数θ*,具体为:对于一个特定时序间隔序列θ,考察在其基础上所有两两相邻的时刻,分别计算其合并后的θi对应的目标函数值,选出其中目标函数值最大的方案合并,然后令重复上述方法,直到下一步的最大目标函数值不大于当前时序间隔序列的目标函数值,则求得最优的间隔序列θ*,迭代结束;S5)、重新切分时序文本数据,利用步骤S4)中得到的最优间隔θ*构造出基于最优间隔θ*的文本序列;由于文本已经按照最小时间单位切分,因此新的间隔序列在时序文本序列上做的操作是减少时刻,拼接文本,构造最优间隔θ*对应的文本序列;S6)、计算文本中词汇的TF-IDF值,选用文本向量模型LDA对步骤S5)中获得的自然语言的文本进行向量化表示,得到可以输入到计算机程序的时序文本向量U=(u1,u2,...,un),其中,ui表示第i个用户对应的文本向量矩阵;S7)、对两两用户的文本向量序列进行多维连续的传递熵计算,得到一个结果矩阵Te_rst,每个元素Te_rst[i][j]表示用户i对用户j的信息传递熵,所述的传递熵定义如下:其中,为给定用户j自身滞后期文本信息后,用户j当前时刻文本信息与用户i滞后期文本信息的条件互信息,l为数据长度,k为滞后长度,为用户j当前时刻文本信息、用户i滞后期文本信息、用户j滞后期文本信息的联合概率密度,为给定用户i滞后期文本信息、用户j滞后期文本信息后,用户j当前时刻文本信息的概率密度,为给定用户j滞后期文本信息后,用户j当前时刻文本信息的概率密度;S8)、对传递熵矩阵进行剪枝处理,得到用户因果关系网络;检测传递熵结果的每个元素值,通过设定的阈值来过滤不显著的信息传递值,将这条边从因果网络中删除;然后,比较两个变量之间两个方向的传递熵,若两者差异明显,则删除传递熵值小的方向,最终剩下的非零值表示用户因果网络中存在的边。2.根据权利要求1所述的一种结合行为序列和文本信息的社交网络用户间因果关系发现系统,其特征在于,包括以下模块:数据获取模块,用于编写网络爬虫,根据用户ID构造目标URL,抓取目标社交网络中的用户信息和发布的动态数据;时序数据预处理模块,用于根据用户数据的时间信息,先按照最小的时间单位对数据进行等间距划分,构造出时序行为数据和时序文本数据,其中时序行为数据表示为X=(x1,x2,...,xn),xi表示第i个用户的时序行为数据;时序间隔优化模块,用于利用时序行为数据对时序间隔进行优化,使得数据的切分更加有效;构造目标函数并优化目标函数以找到自适应的最优间隔;时序文本数据重构及向量化模块,用于重新切分时序文本数据,利用时序间隔优化模块得到的最优间隔构造出文本序列,并选用文本向量模型对...

【专利技术属性】
技术研发人员:蔡瑞初谢泳陈薇郝志峰陈炳丰
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1