The invention discloses a user through the network construction, social networking platform based on the efficient calculation of feature extraction, the text within the social networking platform based on deep learning algorithm in text sentiment classification and social networking platform through the SeInRank algorithm to build a social platform for the four step emotion influence model to design oriented social platform users emotional influence analysis method based on the use of this method to find out the online social networking platform user emotional influence of the user, the user's influence is greater, the greater the value of its authority, the more users get attention, so users in the social environment has the guiding ability, this study can be used in commercial field, public opinion, public areas and public health.
【技术实现步骤摘要】
面向社交平台的用户情感影响力分析方法
本专利技术涉及情感影响力分析方法
,具体为面向社交平台的用户情感影响力分析方法。
技术介绍
互联网已经成为人类生活密不可分的一部分,逐渐替代了传统社交媒体的功能,在信息获取、信息传播等功能上更加强大,其快速性、实时性使其更好地为用户服务,随着互联网的发展和网络技术的提升,在线社交平台的研究开始向海量数据和复杂用户关系的这一富有挑战性的大数据命题过渡,针对在线社交网络平台用户影响力的分析可以应用到很多领域,如舆论导向领域、商业领域、公益领域,为此,我们提出了面向社交平台的用户情感影响力分析方法。
技术实现思路
本专利技术的目的在于提供面向社交平台的用户情感影响力分析方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:面向社交平台的用户情感影响力分析方法,所述面向社交平台的用户情感影响力分析方法包括下述四个步骤:第一步基于社交平台的用户网络建设:利用网络爬虫技术从X社交平台(X表示某一个具体公知的社交平台)中收集公开的用户基本信息和用户已经上传的信息,把收集的信息存储在数据库中对应的表结构中,用于构 ...
【技术保护点】
面向社交平台的用户情感影响力分析方法,其特征在于:所述面向社交平台的用户情感影响力分析方法包括下述四个步骤:第一步基于社交平台的用户网络建设:利用网络爬虫技术从X社交平台(X表示某一个具体公知的社交平台)中收集公开的用户基本信息和用户已经上传的信息,把收集的信息存储在数据库中对应的表结构中,用于构建X社交平台的用户网络;第二步基于社交平台内文本的高效特征抽取:首先对X社交平台中的文本进行分词处理,去除其中的标点符号、停用词和URL链接,得到纯文本的单词集合,采用文本聚类的方法,将所有训练文本的单词集合映射降维成多个话题和特征词组成特征向量矩阵,得到新的特征空间;第三步基于深 ...
【技术特征摘要】
1.面向社交平台的用户情感影响力分析方法,其特征在于:所述面向社交平台的用户情感影响力分析方法包括下述四个步骤:第一步基于社交平台的用户网络建设:利用网络爬虫技术从X社交平台(X表示某一个具体公知的社交平台)中收集公开的用户基本信息和用户已经上传的信息,把收集的信息存储在数据库中对应的表结构中,用于构建X社交平台的用户网络;第二步基于社交平台内文本的高效特征抽取:首先对X社交平台中的文本进行分词处理,去除其中的标点符号、停用词和URL链接,得到纯文本的单词集合,采用文本聚类的方法,将所有训练文本的单词集合映射降维成多个话题和特征词组成特征向量矩阵,得到新的特征空间;第三步基于深度学习算法的社交平台内文本情感分类:利用机器学习方法对X社交平台内文本进行情感分类,机器学习方法是通过设计及其学习算法找出区分类别的特征,进而对X社交平台内文本进行情感分类;第四步通过SeInRank算法构建社交平台情感影响力计算模型:分别基于X社交平台用户网络结构、基X社交平台用户行为和基于X社交平台文本的用户情感倾向,综合考虑上述三个方面提出本文的用户情感影响力计算模型。2.根据权利要求1所述的面向社交平台的用户情感影响力分析方法,其特征在于,第一步基于社交平台的用户网络建设具有为:X社交平台用户之间的交互行为分为用户关注行为、用户评论行为、用户转发行为,如图2所示,设U={U1,U2,...,Un}表示X社交平台用户集合,并且Ui(1≤i≤n)是U中的任意一个用户,设W={W1,W2,...,Wm}表示一个用户发布信息集合,并且Wi(1≤i≤m)是W中的任意一条用户发布信息,针对用户Ui发布的信息,设Wi={Wi1,Wi2,...,Wik}表示用户Ui发布的信息集合共有k条用户信息,并且Wij(1≤i≤k)是Wi中的一个用户信息,X社交平台用户集合U可以构建网络拓扑结构;定义1:关注行为链接,对于Ui和Uj其中(1≤i≠j≤n),分别表示互不相同的X社交平台用户,当用户Ui关注了用户Uj时,那么Ui与Uj之间存在Ui指向Uj的关注行为链接,即用户Ui为用户Uj的粉丝;定义2:转发行为链接,对于Ui和Uj其中(1≤i≠j≤n),分别表示互不相同的X社交平台用户,当用户Ui发布了一条信息Wij时,随后用户Uj转发了此条信息,那么Ui与Uj之间存在Ui指向Uj的转发行为链接;定义3:评论行为链接,对于Ui和Uj其中(1≤i≠j≤n),分别表示互不相同的X社交平台用户,当用户Ui发布了一条信息Wij时,随后用户Uj评论了此条信息,那么Ui与Uj之间存在Uj指向Ui的评论行为链接;定义4:用户网络有向图,V是节点集合,E表示根据定义1、定义2和定义3得到的边的集合,用户集合U={U1,U2,...,Un}构成X社交平台用户网络的节点,则G(V,E)可以表示一个X社交平台用户网络有向图;对于X社交平台用户集合U={U1,U2,...,Un},根据定义1、定义2和定义3得到的链接关系构建一个X社交平台用户关系网络G(V,E),节点集合U的数目为X社交平台用户数目n,边集合E包含上述三种链接,因此构建X社交平台用户网络模型G(V,E)的算法如图3所示。3.根据权利要求1所述的面向社交平台的用户情感影响力分析方法,其特征在于,第二步基于社交平台内文本的高效特征抽取:用户层中X社交平台用户之间存在关注关系,若用户Ui关注了用户Uj,则用户Uj发布的全部信息对用户Ui可见,并且用户Ui可以针对自身喜好对用户Uj的信息进行转发和评论,其中转发的信息属于用户Ui;信息文本层与用户层之间存在发布、转发和评论关系;话题层表示用户所发一条信息可以对应多个话题,同时每一个话题可以涉及到多个特征词,本文通过特征抽取可以得到对应话题的特征词,基于上述描述X社交平台环境存在多层结构,分为话题层、信息文本层和用户层;定义5:X社交平台中用户信息文本特征,设W={W1,W2,...,Wm}表示一个用户信息集合,并且Wi(1≤i≤m)是W中的一个用户信息,假设用户Ui发布信息,设Wi={Wi1,Wi2,...,Wik}表示用户Ui的用户信息集合,并且Wij(1≤j≤k)是Wi中的一个信息,针对用户Ui的用户信息集合,通过特征提取可以获得T={T1,T2,...,Tn}表示一个信息话题集合,其中Ti(1≤i≤n)是对应Wi中的一个话题,每一个话题下对应一个特征词集合Vi={Vi1,Vi2,...,Vim},其中Vim(1≤j≤m)是Vi中一个对应话题Ti的一个特征词,如果可以用特征词集合Vi={Vi1,Vi2,...,Vim}表示用户所发的信息Wij,那么称特征词集合Vi={Vi1,Vi2,...,Vim}为信息Wij的信息文本特征;利用潜在狄利克雷分配(LDA)算法来计算一篇文档的话题概率分布,LDA算法的核心公式如下:(1)P(vj|wi)表示词语vj在给定X社交平台用户信息wi中出现的概率,(2)P(tk|wi)表示主题tk在给定X社交平台用户信息wi中出现的概率,(3)P(vj|tk)表示词语vj在给定主题tk中出现的概率,由上面三个公式可以推导出:描述LDA算法的实现过程的算法如图4所示,算法包含三层结构,分别是特征词、话题和X社交平台中文本,具体操作是将词频数据缓存到RDD中,进行map操作将数据转换成向量格式,设置LDA模型的话题个数,得到一个DistributedLDAModel的模型,调用topicDistributions方法可以得到X社交平台中话题分布,topicsMatrix方法可以得到话题单词分布矩阵,经过描述LDA算法的实现过程的算法的处理,根据公式1的原理,可以得到两个概率分布矩阵,话题|X社交平台中文本矩阵,特征词|话题矩阵,如公式2和公式3所示,公式2中,矩阵T|W的行数为m表示一共有m条X社交平台文本,列数为k,表示将每一条X社交平台用户信息划分成k个话题,Tij:wgtij表示第i条用户信息的第j个话题的序号和该话题在此用户信息下的概率分布权重;2公式3中,矩阵V|T的行数为k表示一共存在k个话题,列数为n,表示将每个话题可以包含n个特征词,Vij:wgtij表示第i话题的第j个特征词的序号和该特征词在此话题下的概率分布权重;根据公式2和公式3,一条X社交平台的用户信息通过LDA模型可以得到对应的话题和关键词,假设用户信息集合W={W1,W2,...,Wm}的任意一条用户信息Wi均可以表示为:即一条用户信息由一个特征词序列表示。4.根据权利要求1所述的面向社交平台的用户情感影响力分析方法,其特征在于,第三步基于深度学习算法的社交平台内文本情感分类:定义6:X社交平台中用户信息情感倾向,设Wi={Wi1,Wi2,...,Wim}表示X社交平台用户Ui的信息文本集合,并且Wij(1≤j≤m)是Wi中的一个信息文本,信息文本经分词处理之后可以得到单词集合Wordij={wordij1,wordij2,...,wordijn},对任意wordijk(X社交平台用户i发布的第j条信息经分词处理后的第k个单词)判断情感倾向,若wordijk的情感倾向Sk为正向则Sk=1,若wordijk的情感倾向Sk为负向则Sk=-1,否则Sk=0,计算单词集合wordij中否定词的数目count,综上用户信息的情感倾向可表示为:Sw=∑Sk,如果count为奇数,Sw=-Sw,若Sw>0,则设定W...
【专利技术属性】
技术研发人员:韩东红,王嘉兴,刘俊杰,唐翔,邵维龙,杨乐,李莉莉,
申请(专利权)人:东北大学,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。