一种社交网络抑郁情感的账户相似性度量方法技术

技术编号:12707086 阅读:92 留言:0更新日期:2016-01-14 03:43
一种社交网络账户的抑郁情感相似性的度量方法,属于社交网络数据挖掘的技术应用领域。本发明专利技术的优点是:本发明专利技术基于社交网络和抑郁情感表述的内在特性,提出了基于情感时间段的账户抑郁情感相似评定的方法,处理中基于用户信息建立了分段时间标准的二次特征,并经相似规则评判。计算时都采用线性复杂度的算法进行分析,计算资源需求小,具有较低的时间和空间代价;相似过程采用比对处理,最终输出真正高相似的账号信息。此信息在现实提取中更具实用价值。本发明专利技术有效实现了对社交网络的抑郁情感信息的时间影响的分析,能够将相似情感的账户自动识别,在指定影响级别情况下,可供后续人工分析及影响干预。

【技术实现步骤摘要】

本专利技术涉及,属于社交网络数据挖 掘的技术应用领域
技术介绍
随着现代生活节奏的加快,抑郁症已成为危害人类身心健康的常见病。正常人群 中有7-12%的男性与20-25%的女性一生中可能患一次以上抑郁症。重性抑郁症的自杀率 高达15%。抑郁症在给患者本人及家庭带来深深苦恼的同时,对社会的影响也较大,从而造 成无可挽回的经济损失。目前对抑郁症人员的发现多是基于实际家庭自发发觉,这事实上存在很大的苦 难。由于实际生活中人员的主动掩饰,以及家庭成员的疏忽遗漏,往往无法真实有效的发现 潜藏在身边的危机,并且在时间上有很大的滞后性。 而对抑郁症患者追踪的研究发现,有75%~80 %的患者多次复发,故抑郁症患者 需要进行预防性治疗。如何快速发现人员的抑郁症状态是一个至关重要的问题。 -个人的社交关系,对于一个人正常情绪的维系有着重要。社交网络作为一种重 要高效的信息传递平台,参与其中的人员越来越多,同时网络是一个和现实社会有一定隔 离的虚拟社会,这个特殊性可使得每个实际使用者能有情感表达的渠道,并将这些情感表 达以文字和时间的方式记录下来。 通过社交网络的信息对一个人的情绪进行分析,可快速捕获人员的行为表达结 果,进一步理解和有效抽取这些行为中的抑郁情感相关信息,可有效给抑郁症人员的判断 带来确实的帮助。
技术实现思路
本专利技术是为了解决自动快速发现现有社交网络上抑郁情感账户的难题,提供了一 种综合时间段分析信息的账户情感相似度的度量方法。 本专利技术所述基于抑郁情感的账户相似性度量方法,它包括以下步骤: 步骤一:获取欲分析的社交网络的账号在指定的网络社区d天(7 <d< 100)内 的所有的自己发布的帖子的完整文字内容、自己发布的帖子的发布时间、回复评论别人的 帖子的完整文字内容、回复评论别人的帖子的时间;并人工给定一份抑郁情感词列表,里面 包括100个以上的抑郁倾向的情感词;人工给定一个情感相似阈值θ(θ> 〇)。 步骤二:对每个账号信息的完整记录,将各账号的信息进行标准化,得到标准化后 的结果NT,其中包括以下16个度量量: Πι ' η?' rig' η#' nil ' 1?,m3,Ι?4,Pi ' P2' P3' P4' Qi ' Q2'七' Q4 其中各标准化量的计算方法为:叫=NlCl\N!为发布时间在5点起至11点止的帖子总数目n2=N2d\N2为发布时间在11点起至14点止的帖子总数目 n3=N3d\N3为发布时间在14点起至20点止的帖子总数目 n4=N4d\N4为发布时间在0点起至5点止和20点起至24点止的帖子总数目 mi=MlCl\ 为回复评论时间在5点起至11点止的帖子总数目 m2=M2d\M2为回复评论时间在11点起至14点止的帖子总数目 m3=M3d\M3为回复评论时间在14点起至20点止的帖子总数目 m4=M4d\Μ4为回复评论时间在0点起至5点止和20点起至24点止的帖子总数 巨 Pl=PlCl\Pi为发布时间在5点起至11点止的帖子文字中包含的抑郁情感词总 数 p2=P2d\P2为发布时间在11点起至14点止的帖子文字中包含的抑郁情感词总 数 p3=P3d\P3为发布时间在14点起至20点止的帖子文字中包含的抑郁情感词总 数 p4=P4d\P4为发布时间在0点起至5点止和20点起至24点止的帖子文字中包 含的抑郁情感词总数 qi=QlCl\Qi为回复评论时间在5点起至11点止的帖子文字中包含的抑郁情感 词总数 q2=Q2d\Q2为回复评论时间在11点起至14点止的帖子文字中包含的抑郁情感 词总数 q3=Q3d\Q3为回复评论时间在14点起至20点止的帖子文字中包含的抑郁情感 词总数 q4=Q4d\Q4为回复评论时间在0点起至5点止和20点起至24点止的帖子文字 中包含的抑郁情感词总数 其中抑郁情感词总数为发布或回复评论的帖子中,出现抑郁情感词列表中的词的 频次。 由此,而第i个账号的特征结果NT⑴为: NT(i) = (ηΗ,n2i,n3i,n4i,m2i,m3i,m4i,p2i,p3i,p4i,qu,q2i,q3i,q4i) 步骤三:对每个账号信息,根据标准化后的信息NT,计算此账号的特征化结果,得 到的特征计算结果表示为ZT,包括以下16个特征量: PNY,PNG,PNL,PNF,RNY,RNG,RNL,RNF,PYY,PYG,PYL,PYF,RYY,RYG,RYL,RYF 各特征量计算的具体方法为: PNY,PNG,PNL,PNF的计算方法为: 其中叫,n2,n3,n4分别为步骤二所得到的结果 RNY,RNG,RNL,RNF的计算方法为: 其中叫,m2,m3,m4为步骤二所得到的结果 PYY,PYG,PYL,PYF的计算方式为: PYY= 0· 3934*arctan(pj PYG= 0· 3934*arctan(p2) PYL= 0· 3934*arctan(p3) PYF= 0· 3934*arctan(p4) 其中Pyp2,P3,P4为步骤二所得到的结果RYY,RYG,RYL,RYF的计算方式为: RYY= 0· 6366*arctan(qj RYG= 0· 6366*arctan(q2) RYL= 0· 6366*arctan(q3) RYF= 0· 6366*arctan(q4) 其中q2,q;?,如为步骤二所得到的结果 由此,而第i个账号的特征结果ZT(i)为 ZT(i) = (PNY,,PNG,,PNL,,PNF,,RNY,,RNG,,RNL,,RNF,,PYY,,PYG,,PYL,,PYF,,RYY,, RYGX,RYLX,RYF,) 步骤四:根据每个账号的特征化结果ZT,计算两两账号之间的情感相似程度值 Dis,用Dis(i,j)表示i,j两个账号之间的情感相似程度值,ZT(i)和ZT(j)分别为i,j两 个账号在步骤四的特征化结果,即是 ZT(i) = (PNY,,PNG,,PNL,,PNF,,RNY,,RNG,,RNL,,RNF,,PYY,,PYG,,PYL,,PYF,,RYY,, RYGX,RYLX,RYF,) ZT(j) = (PNY〗,PNG〗,PNL〗,PNF〗,RNY〗,RNG〗,RNL〗,RNF〗,PYY〗,PYG〗,PYL〗,PYF〗,RYYj, RYGj,RYLj,RYFj) 而Dis(i,j)的计算方式如下: 步骤五:根据步骤四得到的两两账号之间的情感相似值Dis,将Dis与设定的情感 相似阈值Θ比较,Dis小于Θ时,判定此两个账号的情感值相似。 本专利技术的优点是:本专利技术基于社交网络和抑郁情感表述的内在特性,提出了基于 情感时间段的账户抑郁情感相似评定的方法,处理中基于用户信息建立了分段时间标准的 二次特征,并经相似规则评判。计算时都采用线性复杂度的算法进行分析,计算资源需求 小,具有较低的时间和空间代价;相似过程采用比对处理,最终输出真正高相似的账号信 息。此信息在现实提取中更具实用价值。 本专利技术有效实现了对社交网络的抑郁情感信息的时间影响的分析,能够将相似情 感的账户自动识别,在指定影响级别情况下,可供后续人工分析及影响干预。【附图说明】 图1为本专利技术检测方法的流程图。【具体实施方式】【本文档来自技高网...

【技术保护点】
一种社交网络抑郁情感的账户相似性度量方法,其特征在于:它包括以下步骤:步骤一:获取欲分析的社交网络的账号在指定的网络社区d天(7≤d≤100)内的所有的自己发布的帖子的完整文字内容、自己发布的帖子的发布时间、回复评论别人的帖子的完整文字内容、回复评论别人的帖子的时间;并人工给定一份抑郁情感词列表,里面包括100个以上的抑郁倾向的情感词;人工给定一个情感相似阈值θ(θ>0)。步骤二:对每个账号信息的完整记录,将各账号的信息进行标准化,得到标准化后的结果NT,其中包括以下16个度量量:n1,n2,n3,n4,m1,m2,m3,m4,p1,p2,p3,p4,q1,q2,q3,q4其中各标准化量的计算方法为:n1=N1d‑1,N1为发布时间在5点起至11点止的帖子总数目n2=N2d‑1,N2为发布时间在11点起至14点止的帖子总数目n3=N3d‑1,N3为发布时间在14点起至20点止的帖子总数目n4=N4d‑1,N4为发布时间在0点起至5点止和20点起至24点止的帖子总数目m1=M1d‑1,M1为回复评论时间在5点起至11点止的帖子总数目m2=M2d‑1,M2为回复评论时间在11点起至14点止的帖子总数目m3=M3d‑1,M3为回复评论时间在14点起至20点止的帖子总数目m4=M4d‑1,M4为回复评论时间在0点起至5点止和20点起至24点止的帖子总数目p1=P1d‑1,P1为发布时间在5点起至11点止的帖子文字中包含的抑郁情感词总数p2=P2d‑1,P2为发布时间在11点起至14点止的帖子文字中包含的抑郁情感词总数p3=P3d‑1,P3为发布时间在14点起至20点止的帖子文字中包含的抑郁情感词总数p4=P4d‑1,P4为发布时间在0点起至5点止和20点起至24点止的帖子文字中包含的抑郁情感词总数q1=Q1d‑1,Q1为回复评论时间在5点起至11点止的帖子文字中包含的抑郁情感词总数q2=Q2d‑1,Q2为回复评论时间在11点起至14点止的帖子文字中包含的抑郁情感词总数q3=Q3d‑1,Q3为回复评论时间在14点起至20点止的帖子文字中包含的抑郁情感词总数q4=Q4d‑1,Q4为回复评论时间在0点起至5点止和20点起至24点止的帖子文字中包含的抑郁情感词总数其中抑郁情感词总数为发布或回复评论的帖子中,出现抑郁情感词列表中的词的频次。由此,而第i个账号的特征结果NT(i)为:NT(i)=(n1i,n2i,n3i,n4i,m1i,m2i,m3i,m4i,p1i,p2i,p3i,p4i,q1i,q2i,q3i,q4i)步骤三:对每个账号信息,根据标准化后的信息NT,计算此账号的特征化结果,得到的特征计算结果表示为ZT,包括以下16个特征量:PNY,PNG,PNL,PNF,RNY,RNG,RNL,RNF,PYY,PYG,PYL,PYF,RYY,RYG,RYL,RYF各特征量计算的具体方法为:PNY,PNG,PNL,PNF的计算方法为:PNY=0.6304e0.2*n1-0.6056e0.2*n1+1]]>PNG=0.6304e0.2*n2-0.6056e0.2*n2+1]]>PNL=0.6304e0.2*n3-0.6056e0.2*n3+1]]>PNF=0.6304e0.2*n4-0.6056e0.2*n4+1]]>其中n1,n2,n3,n4分别为步骤二所得到的结果RNY,RNG,RNL,RNF的计算方法为:RNY=0.3896e0.2*m1-0.3748e0.2*m1+1]]>RNG=0.3896e0.2*m2-0.3748e0.2*m2+1]]>RNL=0.3896e0.2*m3-0.3748e0.2*m3+1]]>RNF=0.3896e0.2*m4-0.3748e0.2*m4+1]]>其中m1,m2,m3,m4为步骤二所得到的结果PYY,PYG,PYL,PYF的计算方式为:PYY=0.3934*arctan(p1)PYG=0.3934*arctan(p2)PYL=0.3934*arctan(p3)PYF=0.3934*arctan(p4)其中p1,p2,p3,p4为步骤二所得到的结果RYY,RYG,RYL,RYF的计算方式为:RYY=0.6366*arctan(q1)RYG=0.6366*arctan(q2)RYL=0.6366*arctan(q3)RYF=0.6366*arctan(q4)其中q1,q2,q3,q4为步骤二所得到的结果由此,而第i个账号的特征结果ZT(i)为ZT(i)=(PNYi,PNGi,PNLi,PNFi,RNYi,RNGi,RNLi,RNFi,PYYi,PYGi,PYLi,PYFi,RYYi,RYGi,RYLi,RYFi)步骤四:根据每个账号的特征化结果ZT,计算两两账号之间的情感相似程度值Dis,用Dis(i,j...

【技术特征摘要】

【专利技术属性】
技术研发人员:于霄
申请(专利权)人:宁波知微瑞驰信息科技有限公司于霄
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1