一种基于情感衰变因子的抑郁情绪分析方法技术

技术编号:21547924 阅读:25 留言:0更新日期:2019-07-06 21:28
本发明专利技术公开了一种基于情感衰变因子的抑郁情绪分析方法,该方法包括以下步骤:特定人群微博文本采集与标注;微博文本预处理;情感分类器设计;抑郁指数学习模型建立,以抑郁指数表征个体抑郁程度;情感衰变因子的引入,刻画个体抑郁情绪的波动情况。本发明专利技术基于情感衰变因子的抑郁情绪分析方法是根据已有的情感词典及网络用语特点,构建专业的抑郁情感词典,更加准确识别抑郁情感特征词,提高识别准确率;本发明专利技术还提出引入情感衰变因子的数学模型来计算抑郁情绪值,真实有效地刻画个体抑郁情绪的变化过程,对于抑郁症的预防和治疗有着积极的意义;本发明专利技术准确地对个体的抑郁情绪进行了识别与分析。

A Depression Analysis Method Based on Emotional Decay Factor

【技术实现步骤摘要】
一种基于情感衰变因子的抑郁情绪分析方法
本专利技术属于文本情感分析和社交网络领域,涉及了计算机与心理学领域,具体涉及一种基于情感衰变因子的抑郁情绪分析方法。
技术介绍
抑郁症是世界第四大疾病,预计到2020年将成为第二大。但我国对抑郁症的医疗防治还处在识别率低的局面,地级市以上的医院对其识别率不足20%,只有不到10%的患者接受了相关的药物治疗。同时,抑郁症的发病(和自杀事件)已开始出现低龄(大学,乃至中小学生群体)化趋势。综上所述,对抑郁症的科普、防范、治疗工作亟待重视,抑郁症防治已被列入全国精神卫生工作重点。据研究,抑郁症是自杀率最高的疾病,抑郁症患者的自杀率比一般人群高20倍。抑郁症已成为全球疾病中给人类造成严重负担的第一位重要疾病,对患者及其家属造成的痛苦,对社会造成的损失是其他疾病所无法比拟的。由于自杀是在疾病发展到一定的严重程度时才发生的,有些不明原因的自杀者可能生前已患有严重的抑郁症,只不过没被及时发现罢了,所以及早发现疾病,及早治疗,对抑郁症的患者非常重要。与轻度抑郁症很接近的抑郁情绪是一种不良情绪,也是人们在日常生活中经常遇到的一种情绪。当前社会竞争日益激烈,几乎每个人都在超负荷运转,很容易产生不同程度的抑郁情绪,这是一种很常见的情感成分。当人们遇到精神压力、生活挫折、痛苦境遇、生老病死、天灾人祸等情况时,理所当然会产生抑郁情绪。抑郁情绪如果得不到有效释放和缓解,长期积攒很容易引发轻度抑郁症,进而转变成严重抑郁症,因此及时地发现抑郁情绪十分重要。有人对抑郁症患者追踪10年的研究发现,有75%~80%的患者多次复发,故抑郁症患者需要进行预防性治疗。在抑郁症治疗方法中,有一个方法是自助心理训练,进行心理训练,首先要去觉察不良的情绪和负性想法,即抑郁情绪。在社交网络高度发达的时代,微博等网络社交工具在高校学生中的普及率达到90%以上,大量学生通过微博等社交平台表达自己的观点、意见、情感等,这些平台也为许多有抑郁情绪的个体进行情感发泄提供了场所。考虑以上因素,本专利技术提供一种基于情感衰变因子的抑郁情绪分析方法。通过对微博文本进行挖掘分析,能够及时有效地发现并分析个体的抑郁情绪,对于抑郁症的预防和治疗有着积极的意义
技术实现思路
本专利技术的目的在于提供一种基于情感衰变因子的抑郁情绪分析方法,根据已有的情感词典及网络用语特点,构建专业的抑郁情感词典,更加准确识别抑郁情感特征词,提高识别准确率;同时,还基于支持向量机构建抑郁情感分类器,对个体每条微博文本进行抑郁情感分类,得到分类结果后,通过抑郁指数衡量个体抑郁程度,最后考虑个体抑郁情绪波动的连续性问题。为了达到上述目的,本专利技术通过以下技术方案实现:一种基于情感衰变因子的抑郁情绪分析方法,包含以下步骤:S1、发动人群在线填写抑郁自评量表,获得个体的抑郁量表得分以及微博昵称,并采集其微博文本,并通过专家系统对微博内容进行标注;S2、微博文本预处理,包含文本分词、去停用词和抑郁情感词典构建;S3、经过特征选择、特征加权,根据所述特征选择的结果与所述特征加权的结果构建词向量空间,构造文本分类器将待分类的微博文本进行分类,得到每条微博文本的抑郁情感状态;S4、计算抑郁指数,对所述抑郁指数和所述个体的抑郁量表得分之间的相关性进行皮尔逊检测,并根据检测结果建立抑郁程度与所述抑郁指数之间的关系,以抑郁指数表征个体抑郁程度;S5、引入情感衰变因子得到每条微博对应的抑郁情绪值,并判断个体抑郁情况,刻画个体抑郁情绪的波动情况。优选地,所述抑郁情感词典构建进一步包括以下步骤:步骤S231、采集抑郁情感网络流行词语;步骤S232、从微博抽取常用抑郁情感符号;步骤S233、在已有情感词典基础上,将采集到的网络用语和抑郁情感符号加入进去,构建抑郁情感词典,还原在所述文本分词过程中被切分的抑郁词。优选地,所述特征选择进一步包括以下步骤:采用CHI方法对文本进行特征选择,计算公式为:其中,t为特征,ci为类别,N为文档数,A表示文档属于所述类别ci不包含特征t,B表示所述文档不属于类别ci包含特征t,C表示所述文档属于所述类别ci不包含所述特征t,D表示所述文档不属于所述类别ci不包含所述特征t;最后,选择特征t的最大值作为全局CHI统计量,公式如下:优选地,所述特征加权进一步包含以下步骤:使用词频-倒文档频率方法对文本进行特征加权,公式为:Wik=tfik·idfik,其中,tfik表示特征词ti在文本dk中出现的次数,idfik表示特征词ti的反文档频率,该反文档频率idfik公式为:Dk表示文本集中所有文本数,dik表示文本集中包含特征ti的文本数。优选地,所述词向量空间构建进一步包含以下步骤:根据所述特征选择的结果与所述特征加权的结果构建词向量空间,并采用(LT:W)形式来表示每条微博,L表示每条微博的标签,T表示特征项,W为特征项的权重。优选地,基于情感衰变因子的抑郁情绪分析方法中,对文本预处理并获得所述词向量空间后,构造文本分类器将待分类的微博文本进行分类,得到每条微博文本的抑郁情感状态;其中,所述词向量空间作为分类器的输入,最后输出得到0或1标签,得到分类结果中抑郁微博条数。优选地,所述步骤S4中进一步包含:抑郁指数的计算公式为:其中,Nd表示步骤S3分类结果中抑郁微博条数,Nt表示总的微博数;所述抑郁指数DI与抑郁程度E(DI)之间的关系式为:当抑郁指数小于0.1时,说明该个体没有抑郁情绪,反之说明该个体有抑郁情绪,且抑郁指数越大,抑郁程度越严重。优选地,所述步骤S5中进一步包含:情感衰变因子的引入,构造情感衰变公式,得到每条微博对应的抑郁情绪值,公式为f(t)=f(t-1)+(-1)ne-λt,其中,时间t定义为相邻两条微博的时间间隔,则t的取值范围为:t=0,1,2,…,n,且任意个体的初始状态f(t=0)=0;f(t)表示t时刻这条微博所对应的抑郁情绪值;f(t-1)表示上一时刻的微博文本所对应的抑郁情绪值;λ是情感衰变因子,表示情感的衰变速度,假设抑郁情感符合半衰期规律,取λ=0.5,n的取值与相邻两时间点的微博状态有关。优选地,所述步骤S5中,计算n的取值的方法为:其中,c表示微博状态;当出现连续两个或以上的0状态时,若下一时刻ti的状态c=1,则ti=1;当出现连续两个或以上的1状态时,若下一时刻ti的状态c=0,则ti的值并不置1,而是接着上一时刻依次递增,以上两种状态交替变化过程中,f(t-1)的值保持不变,仍为上一时刻的抑郁情绪值。优选地,所述步骤S5中,所述判断个体抑郁情况中进一步包含以下步骤:计算每条微博的抑郁情绪值后,再计算抑郁情绪均值,如下:其中,t=i表示从第i条微博开始考察,f(t=i)表示第i条微博的抑郁情绪值,Avg表示从第i条微博到第n条微博的抑郁情绪均值;基于所述抑郁情绪均值,判断个体抑郁情况:如果个体的抑郁情绪均值在[-1.6,0.2)区间时,则个体抑郁情况为情绪正常;若抑郁情绪均值在[0.2,2]区间时,则个体抑郁情况为有抑郁倾向。与现有技术相比,本专利技术的有益效果为:本专利技术基于情感衰变因子的抑郁情绪分析方法是根据已有的情感词典及网络用语特点,构建专业的抑郁情感词典,更加准确识别抑郁情感特征词,提高识别准确率;本专利技术基于支本文档来自技高网
...

【技术保护点】
1.一种基于情感衰变因子的抑郁情绪分析方法,其特征在于,包含以下步骤:S1、发动人群在线填写抑郁自评量表,获得个体的抑郁量表得分以及微博昵称,并采集其微博文本,并通过专家系统对微博内容进行标注;S2、微博文本预处理,包含文本分词、去停用词和抑郁情感词典构建;S3、经过特征选择、特征加权,根据所述特征选择的结果与所述特征加权的结果构建词向量空间,构造文本分类器将待分类的微博文本进行分类,得到每条微博文本的抑郁情感状态;S4、计算抑郁指数,对所述抑郁指数和所述个体的抑郁量表得分之间的相关性进行皮尔逊检测,并根据检测结果建立抑郁程度与所述抑郁指数之间的关系,以抑郁指数表征个体抑郁程度;S5、引入情感衰变因子得到每条微博对应的抑郁情绪值,并判断个体抑郁情况,刻画个体抑郁情绪的波动情况。

【技术特征摘要】
1.一种基于情感衰变因子的抑郁情绪分析方法,其特征在于,包含以下步骤:S1、发动人群在线填写抑郁自评量表,获得个体的抑郁量表得分以及微博昵称,并采集其微博文本,并通过专家系统对微博内容进行标注;S2、微博文本预处理,包含文本分词、去停用词和抑郁情感词典构建;S3、经过特征选择、特征加权,根据所述特征选择的结果与所述特征加权的结果构建词向量空间,构造文本分类器将待分类的微博文本进行分类,得到每条微博文本的抑郁情感状态;S4、计算抑郁指数,对所述抑郁指数和所述个体的抑郁量表得分之间的相关性进行皮尔逊检测,并根据检测结果建立抑郁程度与所述抑郁指数之间的关系,以抑郁指数表征个体抑郁程度;S5、引入情感衰变因子得到每条微博对应的抑郁情绪值,并判断个体抑郁情况,刻画个体抑郁情绪的波动情况。2.如权利要求1所述的基于情感衰变因子的抑郁情绪分析方法,其特征在于,所述抑郁情感词典构建进一步包括以下步骤:步骤S231、采集抑郁情感网络流行词语;步骤S232、从微博抽取常用抑郁情感符号;步骤S233、在已有情感词典基础上,将采集到的网络用语和抑郁情感符号加入进去,构建抑郁情感词典,还原在所述文本分词过程中被切分的抑郁词。3.如权利要求1所述的基于情感衰变因子的抑郁情绪分析方法,其特征在于,所述特征选择进一步包括以下步骤:采用CHI方法对文本进行特征选择,计算公式为:其中,t为特征,ci为类别,N为文档数,A表示文档属于所述类别ci不包含特征t,B表示所述文档不属于类别ci包含特征t,C表示所述文档属于所述类别ci不包含所述特征t,D表示所述文档不属于所述类别ci不包含所述特征t;最后,选择特征t的最大值作为全局CHI统计量,公式如下:4.如权利要求3所述的基于情感衰变因子的抑郁情绪分析方法,其特征在于,所述特征加权进一步包含以下步骤:使用词频-倒文档频率方法对文本进行特征加权,公式为:Wik=tfik·idfik,其中,tfik表示特征词ti在文本dk中出现的次数,idfik表示特征词ti的反文档频率,该反文档频率idfik公式为:Dk表示文本集中所有文本数,dik表示文本集中包含特征ti的文本数。5.如权利要求4所述的基于情感衰变因子的抑郁情绪分析方法,其特征在于,所述词向量空间构建进一步包含以下步骤:根据所述特征选择的结果与所述特征加权的结果构建词向量空间,并采用(LT:W)形式来表示每条微博,L表示每条微博的标签,T表示特征项,W为特征项的权...

【专利技术属性】
技术研发人员:王泽庆高俊波孙伟李岩锋高楚瑶
申请(专利权)人:上海海事大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1