【技术实现步骤摘要】
一种基于深度学习的微博博主性格分析方法
本专利技术属于文本信息处理领域,具体是涉及一种基于深度学习的微博博主性格分析方法。
技术介绍
在高度发达的信息时代,网络社交平台逐渐成为人们生活中不可缺少的一部分。随着微博、微信等社交平台的更新,用户在网络平台的社交逐渐替代了传统的面对面交流。在社交平台的用户规模很大,所以提取一些用户在社交平台上的互动信息可以有效的衡量用户的个人特征,包括用户的兴趣爱好、生活水平、性格特征等等。一般采用调查问卷的方式来衡量人们的性格特征,但是基于社交数据,可以采用数据挖掘的方法,构造人物性格分析模型。这样可以节省问卷调查的时间,大批量的获取人物性格。本专利技术采用大五人格的性格分类。其五种性格分别为外倾型、宜人型、尽职型、神经质和开放型。五种性格的人物特征如下:外倾性(Extraversion):高外倾的人喜欢和他人沟通,生活态度较为积极乐观。低外倾的更倾向于独处,不喜欢过多的和他人交流。宜人性(Agreeableness):具有高宜人型性格的人更加温暖、善良, ...
【技术保护点】
1.一种基于深度学习的微博博主性格分析方法,其特征在于包括以下步骤:/n步骤(1)微博数据形式化定义/n将一个微博博主blogger定义为blogger=(Userdata,Textdata,Character),Userdata表示该博主的属性信息,Textdata表示该博主发表的原创博文信息;Character=(Se,Sa,Sc,Sn,So)表示该博主所属的五大性格类别得分,其中(Se,Sa,Sc,Sn,So)分别表示博主在外倾型、宜人型、尽职型、神经质和开放型性格上的得分;/n步骤(2)采集微博博主数据和博文数据,并对博文数据进行数据预处理/n(2.1)通过爬虫采集 ...
【技术特征摘要】
1.一种基于深度学习的微博博主性格分析方法,其特征在于包括以下步骤:
步骤(1)微博数据形式化定义
将一个微博博主blogger定义为blogger=(Userdata,Textdata,Character),Userdata表示该博主的属性信息,Textdata表示该博主发表的原创博文信息;Character=(Se,Sa,Sc,Sn,So)表示该博主所属的五大性格类别得分,其中(Se,Sa,Sc,Sn,So)分别表示博主在外倾型、宜人型、尽职型、神经质和开放型性格上的得分;
步骤(2)采集微博博主数据和博文数据,并对博文数据进行数据预处理
(2.1)通过爬虫采集符合条件的微博博主数据
所述的条件包括:
条件1:博主为个人账号;
条件2:近1年内发表原创微博条数大于等于100条;
所述的博主数据记作
Userdata=[Uname,UIntro,Ufans,Ufollow,Ufreq,Uorigin,Uforward],其中
Uname表示博主的昵称,UIntro表示博主的简介,Ufans表示博主的粉丝数,Ufollow表示博主的关注数,Ufreq表示博主30天内的发表博文频率,Uorigin表示博主30天内发表原创微博数量,Uforward表示博主30天内转发微博数量;
(2.2)采集博主一年内的原创博文数据,预处理后记为Textdata;
步骤(3)利用性格词典Dic对微博博主进行性格预标记,构建微博博主性格语料库G;
步骤(4)基于Char-LSTM模型进行博主性格分析:对于任意一个需要判定性格的博主blogger,记该博主1年内发布原创微博Textdata条数为N,随机将N条微博分为组,将博主信息Userdata和每组博文输入到Char-LSTM模型,得到m组微博博主五种性格类别的概率表示,取m组性格类别概率的平均值为博主blogger的大五性格表示。
2.根据权利要求1所述的一种基于深度学习的微博博主性格分析方法,其特征在于:步骤2中所述的博文数据预处理具体包括:
(1)删除微博博文中微博主题类别标签;
(2)博文文本繁体转简体;
(3)博文进行分词处理,删除博文中的停用词和无用字符。
3.根据权利要求1所述的一种基于深度学习的微博博主性格分析方法,其特征在于:所述的性格词典Dic是经过专家分析,人工构建获得,性格词典Dic分别给出了外倾型、宜人型、尽职型、神经质和开放型人格的性格词列表。
4.根据权利要求1所述的一种基于深度学习的微博博主性格分析方法,其特征在于:步骤3具体包括以下内容:
(1)对于每个微博博主blogger,随机从该博主的Textdata中抽取其一年内的h条博文,记为B={b1,b2,…,bi,…,bh},1≤i≤h,其中bi表示所抽取的第i条博文;
(2)利用性格词典Dic,统计B中博文出现的外倾型、宜人型、尽职型、神经质和开放型五种性格词的次数,分别记为NumE,NumA,NumC,NumN,NumO;
(3)将五个数值按降序排列,取前两个数值,分别记作S1,S2,若S2/S1<β,β为阈值,则博主性格被标记为S1值所对应的性格,Character=(Se,Sa,Sc,Sn,So)中博主对应性格得分标记为1,其他性格得分标记为0,并将该博主数据加入微博性格语料库G。
5.根据权利要求1所述的一种基于深度学习的微博博主性格分析方法,其特征在于:步骤4所述的Char-LSTM模型包括第一LSTM模块、第二LSTM模块、双向LSTM网络、四个全连层FC1、FC2、FC3、FC4。
6.根据权利要求1所述的一种基于深度学习的微博博主性格分析方法,其特征在于:步骤4所述的采用Char-LSTM模型分析博主性格具体包括四部分:
第一部分:对待分析博主blogger的Userdata进行特征提取,得到Userdata的特征表示Fusen,具体为:
(1)将Userdata中的Uname转化为向量表示vec(Uname):将Uname进行分词,记为name=[nw1,nw2,…,nwi,…,nwm],1<...
【专利技术属性】
技术研发人员:刘磊,郑瑶,潘佳煜,孙应红,侯良文,管天浡,原润和,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。