【技术实现步骤摘要】
一种考虑用户特征信息的主题-情感联合建模方法
本专利技术属于情感分析领域,具体的说是一种考虑用户特征信息的主题-情感联合建模方法。
技术介绍
随着互联网的发展,越来越多的用户倾向于在网络上发表评论,这些评论为消费者的购买决策和商家的市场监控与策略调整提供了依据。如何对数量庞大、内容复杂的在线评论进行分析,挖掘其中的用户观点已经成为研究热点问题。传统的情感分析方法主要有两大类:基于知识的和基于机器学习的方法。基于知识的情感分析方法需要借助情感字典标注文档中每个词的情感倾向,并结合一些句法规则对文档中的情感词进行加权求和,得到文档的总体情感倾向。例如,文献[SentimentanalysisofChinesedocuments:Fromsentencetodocumentlevel,2009]提出了一种基于规则的两阶段方法:首先依据词汇情感倾向得到句子情感倾向,然后聚合句子情感倾向得到文档情感倾向。基于知识的情感分析方法通常需要针对特定领域构建情感字典,在如今信息爆炸的时代,网络流行语层出不穷,领域情感词典难于实时更新,基于知识的方法在实时、动态地分析用户的情感倾向方 ...
【技术保护点】
一种考虑用户特征信息的主题‑情感联合建模方法,其特征是按如下步骤进行:步骤1、构建语料特征集合T:步骤1.1、获取n条评论文本构成评论文本集合D,记为D={d1,d2,…,di…,dn},di表示所述评论文本集合D中的第i个评论文本,n表示所述评论文本集合D中的评论文本总数,i=1,2,…,n;步骤1.2、去除所述评论文本集合D中所有停用词,得到预处理后的评论文本集合D′={d1′,d2′,…,di′…,dn′},使用词袋法表示预处理后的第i个评论文本di′的特征,获得预处理后的第i个评论文本di′的特征集合
【技术特征摘要】
1.一种考虑用户特征信息的主题-情感联合建模方法,其特征是按如下步骤进行:步骤1、构建语料特征集合T:步骤1.1、获取n条评论文本构成评论文本集合D,记为D={d1,d2,…,di…,dn},di表示所述评论文本集合D中的第i个评论文本,n表示所述评论文本集合D中的评论文本总数,i=1,2,…,n;步骤1.2、去除所述评论文本集合D中所有停用词,得到预处理后的评论文本集合D′={d1′,d2′,…,di′…,dn′},使用词袋法表示预处理后的第i个评论文本di′的特征,获得预处理后的第i个评论文本di′的特征集合ti,s表示第i个特征集合Ti中第s个特征词,ri表示所述第i个特征集合Ti中的特征总数,s=1,2,…,ri;步骤1.3、对n个评论文本的特征集合取并集,从而构成所述预处理后的评论文本集合D′的语料特征集合T={t1,t2,…,tc,…,tm},tc表示所述语料特征集合T中第c个特征词,m表示所述语料特征集合T的特征词总数,c=1,2,…,m;步骤2、构建用户特征矩阵X:步骤2.1、获取预处理后的评论文本集合D′对应的用户特征集合U,记为U={u1,u2,...,ui...,un},ui表示第i个评论文本di′对应的用户特征集;步骤2.2、将第i个用户特征集ui进行区间离散化,得到值为1×f的0-1向量,记为第i个用户特征向量xi=(xi,1,xi,2,...,xi,l,...,xi,f),从而构成用户特征矩阵X=[x1,x2,...,xi,...,xn]T,其中,xi,l表示第i个用户特征向量xi的第l个用户特征,f表示所述第i个用户特征向量xi中的特征总数,l=1,2,…,f;步骤3、将所述预处理后的评论文本集合D′表示成向量形式:步骤3.1、将所述预处理后的评论文本集合D′中的所有评论文本映射到所述语料特征集合T上,并通过TF-IDF计算预处理后的第i个评论文本di′中第c个特征词tc的权值wc,i,从而获得预处理后的第i个评论文本di′中ri个特征词在所述语料特征集合T上的权值进而获得n条评论文本的权值{W1,W2,…,Wi,…,Wn};步骤3.2、将预处理后的第i个评论文本di′表示成向量形式:从而获得预处理后的n条评论文本的向量形式:{h1,h2,…,hi,…,hn};步骤4、构建语料情感字典:步骤4.1、将情感词库中的情感词作为种子词集S,记为S={s1,s2,...,sk,...,st},sk表示情感种子词集S中的第k个情感词;k=1,2,…,t;步骤4.2、将所述预处理后的评论文本集合D′中的所有评论文本映射到所述语料特征集合T上,并使用word2vec模型进行训练,得到语料特征集合T的向量表示集合{e1,e2,...ec,...,em},其中,ec表示所述语料特征集合T中第c个特征词的向量表示,m表示所述语料特征集合T的特征词总数,c=1,2,…,m;步骤4.3、遍历种子词集S,并根据向量表示ec,使用余弦相似度计算和第k个情感词sk最相近的特征词tc加入种子词集S中,从而得到情感字典S*;步骤5、初始化语料特征词的主题和情感:步骤5.1、定义A个主题,B种情感;步骤5.2、给预处理后的第i个评论文本di′中的第s个特征词ti,s随机分配第a个主题,并遍历所述情感字典S*,如果第s个特征词ti,s存在于情感字典S*中,则将所述情感字典中的情感赋给第s个特征词ti,s,否则,随机分配第b种情感给第s个特征词ti,s,0≤a<A,1≤b≤B;步骤5.3、定义预处理后的第i个评论文本di′的初始情感分布为表示第i个评论文本di′属于正向情感的概率,表示第i个评论文本di′属于负向情感的概率;定义第i个评论文本di′中对应第b种情感下的主题分布为Θib={pib_0,pib_1,...,pib_a,...,pib_A-1},pib_a表示文本属于第a个主题的概率;定义第b种情感的第a个主题下的特征词分布Φba={pba_1,pba_2,…,pba_c,…,pba_m},pba_c表示第c个特征词tc在第b种情感的第a个主题下出现的概率;步骤6、更新语料特征词的主题和情感:步骤6.1、定义当前迭代次数为ε,则定义第ε次迭代下的第b种情感的用户特征参数向量为λbε=(λb,1ε,λb,2ε,...,λb,lε,...λb,fε),当ε=1时,λbε为服从均值为0方差为σ2的高斯分布的随机向量,其中,λb,lε表示第ε次迭代下第b种情感的第l个用户特征参数;定义第s个特征词ti,s更新迭代的次数为step;初始化ε=1,step=1;步骤6.2、利用式(1)计算第ε次更新下第step次迭代的预处理后的第i个评论文本di′中第s个特征词ti,s属于第a个主题和第b种情感的概率p(topici,s=a,seni,s=b)ε,step:
【专利技术属性】
技术研发人员:孙春华,许银洁,刘业政,孙见山,姜元春,魏琳璘,温琴,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。