【技术实现步骤摘要】
基于话题的群体情感分析方法
本专利技术涉及观点抽取、倾向性分析及用户画像
,尤其涉及一种基于话题的群体情感分析方法。
技术介绍
传统的信息抽取(IE)技术和信息检索(IR)技术研究的重点是客观表达的事实信息。为从海量数据中发现有效、新颖、有用、可理解的模式,我们需要极性倾向分析和观点抽取技术,对于观点抽取技术,即使是英文语种,大多采用的也是统计学方法。统计学方法虽然对结构简单的句子可以取得较好的结果,但是,对于结构较复杂的语句,难以达到理想的效果。倾向性分析又称意见挖掘,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。互联网上产生了大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。用户特征建模的核心工作就是给用户打标签,标签通常是人为规定的高度精炼的特征标识,如年龄、性别、地域、兴趣等。这些标签集合就能抽象出 ...
【技术保护点】
1.一种基于话题的群体情感分析方法,其特征在于,包括:/nS1对待处理话题的评论文本进行预处理、聚类和摘要生成,得到待处理话题的多个代表性观点;/nS2对所述多个代表性观点中每个观点对应的用户信息进行特征提取,得到每个观点对应的用户的属性特征和兴趣特征;/nS3采用LSTM神经网络模型对各个代表性观点对应用户的情感倾向进行预测,得到预测的各个代表性观点对应用户的情感倾向;/nS4根据得到每个观点对应的用户的属性特征、兴趣特征以及预测的各个代表性观点对应用户的情感倾向,采用梯度下降树算法和关联性分析得到用户特征与情感之间的关联关系。/n
【技术特征摘要】
1.一种基于话题的群体情感分析方法,其特征在于,包括:
S1对待处理话题的评论文本进行预处理、聚类和摘要生成,得到待处理话题的多个代表性观点;
S2对所述多个代表性观点中每个观点对应的用户信息进行特征提取,得到每个观点对应的用户的属性特征和兴趣特征;
S3采用LSTM神经网络模型对各个代表性观点对应用户的情感倾向进行预测,得到预测的各个代表性观点对应用户的情感倾向;
S4根据得到每个观点对应的用户的属性特征、兴趣特征以及预测的各个代表性观点对应用户的情感倾向,采用梯度下降树算法和关联性分析得到用户特征与情感之间的关联关系。
2.根据权利要求1所述的方法,其特征在于,所述的对待处理话题的评论文本进行预处理、聚类和摘要生成,得到待处理话题的多个代表性观点,包括:将对待处理话题的评论文本进行分词、去除特殊符号、简繁转换的预处理;把预处理后的文本输入到AP(AffinityPropagationClustering,亲和力传播聚类)算法中,聚成若干类;选取类内用户数大于一定个数的类,用TextRank算法对选取的类进行摘要生成;得到待处理话题的多个代表性观点。
3.根据权利要求1所述的方法,其特征在于,所述的对所述多个代表性观点中每个观点对应的用户信息进行特征提取,得到每个观点对应的用户的属性特征和兴趣特征,包括:根据数据库中的用户信息对群体中的每个用户进行属性特征和兴趣特征的提取。
4.根据权利要求1所述的方法,其特征在于,所述的采用LSTM神经网络模型对各个代表性观点对应用户的情感倾向进行预测,得到预测的各个代表性观点对应用户的情感倾向,包括:
对待处理话题的评论文本进行打标签,将打好标签的文本分为训练集和测试集,通过训练集对LSTM(LongShort-TermMemory,长短时记忆)网络模型训练;采用训练好的LSTM网络模型对各个代表性观点对应用户的情感倾向进行预测,得到预测的各个代表性观点对应用户的情感倾向。
5.根据权利要求1所述的方法,其特征在于,所述的根据得到每个观点对应的用户的属性特征、兴趣特征以及预测的各个代表性观点对应用户的情感倾向,采用梯度下降树算法和关联性分析得到用户特征与情感之间的关联关系,包括:
根据得到每个观点对应的用户群的情感倾向特征和预测的各个代表性观点对应用户的情感倾向输入到梯度下降树算法中,训练分类器,将用户特征与用户情感倾向进行关联,采用spearman系数进行特征关联性分析,并结合显著性检验的结果,进而得到最终的关联关系。
6.根据权利要求4所述的方法,其特征在于,所述的方法还包括:采用测试集对训练好的LSTM网络模型进行测试。
7.根据权利要求4所述的方法,其特征在于,所述的测试集和训练集的比为4:1。
8.根据权利要求4所述的方法,其特征在于,所述的...
【专利技术属性】
技术研发人员:王伟,王恩慧,李浥东,何永忠,
申请(专利权)人:北京交通大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。