当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于用户特征优化的主题挖掘情感分析方法技术

技术编号:21453970 阅读:35 留言:0更新日期:2019-06-26 04:47
本发明专利技术属于自然语言处理领域的情感分析与主题挖掘任务,更具体地,涉及一种基于用户特征优化的主题挖掘情感分析方法。包括:S1.建立基于LDA主题模型的多维度主题情感联合模型MTSM,该模型融合了文本信息、时间、用户特征和情感标签;S2.利用训练语料训练模型,求解模型参数;S3.利用训练好的模型对测试语料进行主题挖掘和情感预测。本发明专利技术针对网络社交文本的特点,有效整合文本信息、时间、用户特征、情感标签等四个维度的信息,重新定义网络社交文本生成方式,建立多维度主题情感分联合型,并且,提供从多个视角观测对比主题信息,提高对网络社交文本的情感预测准确度。

【技术实现步骤摘要】
一种基于用户特征优化的主题挖掘情感分析方法
本专利技术属于自然语言处理领域的情感分析与主题挖掘任务,更具体地,涉及一种基于用户特征优化的主题挖掘情感分析方法。
技术介绍
互联网社交网络文本包含了用户的观点意见及个人情绪,对这种非结构化的网络数据的提取的过程被称为情感分析或观点挖掘。根据方法的基本属性,主要可以分为机器学习模型、基于词典的学习模型和主题模型。近年来,由于主题模型的蓬勃发展,因此大量基于主题模型被拓展为情感预测分类模型,并应用情感分析领域对互联网用户生成文本做情感分类工作,例如,对商品评论信息和电影评论信息的情感分类及主题挖掘。MeiQ等人提出首个情感-主题联合模型Topic-SentimentModel(简称TSM)模型,该模型在pLSA的基础上进行改进的,它同时对情感和主题线索进行建模,假设文档中的每一个词语的生成首先应该决定该词属于正面情感抑或是属于负面情感,继而决定该词的主题,最后决定相应主题下的词。与pLSA一样,在面对小数据集时,TSM同样易导致过拟合问题的出现。基于LDA的优势,LinC和HeY提出JST模型,不仅仅为隐变量主题和情感加入先验分布,而且为每一篇文章设置一个满足多项式分布的情感分布,为该文章的每一个情感标签设置一个满足多项式分布的主题分布。明显地,在JST模型中,主题和情感之间的关系是相对独立的,这二种简易的组合方式带来文章情感不一致的噪声效果,JoY和OhAH在JST的工作基础上提出ASUM模型,假设一个句子里的所有单词仅有一个主题,共享一个情感标签。LiF等人则提出Sentiment-LDA和Dependency-Sentiment-LDA模型,Sentiment-LDA假设文章满足多项式分布的主题分布决定其满足二项式的情感分布,而Dependency-Sentiment-LDA运用句子中的连词信息(如“但是、并且、然而”等连词),来减少单词情感的不一致性。针对JST无法分离出主题词汇以及情感词汇的缺点,ZhaoW等人则提出MaximumEntropyLDA(简称Max-EntLDA)模型,借助最大信息熵的性质将单词分为背景词汇,及特定主题词汇,提高主题挖掘的精准度和情感分析的准确度。XuK等人提出TUS-LDA模型,结合时间信息、用户身份信息、情感偏向对数据做个人兴趣挖掘和社会热点检测。TUS-LDA模型将主题分为两类,一类为与用户个人兴趣相关的“静态话题”,另一类则是随时间变化很大的社会热点事件相关的“动态话题”。如果一篇社交网络文本的主题为“静态话题”,TUS-LDA则使用其子模型“用户-情感-主题”联合模型进行对用户的个人兴趣和情感偏向分析,反之则使用“时间-情感-主题”联合模型得到社会热点和事件和舆论观点。在TUS-LDA的两个子模型里,同样使用每篇文本的不同情感类别满足一个多项式分布的假设,并通过情感类别确定一个用户的兴趣主题多项式分布或者一个时间段内时间话题多项式分布。以上主题情感联合模型均为无监督主题情感联合模型,需要依靠情感词典的辅助信息提高模型的情感预测效果。为了将主题模型应用于有监督学习,McauliffeJD和BleiDM提出可适用于分类问题和回归问题的有监督主题模型Supervisedtopicmodels(简称SLDA),然而该模型并没有对主题层和情感层之间的联系进行深刻探讨。BaoS等]提出有监督情感分析主题模型Emotion-TermModel(简称ETM),该模型以作者的角度进行构建,面对公众情感分类工作,针对已有的训练集语料及每篇文章的公众情感投票标签对测试预料公众情感反馈。RaoY等人提出有监督情感分析主题模型Multi-labelsupervisedtopicmodel(简称MSTM)和Sentimentlatenttopicmodel(简称SLTM),实验效果表明,以读者视角为构建基础的MSTM和SLTM模型更为适合公众情感投票的预测工作。过去的研究工作大部分只将文本信息与文本发布时间、文本情感偏向、文本发布作者身份等额外信息中的一个或者两个维度信息进行融合,并没有研究工作针对社交网络文本的特点,对社交网络文本给出的文本信息、发布时间、用户特征充分挖掘并有效整合,充分发挥各个维度信息的价值,对社交文本进行准确挖掘。例如,尽管TUS-LDA模型结合了情感、时间、文本、用户身份四个维度的信息,但是该模型并没有利用用户的特征信息。而上述不同纬度的特征在基于主题模型的情感分析中均具有重要价值,具体如下:首先,网络舆论热点随时间变化迅速,随着时间带有显著发展变化。例如,曾经的社会舆论热点“扶老人过马路”总是充斥着“讹诈、道德底线、冷漠”等主题词汇,表达了人们对该主题的担心与痛斥,带有负面情感偏向。一段时间后随着事件的冷却,在人们理性的分析思考之后,社会对该主题的表达逐渐演变回“美德、善良、公正”等积极词汇,再次回归正面的情感偏向。其次,情感标签对模型进行主题建模和情感分析起到监督作用,能更好的区分不同主题与不同情感之间的联系。最后,用户的特征标签也对主题-情感有不同的影响。例如,对同一新闻事件,男性和女性、工薪阶层和中产阶层的人们的看法和情感会有微妙的不同,这与其自身的所处环境造成的影响不可分割,而用户的特征标签正是用以描述用户自身及其环境的重要表达。明显的,互联网用户数量数以万计,形如AT模型的作者-主题建模方式如用于网络社交文本的主题提取及情感分析,对每个网络社交用户进行跟踪建模,将导致模型参数过多,这并不能够适应网络社交文本数量庞大的特点。同时,社交网络面对社会每一个民众,人人之间既不相同,又存在共性,通过这些共性将人群按照不同粒度级别进行社区划分,再进行主题建模,不仅能够有效地减少模型参数,而且通过社区内的人群信息相互补充挖掘更加充分的主题信息和更有效地情感预测。但目前为止,尚没有相关研究工作提出如何有效将用户的多维特征以及时间、文本、情感标签等融入主题模型。
技术实现思路
本专利技术为克服上述现有技术所述的至少一种缺陷,提供一种基于用户特征优化的主题挖掘情感分析方法,有效整合文本信息、时间、用户特征、情感标签等四个维度的信息,重新定义网络社交文本生成方式,建立多维度主题情感分联合型,通过对多维度信息的整合,提高对网络社交文本的情感预测准确度。为解决上述技术问题,本专利技术采用的技术方案是:一种基于用户特征优化的主题挖掘情感分析方法,包括以下步骤:S1.建立基于LDA主题模型的多维度主题情感联合模型MTSM,该模型融合了文本信息、时间、用户特征和情感标签;S2.根据文档在模型中的生成过程,使用训练语料对模型训练,进行参数的求解:对文档用户的社区概率分布参数进行估计,发现用户社区,知道了用户的所属社区之后,对该用户所写的文档进行主题和情感检测;使用GibbsSampling算法根据公式不断对用户写的文档里的每一个单词采样,推测每个单词可能所属的主题和情感标签,直到收敛;S3.模型参数求解完成后,训练好的MTSM模型可以对测试文档有效地进行主题挖掘和情感预测;S4.对测试文档进行主题挖掘和情感预测:得到了模型的参数以后,当对测试文档进行主题挖掘和情感预测的时候,分为社区发现和文档的单词采样两步,利用这两个步骤采样迭代直到收敛本文档来自技高网
...

【技术保护点】
1.一种基于用户特征优化的主题挖掘情感分析方法,其特征在于,包括以下步骤:S1.建立基于LDA主题模型的多维度主题情感联合模型MTSM,该模型融合了文本信息、时间、用户特征和情感标签;S2.根据文档在模型中的生成过程,使用训练语料对模型训练,进行参数的求解:对文档用户的社区概率分布参数进行估计,发现用户社区,知道了用户的所属社区之后,对该用户所写的文档进行主题和情感检测;使用Gibbs Sampling算法根据公式不断对用户写的文档里的每一个单词采样,推测每个单词可能所属的主题和情感标签,直到收敛;S3.模型参数求解完成后,训练好的MTSM模型可以对测试文档有效地进行主题挖掘和情感预测;S4.对测试文档进行主题挖掘和情感预测:得到了模型的参数以后,当对测试文档进行主题挖掘和情感预测的时候,分为社区发现和文档的单词采样两步,利用这两个步骤采样迭代直到收敛,得到基于训练文档和测试文档的新参数,以此进行主题挖掘和情感预测。

【技术特征摘要】
1.一种基于用户特征优化的主题挖掘情感分析方法,其特征在于,包括以下步骤:S1.建立基于LDA主题模型的多维度主题情感联合模型MTSM,该模型融合了文本信息、时间、用户特征和情感标签;S2.根据文档在模型中的生成过程,使用训练语料对模型训练,进行参数的求解:对文档用户的社区概率分布参数进行估计,发现用户社区,知道了用户的所属社区之后,对该用户所写的文档进行主题和情感检测;使用GibbsSampling算法根据公式不断对用户写的文档里的每一个单词采样,推测每个单词可能所属的主题和情感标签,直到收敛;S3.模型参数求解完成后,训练好的MTSM模型可以对测试文档有效地进行主题挖掘和情感预测;S4.对测试文档进行主题挖掘和情感预测:得到了模型的参数以后,当对测试文档进行主题挖掘和情感预测的时候,分为社区发现和文档的单词采样两步,利用这两个步骤采样迭代直到收敛,得到基于训练文档和测试文档的新参数,以此进行主题挖掘和情感预测。2.根据权利要求1所述的一种基于用户特征优化的主题挖掘情感分析方法,其特征在于,所述的MTSM模型在原始的LDA主题模型的基础上添加如下生成条件:1)添加全局的社区多项式概率π,使其先验服从狄利克雷分布,即π~Dirichlet(γ),该概率分布代表一批语料里的用户属于各个社区的概率;2)添加全局的特定社区下用户特征多项式概率ψ,每一种用户特征都有一个概率分布,使用j计数,使其先验服从狄利克雷分布,即ψj~Dirichlet(λ),该概率分布代表某个社区里,用户的特征分布概率;3)对于每个社区,添加其社区内的文章主题概率分布θc,即社区内所有用户的写的所有文章共同服从一个主题概率分布,使其先验服从狄利克雷分布,即θc~Dirichlet(α),该概率代表每个社区的用户所有文章的主题分布概率;4)对于每一个主题添加情感概率分布φz,使其先验服从狄利克雷分布,即φz~Dirichlet(μ),该概率代表用户对一批语料里挖掘出来的主题的情感分布概率;5)对于每一个主题添加时间概率分布τ,使其服从伯努利分布,即t~Beta(τ),该概率代表一个主题的时间分布概率;6)对于特定主题的特定情感添加词语概率分布使其先验服从狄利克雷分布该概率代表特定主题特定情感下所有词语的分布概率。3.根据权利要求2所述的一种基于用户特征优化的主题挖掘情感分析方法,其特征在于,所述的S2步骤具体包括:S21.在总共J维度的特征标签空间中,对于每一维的特征标签fj采样一个满足多项式分布的特征值概率分布ψj~Dirichlet(λ);S22.对于数据集中的所有用户采样一个满足多项式分布的社区概率分布π~Dirichlet(γ);S23.对于每一个聚集的社区c采样一个满足多项式分布的主题概率分布θc~Dirichlet(α);S24.对于每一个主题z采样一个满足多项式分布的情感概率分布φz~Dirichlet(μ);S25.对于每一个主题z采样一个满足二项式分布的时间概率分布t~Beta(τ);S26.对于每一个主题z的每一个特定情感s,采样一个满足多项式分布的单...

【专利技术属性】
技术研发人员:冯佳纯饶洋辉
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1