一种基于用户特征优化的主题挖掘情感分析方法技术

技术编号：21453970 阅读：35 留言：0更新日期：2019-06-26 04:47

本发明专利技术属于自然语言处理领域的情感分析与主题挖掘任务，更具体地，涉及一种基于用户特征优化的主题挖掘情感分析方法。包括：S1.建立基于LDA主题模型的多维度主题情感联合模型MTSM，该模型融合了文本信息、时间、用户特征和情感标签；S2.利用训练语料训练模型，求解模型参数；S3.利用训练好的模型对测试语料进行主题挖掘和情感预测。本发明专利技术针对网络社交文本的特点，有效整合文本信息、时间、用户特征、情感标签等四个维度的信息，重新定义网络社交文本生成方式，建立多维度主题情感分联合型，并且，提供从多个视角观测对比主题信息，提高对网络社交文本的情感预测准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于用户特征优化的主题挖掘情感分析方法
本专利技术属于自然语言处理领域的情感分析与主题挖掘任务，更具体地，涉及一种基于用户特征优化的主题挖掘情感分析方法。
技术介绍
互联网社交网络文本包含了用户的观点意见及个人情绪，对这种非结构化的网络数据的提取的过程被称为情感分析或观点挖掘。根据方法的基本属性，主要可以分为机器学习模型、基于词典的学习模型和主题模型。近年来，由于主题模型的蓬勃发展，因此大量基于主题模型被拓展为情感预测分类模型，并应用情感分析领域对互联网用户生成文本做情感分类工作，例如，对商品评论信息和电影评论信息的情感分类及主题挖掘。MeiQ等人提出首个情感-主题联合模型Topic-SentimentModel(简称TSM)模型，该模型在pLSA的基础上进行改进的，它同时对情感和主题线索进行建模，假设文档中的每一个词语的生成首先应该决定该词属于正面情感抑或是属于负面情感，继而决定该词的主题，最后决定相应主题下的词。与pLSA一样，在面对小数据集时，TSM同样易导致过拟合问题的出现。基于LDA的优势，LinC和HeY提出JST模型，不仅仅为隐变量主题和情感加入先验分布，而且为每一篇文章设置一个满足多项式分布的情感分布，为该文章的每一个情感标签设置一个满足多项式分布的主题分布。明显地，在JST模型中，主题和情感之间的关系是相对独立的，这二种简易的组合方式带来文章情感不一致的噪声效果，JoY和OhAH在JST的工作基础上提出ASUM模型，假设一个句子里的所有单词仅有一个主题，共享一个情感标签。LiF等人则提出Sentiment-LDA和Dependency...

【技术保护点】
1.一种基于用户特征优化的主题挖掘情感分析方法，其特征在于，包括以下步骤：S1.建立基于LDA主题模型的多维度主题情感联合模型MTSM，该模型融合了文本信息、时间、用户特征和情感标签；S2.根据文档在模型中的生成过程，使用训练语料对模型训练，进行参数的求解：对文档用户的社区概率分布参数进行估计，发现用户社区，知道了用户的所属社区之后，对该用户所写的文档进行主题和情感检测；使用Gibbs Sampling算法根据公式不断对用户写的文档里的每一个单词采样，推测每个单词可能所属的主题和情感标签，直到收敛；S3.模型参数求解完成后，训练好的MTSM模型可以对测试文档有效地进行主题挖掘和情感预测；S4.对测试文档进行主题挖掘和情感预测：得到了模型的参数以后，当对测试文档进行主题挖掘和情感预测的时候，分为社区发现和文档的单词采样两步，利用这两个步骤采样迭代直到收敛，得到基于训练文档和测试文档的新参数，以此进行主题挖掘和情感预测。

【技术特征摘要】
1.一种基于用户特征优化的主题挖掘情感分析方法，其特征在于，包括以下步骤：S1.建立基于LDA主题模型的多维度主题情感联合模型MTSM，该模型融合了文本信息、时间、用户特征和情感标签；S2.根据文档在模型中的生成过程，使用训练语料对模型训练，进行参数的求解：对文档用户的社区概率分布参数进行估计，发现用户社区，知道了用户的所属社区之后，对该用户所写的文档进行主题和情感检测；使用GibbsSampling算法根据公式不断对用户写的文档里的每一个单词采样，推测每个单词可能所属的主题和情感标签，直到收敛；S3.模型参数求解完成后，训练好的MTSM模型可以对测试文档有效地进行主题挖掘和情感预测；S4.对测试文档进行主题挖掘和情感预测：得到了模型的参数以后，当对测试文档进行主题挖掘和情感预测的时候，分为社区发现和文档的单词采样两步，利用这两个步骤采样迭代直到收敛，得到基于训练文档和测试文档的新参数，以此进行主题挖掘和情感预测。2.根据权利要求1所述的一种基于用户特征优化的主题挖掘情感分析方法，其特征在于，所述的MTSM模型在原始的LDA主题模型的基础上添加如下生成条件：1)添加全局的社区多项式概率π，使其先验服从狄利克雷分布，即π～Dirichlet(γ)，该概率分布代表一批语料里的用户属于各个社区的概率；2)添加全局的特定社区下用户特征多项式概率ψ，每一种用户特征都有一个概率分布，使用j计数，使其先验服从狄利克雷分布，即ψj～Dirichlet(λ)，该概率分布代表某个社区里，用户的特征分布概率；3)对于每个社区，添加其社区内的文章主题概率分布θc，即社区内所有用户的写的所有文章共同服从一个主题概率分布，使其先验服从狄利克雷分布，即θc～Dirichlet(α)，该概率代表每个社区的用户所有文章的主题分布概率；4)对于每一个主题添加情感概率分布φz，使其先验服从狄利克雷分布，即φz～Dirichlet(μ)，该概率代表用户对一批语料里挖掘出来的主题的情感分布概率；5)对于每一个主题添加时间概率分布τ，使其服从伯努利分布，即t～Beta(τ)，该概率代表一个主题的时间分布概率；6)对于特定主题的特定情感添加词语概率分布使其先验服从狄利克雷分布该概率代表特定主题特定情感下所有词语的分布概率。3.根据权利要求2所述的一种基于用户特征优化的主题挖掘情感分析方法，其特征在于，所述的S2步骤具体包括：S21.在总共J维度的特征标签空间中，对于每一维的特征标签fj采样一个满足多项式分布的特征值概率分布ψj～Dirichlet(λ)；S22.对于数据集中的所有用户采样一个满足多项式分布的社区概率分布π～Dirichlet(γ)；S23.对于每一个聚集的社区c采样一个满足多项式分布的主题概率分布θc～Dirichlet(α)；S24.对于每一个主题z采样一个满足多项式分布的情感概率分布φz～Dirichlet(μ)；S25.对于每一个主题z采样一个满足二项式分布的时间概率分布t～Beta(τ)；S26.对于每一个主题z的每一个特定情感s，采样一个满足多项式分布的单...

【专利技术属性】
技术研发人员：冯佳纯，饶洋辉，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人