一种基于主题建模的多粒度情感分析方法技术

技术编号：11214862 阅读：236 留言：0更新日期：2015-03-27 01:53

本发明专利技术公开了一种基于主题建模的多粒度情感分析方法，包括如下步骤：提取社交媒体文本数据库中所有数据的单词和单词特征；训练得到核心模型；根据用户的查询请求从社交媒体文本数据库中得到搜索结果；根据系统自动设定或用户指定的参数，确定主题建模中需要的主题数目和细粒度情感数目；随机地将某个主题和某个细粒度情感分配给每一个单词；计算所有单词所属主题和细粒度情感以及所查询文档表达粗粒度情感，并将结果反馈给用户。本发明专利技术具有的有益效果有：可对社交网络文本数据同时进行主题建模与多粒度情感分析；可在单词特征与单词所表达细粒度情感之间建立起关联度，为用户理解数据提供帮助。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及用户情感分析，尤其涉及。
技术介绍
目前，随着互联网架构、存储科技及其他有关技术的发展，各种各样的网络数据飞速增长。这些数据除了给互联网用户更好的浏览体验和为多媒体检索应用提供了更多的样本以外，也使得高效组织这些大规模数据成为了一种挑战。为了应对这一挑战，作为通过隐性主题来聚类媒体数据的典型算法，非监督层次化贝叶斯模型（或称主题模型）被大量使用，如LDA(隐狄利克雷分配，一种广泛的传统主题模型）及其扩展等。从2003年被提出直至今日，LDA及其衍生模型已经作为多种主题建模应用的核心算法，被用于解决文档摘要生成、跨数据集主题建模和文档主题演化等领域，并且在实际使用中发挥了良好的效果。和传统的基于统计的一些文本归纳方法相比，主题模型在可观测的文档层和单词层间增加了一个隐含的主题层，并认为文档包含有一个或若干多个主题，每个主题又是不同比例单词的组合。这一新增加的主题隐含层能让用户更好地理解一篇文档所蕴含语义内容（相当于为文档数据本身自动添加了诸如体育、社会等一个或多个类别标签），而且对海量数据能通过主题进行表达而达到降维效果。在对海量互联网数据处理中，情感分析是随着社交网络的发展与网络用户生成数据（User Generated Data，例如对电影或者电子产品的感想、对于新闻事件的观点与感受等）飞速增多而新出现的研究方向。情感分析的基本任务是从用户生成的包含观点和意见的文本数据中抽取出这些观点和意见，然后实现情感摘要生成、情感分类和情感词典构建等等情感分析任务。将主题模型应用于情感分...
一种基于主题建模的多粒度情感分析方法

【技术保护点】
一种基于主题建模的多粒度情感分析方法，其特征在于包括如下步骤：1)提取社交媒体文本数据库中所有数据的单词和单词特征；2)根据系统自动设定或用户指定的参数，确定建模中所采用的主题数目和细粒度情感数目；3)根据给定训练数据，通过Gibbs采样过程得到主题建模和细粒度情感建模的核心模型；4)根据用户的查询请求从社交媒体数据库中搜索得到文本结果；5)通过Gibbs采样迭代确定每一个单词所属主题以及所属细粒度情感；6)通过嵴回归分类确定查询得到的每个文档中各段落表达的粗粒度情感并向用户反馈；7)根据单词所属主题以及单词所表达细粒度情感向用户反馈各个主题和各个细粒度情感中最有代表性单词，以及单词不同特征在表达不同细粒度情感时的不同能力。

【技术特征摘要】
1. 一种基于主题建模的多粒度情感分析方法，其特征在于包括如下步骤： 1) 提取社交媒体文本数据库中所有数据的单词和单词特征； 2) 根据系统自动设定或用户指定的参数，确定建模中所采用的主题数目和细粒度情感数目； 3) 根据给定训练数据，通过Gibbs采样过程得到主题建模和细粒度情感建模的核心模型； 4) 根据用户的查询请求从社交媒体数据库中搜索得到文本结果； 5) 通过Gibbs采样迭代确定每一个单词所属主题以及所属细粒度情感； 6) 通过嵴回归分类确定查询得到的每个文档中各段落表达的粗粒度情感并向用户反馈； 7) 根据单词所属主题以及单词所表达细粒度情感向用户反馈各个主题和各个细粒度情感中最有代表性单词，以及单词不同特征在表达不同细粒度情感时的不同能力。2. 根据权利要求1所述的一种基于主题建模的多粒度情感分析方法，其特征在于所述的提取社交媒体文本数据库中所有数据的单词和单词特征的步骤如下： 1) 采用自然语言处理工具标注每个单词的词性，以得到的词性标注结果作为各单词的特征； 2) 去除其中无用的高频词以及频数过低的生僻词； 3) 统计处理后文本中所有出现过的单词，组成词汇表。3. 根据权利要求1所述的一种基于主题建模的多粒度情感分析方法，其特征在于所述的根据给定训练数据，通过Gibbs采样得到基于主题建模的多粒度情感分析核心模型的步骤如下： 1) 由系统自动设定，或者由用户指定各组Dirichlet分布所需参数α、β和γ，以及嵴回归惩罚项系数λ，并且设定好迭代次数、收敛条件等参数； 2) 对于文本中所包含的每个单词，随机分配K个主题中的一个作为该单词所属主题； 3) 对于文本中所包含的每个单词，随机分配S个细粒度情感中的一个作为该单词所表达的细粒度情感； 4) 在区间[_1，1]内随机初始化嵴回归参数η各分量，设置嵴回归方差〇2初始值为 1 ; 5) 对于各个文本文档d，统计属于各个主题k的单词数nd，k ; 6) 对于各个文本文档d，统计各个段落p中表达细粒度情感s的单词数nd，p，s及文本文档d中具有细粒度情感s的单词总和nd，p ; 7) 对于各个主题k，统计属于细粒度情感s、具有特性t的单词数ntits ; 8) 对于各个主题k，统计属于细粒度情感s、单词为V的数量ns，tv ; 9) 将所有单词、单词特征、单词主题和单词表达的细粒度情感合并为Φ;α、β、Y合并记为Ψ;记ak为ct的第k个分量、βs，v和Yt，s分别为β的{s,ν}组分量和Y的{t,s} 组分量；记\为η的第s个分量；记yip为文档d中段落p表达的粗粒度情感，其在训练数据中已知；按如下概率采样文档d中段落p内的第i个单词所属主题Ziiu和所表达细粒度情感Siiu:式中，符号代表从向量中排除一个分量，下文中采用了相同符号记法； 10) 将所有文档片段（这里是文档段落）表达的粗粒度情感记为向量y，所有文档段落内单词表...

【专利技术属性】
技术研发人员：汤斯亮，邵健，王翰琪，吴飞，庄越挺，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人