当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于主题建模的多粒度情感分析方法技术

技术编号:11214862 阅读:236 留言:0更新日期:2015-03-27 01:53
本发明专利技术公开了一种基于主题建模的多粒度情感分析方法,包括如下步骤:提取社交媒体文本数据库中所有数据的单词和单词特征;训练得到核心模型;根据用户的查询请求从社交媒体文本数据库中得到搜索结果;根据系统自动设定或用户指定的参数,确定主题建模中需要的主题数目和细粒度情感数目;随机地将某个主题和某个细粒度情感分配给每一个单词;计算所有单词所属主题和细粒度情感以及所查询文档表达粗粒度情感,并将结果反馈给用户。本发明专利技术具有的有益效果有:可对社交网络文本数据同时进行主题建模与多粒度情感分析;可在单词特征与单词所表达细粒度情感之间建立起关联度,为用户理解数据提供帮助。

【技术实现步骤摘要】

本专利技术涉及用户情感分析,尤其涉及。
技术介绍
目前,随着互联网架构、存储科技及其他有关技术的发展,各种各样的网络数据飞 速增长。这些数据除了给互联网用户更好的浏览体验和为多媒体检索应用提供了更多的样 本以外,也使得高效组织这些大规模数据成为了一种挑战。为了应对这一挑战,作为通过 隐性主题来聚类媒体数据的典型算法,非监督层次化贝叶斯模型(或称主题模型)被大 量使用,如LDA(隐狄利克雷分配,一种广泛的传统主题模型)及其扩展等。从2003年被提 出直至今日,LDA及其衍生模型已经作为多种主题建模应用的核心算法,被用于解决文档摘 要生成、跨数据集主题建模和文档主题演化等领域,并且在实际使用中发挥了良好的效果。 和传统的基于统计的一些文本归纳方法相比,主题模型在可观测的文档层和单词层间增加 了一个隐含的主题层,并认为文档包含有一个或若干多个主题,每个主题又是不同比例单 词的组合。这一新增加的主题隐含层能让用户更好地理解一篇文档所蕴含语义内容(相当 于为文档数据本身自动添加了诸如体育、社会等一个或多个类别标签),而且对海量数 据能通过主题进行表达而达到降维效果。 在对海量互联网数据处理中,情感分析是随着社交网络的发展与网络用户生成数 据(User Generated Data,例如对电影或者电子产品的感想、对于新闻事件的观点与感受 等)飞速增多而新出现的研究方向。情感分析的基本任务是从用户生成的包含观点和意见 的文本数据中抽取出这些观点和意见,然后实现情感摘要生成、情感分类和情感词典构建 等等情感分析任务。将主题模型应用于情感分析后,能够同时挖掘出数据所包含的用户主 观感受(用户的情感)与客观描述事实(用户评论所涉及到的内容),因此是一种具有高可 行性与研究前景的应用方向。 当前,通过主题建模方法进行用户情感分析的研究工作及应用还不丰富。已经被 提出的核心算法主要有:基于概率隐语义分析模型、将正面(positive)和负面(negative) 两种情感作为主题之外能够产生单词的多项分布的情感主题模型(Topic Sentiment Mixture,TSM);基于隐狄利克雷分配、抽取和聚合不同主题中表达情感的词组或语句的多 侧面情感模型(Multi-aspect Sentiment Model, MAS);以及同样基于隐狄利克雷分配、同 时挖掘数据中情感和主题分布的联合情感主题模型(Joint Sentiment-topic Model, JST) 等。需要指出的是,当前已有的绝大部分情感分析方法着眼于在粗粒度上对用户情感进 行分析,即认为用户生成数据中的每一个词都表达正面、负面或中立这三种粗粒度情感中 的一种。但是,实际中大部分用户生成数据尽管可在段落或文档层面进行粗粒度情感分析 与判别,但其中一些单词会表达细粒度情感(如喜悦、感动、悲伤等)。如何对用户 产生数据进行多粒度情感分析是当前情感分析研究领域和应用开发领域的难点与热点。
技术实现思路
本专利技术的目的是克服现有技术的不足,提供一种基于主题建模的多粒度情感分析 方法。 基于主题建模的多粒度情感分析方法包括如下步骤: 1)提取社交媒体文本数据库中所有数据的单词和单词特征; 2)根据系统自动设定或用户指定的参数,确定建模中所采用的主题数目和细粒度 情感数目; 3)根据给定训练数据,通过Gibbs采样过程得到主题建模和细粒度情感建模的核 心模型; 4)根据用户的查询请求从社交媒体数据库中搜索得到文本结果; 5)通过Gibbs采样迭代确定每一个单词所属主题以及所属细粒度情感; 6)通过嵴回归分类确定查询得到的每个文档中各段落表达的粗粒度情感并向用 户反馈; 7)根据单词所属主题以及单词所表达细粒度情感向用户反馈各个主题和各个细 粒度情感中最有代表性单词,以及单词不同特征在表达不同细粒度情感时的不同能力。 所述的提取社交媒体文本数据库中所有数据的单词和单词特征的步骤如下: 1)采用自然语言处理工具标注每个单词的词性,以得到的词性标注结果作为各单 词的特征; 2)去除其中无用的高频词以及频数过低的生僻词; 3)统计处理后文本中所有出现过的单词,组成词汇表。 所述的根据给定训练数据,通过Gibbs采样得到基于主题建模的多粒度情感分析 核心模型的步骤如下: 1)由系统自动设定,或者由用户指定各组Dirichlet分布所需参数α、β和Y, 以及嵴回归惩罚项系数λ,并且设定好迭代次数、收敛条件等参数; 2)对于文本中所包含的每个单词,随机分配K个主题中的一个作为该单词所属主 题; 3)对于文本中所包含的每个单词,随机分配S个细粒度情感中的一个作为该单词 所表达的细粒度情感; 4)在区间[-1,1]内随机初始化嵴回归参数η各分量,设置嵴回归方差〇2初始 值为1 ; 5)对于各个文本文档d,统计属于各个主题k的单词数nd,k ; 6)对于各个文本文档d,统计各个段落p中表达细粒度情感s的单词数nd, p,s及文 本文档d中具有细粒度情感s的单词总和nd,p ; 7)对于各个主题k,统计属于细粒度情感s、具有特性t的单词数; 8)对于各个主题k,统计属于细粒度情感s、单词为V的数量ns,k, v; 9)将所有单词、单词特征、单词主题和单词表达的细粒度情感合并为Φ ; α、β、 Y合并记为Ψ ;记4为α的第k个分量、3S,V和'3分别为β的{s,v}组分量和Y 的It, s}组分量;记η s为η的第s个分量;记yd,p为文档d中段落p表达的粗粒度情感, 其在训练数据中已知;按如下概率采样文档d中段落p内的第i个单词所属主题Z iiu和所 表达细粒度情感8(1^ :本文档来自技高网
...
一种基于主题建模的多粒度情感分析方法

【技术保护点】
一种基于主题建模的多粒度情感分析方法,其特征在于包括如下步骤:1)提取社交媒体文本数据库中所有数据的单词和单词特征;2)根据系统自动设定或用户指定的参数,确定建模中所采用的主题数目和细粒度情感数目;3)根据给定训练数据,通过Gibbs采样过程得到主题建模和细粒度情感建模的核心模型;4)根据用户的查询请求从社交媒体数据库中搜索得到文本结果;5)通过Gibbs采样迭代确定每一个单词所属主题以及所属细粒度情感;6)通过嵴回归分类确定查询得到的每个文档中各段落表达的粗粒度情感并向用户反馈;7)根据单词所属主题以及单词所表达细粒度情感向用户反馈各个主题和各个细粒度情感中最有代表性单词,以及单词不同特征在表达不同细粒度情感时的不同能力。

【技术特征摘要】
1. 一种基于主题建模的多粒度情感分析方法,其特征在于包括如下步骤: 1) 提取社交媒体文本数据库中所有数据的单词和单词特征; 2) 根据系统自动设定或用户指定的参数,确定建模中所采用的主题数目和细粒度情感 数目; 3) 根据给定训练数据,通过Gibbs采样过程得到主题建模和细粒度情感建模的核心模 型; 4) 根据用户的查询请求从社交媒体数据库中搜索得到文本结果; 5) 通过Gibbs采样迭代确定每一个单词所属主题以及所属细粒度情感; 6) 通过嵴回归分类确定查询得到的每个文档中各段落表达的粗粒度情感并向用户反 馈; 7) 根据单词所属主题以及单词所表达细粒度情感向用户反馈各个主题和各个细粒度 情感中最有代表性单词,以及单词不同特征在表达不同细粒度情感时的不同能力。2. 根据权利要求1所述的一种基于主题建模的多粒度情感分析方法,其特征在于所述 的提取社交媒体文本数据库中所有数据的单词和单词特征的步骤如下: 1) 采用自然语言处理工具标注每个单词的词性,以得到的词性标注结果作为各单词的 特征; 2) 去除其中无用的高频词以及频数过低的生僻词; 3) 统计处理后文本中所有出现过的单词,组成词汇表。3. 根据权利要求1所述的一种基于主题建模的多粒度情感分析方法,其特征在于所述 的根据给定训练数据,通过Gibbs采样得到基于主题建模的多粒度情感分析核心模型的步 骤如下: 1) 由系统自动设定,或者由用户指定各组Dirichlet分布所需参数α、β和γ,以及 嵴回归惩罚项系数λ,并且设定好迭代次数、收敛条件等参数; 2) 对于文本中所包含的每个单词,随机分配K个主题中的一个作为该单词所属主题; 3) 对于文本中所包含的每个单词,随机分配S个细粒度情感中的一个作为该单词所表 达的细粒度情感; 4) 在区间[_1,1]内随机初始化嵴回归参数η各分量,设置嵴回归方差〇2初始值为 1 ; 5) 对于各个文本文档d,统计属于各个主题k的单词数nd,k ; 6) 对于各个文本文档d,统计各个段落p中表达细粒度情感s的单词数nd,p,s及文本文 档d中具有细粒度情感s的单词总和nd,p ; 7) 对于各个主题k,统计属于细粒度情感s、具有特性t的单词数ntits ; 8) 对于各个主题k,统计属于细粒度情感s、单词为V的数量ns,tv ; 9) 将所有单词、单词特征、单词主题和单词表达的细粒度情感合并为Φ;α、β、Y合 并记为Ψ;记ak为ct的第k个分量、βs,v和Yt,s分别为β的{s,ν}组分量和Y的{t,s} 组分量;记\为η的第s个分量;记yip为文档d中段落p表达的粗粒度情感,其在训练 数据中已知;按如下概率采样文档d中段落p内的第i个单词所属主题Ziiu和所表达细粒 度情感Siiu:式中,符号代表从向量中排除一个分量,下文中采用了相同符号记法; 10) 将所有文档片段(这里是文档段落)表达的粗粒度情感记为向量y,所有文档段落 内单词表...

【专利技术属性】
技术研发人员:汤斯亮邵健王翰琪吴飞庄越挺
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1