【技术实现步骤摘要】
本专利技术涉及用户情感分析,尤其涉及。
技术介绍
目前,随着互联网架构、存储科技及其他有关技术的发展,各种各样的网络数据飞 速增长。这些数据除了给互联网用户更好的浏览体验和为多媒体检索应用提供了更多的样 本以外,也使得高效组织这些大规模数据成为了一种挑战。为了应对这一挑战,作为通过 隐性主题来聚类媒体数据的典型算法,非监督层次化贝叶斯模型(或称主题模型)被大 量使用,如LDA(隐狄利克雷分配,一种广泛的传统主题模型)及其扩展等。从2003年被提 出直至今日,LDA及其衍生模型已经作为多种主题建模应用的核心算法,被用于解决文档摘 要生成、跨数据集主题建模和文档主题演化等领域,并且在实际使用中发挥了良好的效果。 和传统的基于统计的一些文本归纳方法相比,主题模型在可观测的文档层和单词层间增加 了一个隐含的主题层,并认为文档包含有一个或若干多个主题,每个主题又是不同比例单 词的组合。这一新增加的主题隐含层能让用户更好地理解一篇文档所蕴含语义内容(相当 于为文档数据本身自动添加了诸如体育、社会等一个或多个类别标签),而且对海量数 据能通过主题进行表达而达到降维效果。 在对海量互联网数据处理中,情感分析是随着社交网络的发展与网络用户生成数 据(User Generated Data,例如对电影或者电子产品的感想、对于新闻事件的观点与感受 等)飞速增多而新出现的研究方向。情感分析的基本任务是从用户生成的包含观点和意见 的文本数据中抽取出这些观点和意见,然后实现情感摘要生成、情感分类和情感词典构建 等等情感分析任务。将主题模型应用于情感分 ...
【技术保护点】
一种基于主题建模的多粒度情感分析方法,其特征在于包括如下步骤:1)提取社交媒体文本数据库中所有数据的单词和单词特征;2)根据系统自动设定或用户指定的参数,确定建模中所采用的主题数目和细粒度情感数目;3)根据给定训练数据,通过Gibbs采样过程得到主题建模和细粒度情感建模的核心模型;4)根据用户的查询请求从社交媒体数据库中搜索得到文本结果;5)通过Gibbs采样迭代确定每一个单词所属主题以及所属细粒度情感;6)通过嵴回归分类确定查询得到的每个文档中各段落表达的粗粒度情感并向用户反馈;7)根据单词所属主题以及单词所表达细粒度情感向用户反馈各个主题和各个细粒度情感中最有代表性单词,以及单词不同特征在表达不同细粒度情感时的不同能力。
【技术特征摘要】
1. 一种基于主题建模的多粒度情感分析方法,其特征在于包括如下步骤: 1) 提取社交媒体文本数据库中所有数据的单词和单词特征; 2) 根据系统自动设定或用户指定的参数,确定建模中所采用的主题数目和细粒度情感 数目; 3) 根据给定训练数据,通过Gibbs采样过程得到主题建模和细粒度情感建模的核心模 型; 4) 根据用户的查询请求从社交媒体数据库中搜索得到文本结果; 5) 通过Gibbs采样迭代确定每一个单词所属主题以及所属细粒度情感; 6) 通过嵴回归分类确定查询得到的每个文档中各段落表达的粗粒度情感并向用户反 馈; 7) 根据单词所属主题以及单词所表达细粒度情感向用户反馈各个主题和各个细粒度 情感中最有代表性单词,以及单词不同特征在表达不同细粒度情感时的不同能力。2. 根据权利要求1所述的一种基于主题建模的多粒度情感分析方法,其特征在于所述 的提取社交媒体文本数据库中所有数据的单词和单词特征的步骤如下: 1) 采用自然语言处理工具标注每个单词的词性,以得到的词性标注结果作为各单词的 特征; 2) 去除其中无用的高频词以及频数过低的生僻词; 3) 统计处理后文本中所有出现过的单词,组成词汇表。3. 根据权利要求1所述的一种基于主题建模的多粒度情感分析方法,其特征在于所述 的根据给定训练数据,通过Gibbs采样得到基于主题建模的多粒度情感分析核心模型的步 骤如下: 1) 由系统自动设定,或者由用户指定各组Dirichlet分布所需参数α、β和γ,以及 嵴回归惩罚项系数λ,并且设定好迭代次数、收敛条件等参数; 2) 对于文本中所包含的每个单词,随机分配K个主题中的一个作为该单词所属主题; 3) 对于文本中所包含的每个单词,随机分配S个细粒度情感中的一个作为该单词所表 达的细粒度情感; 4) 在区间[_1,1]内随机初始化嵴回归参数η各分量,设置嵴回归方差〇2初始值为 1 ; 5) 对于各个文本文档d,统计属于各个主题k的单词数nd,k ; 6) 对于各个文本文档d,统计各个段落p中表达细粒度情感s的单词数nd,p,s及文本文 档d中具有细粒度情感s的单词总和nd,p ; 7) 对于各个主题k,统计属于细粒度情感s、具有特性t的单词数ntits ; 8) 对于各个主题k,统计属于细粒度情感s、单词为V的数量ns,tv ; 9) 将所有单词、单词特征、单词主题和单词表达的细粒度情感合并为Φ;α、β、Y合 并记为Ψ;记ak为ct的第k个分量、βs,v和Yt,s分别为β的{s,ν}组分量和Y的{t,s} 组分量;记\为η的第s个分量;记yip为文档d中段落p表达的粗粒度情感,其在训练 数据中已知;按如下概率采样文档d中段落p内的第i个单词所属主题Ziiu和所表达细粒 度情感Siiu:式中,符号代表从向量中排除一个分量,下文中采用了相同符号记法; 10) 将所有文档片段(这里是文档段落)表达的粗粒度情感记为向量y,所有文档段落 内单词表...
【专利技术属性】
技术研发人员:汤斯亮,邵健,王翰琪,吴飞,庄越挺,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。