当前位置: 首页 > 专利查询>上海大学专利>正文

一种基于主题模型的在线评论情感挖掘方法技术

技术编号:23363528 阅读:45 留言:0更新日期:2020-02-18 17:29
本发明专利技术公开了一种基于主题模型的在线评论情感挖掘方法。该方法具体步骤如下:(1)输入任意领域中的在线评论文本集;(2)从评论文本集中为每篇文本抽取文本方面意见对,构建文本‑方面意见对矩阵;(3)构建情感主题模型;(4)将文本‑方面意见对矩阵输入情感主题模型进行训练;(5)输出评论文本情感挖掘结果。该方法通过采用抽取评论文本方面意见对代替传统的词汇作为主题模型输入的方法,解决了属性词和观点词混杂、单一词汇情感模糊的问题,提高了评论文本情感分析的准确性和可解释性;同时降低了文本表示的维度,削减了模型计算时间;该方法简便易操作,效果好。

An online sentiment mining method based on topic model

【技术实现步骤摘要】
一种基于主题模型的在线评论情感挖掘方法
本专利技术涉及信息抽取中事件抽取领域,具体是涉及一种基于主题模型的在线评论情感挖掘方法。
技术介绍
目前,许多研究者通过结合情感层来扩展主题模型(LDA,LatentDirichletAllocation)的方法来分析文本情感,将文本表示成一个词袋,词袋由文本中的词汇构成。基于LDA的主题模型能够在一定程度上有效地挖掘文本的情感。使用传统的主题模型扩展的方式挖掘文本情感时,存在以下不足:(1)把文本看成词袋,忽略了词汇之间的依赖关系,这样就损失了大量的文本语义;(2)将文本表示成词汇的集合,使得模型输入维度过高,计算费时。
技术实现思路
本专利技术的目的在于针对传统的主题模型扩展方法挖掘文本情感的不足,提供一种基于主题模型的在线评论情感挖掘方法。采用抽取评论文本方面意见对代替传统的词汇作为主题模型扩展模型输入的方法,解决了属性词和观点词混杂、单一词汇情感模糊的问题,提高了评论文本情感分析的准确性和可解释性;同时降低了文本表示的维度,削减了模型计算时间。>为了达到上述的目的本文档来自技高网...

【技术保护点】
1.一种基于主题模型的在线评论情感挖掘方法,其特征在于,具体步骤如下:/n(1)输入任意领域中的在线评论文本集;/n(2)从评论文本集中为每篇文本抽取文本方面意见对,构建文本-方面意见对矩阵;/n(3)构建情感主题模型;/n(4)将文本-方面意见对矩阵输入情感主题模型进行训练;/n(5)输出评论文本情感挖掘结果。/n

【技术特征摘要】
1.一种基于主题模型的在线评论情感挖掘方法,其特征在于,具体步骤如下:
(1)输入任意领域中的在线评论文本集;
(2)从评论文本集中为每篇文本抽取文本方面意见对,构建文本-方面意见对矩阵;
(3)构建情感主题模型;
(4)将文本-方面意见对矩阵输入情感主题模型进行训练;
(5)输出评论文本情感挖掘结果。


2.根据权利要求1所述的基于主题模型的在线评论情感挖掘方法,其特征在于,所述步骤(2)中的抽取文本方面意见对,其过程如下:
(2-1)、将评论文本集中每篇评论文本按标点符号分割成评论单元,并采用分词工具对每一个评论单元分词、词性标注、去停用词,副词一般用来修饰形容词或动词,因此将副词与其修饰的部分合并成一个整体,然后将整体的词性注释为被修饰语的词性;
(2-2)、按词性匹配模式对每个评论单元进行模式匹配,抽取方面意见对,将每篇评论文本转变成方面意见对的集合,并形成方面意见对词对表;
(2-3)、方面意见对词对表中每一项使用关联强度计算公式计算其关联强度,再根据关联强度降序排列方面意见对项,取TopN个方面意见对项,形成文本-方面意见对矩阵;方面意见对的关联强度计算公式如下:



其中,Co(wi,wj)代表关键词wi和wj在评论文本抽取单元集合中的共现次数,DF(wi)与DF(wj)分别代表wi和wj在方面意见对集合中的词频。


3.根据权利要求1所述的基于主题模型的在线评论情感挖掘方法,其特征在于,所述步骤(3)的情感主题模型,其构建过程如下:
(3-1)、基于狄利克雷超参α生成语料库的主题分布的多项式参数θ;其中α是θ所服从的狄利克雷分布的参数;
(3-2)、基于狄利克雷超参β生成语料库的第k个主题第e个情感下词对分布的多项式参数其中β是所服从的狄利克雷分布的参数,k、e均为正整数;
(3-3)、基于狄利克雷超参γ生成语料库的第k个主题的情...

【专利技术属性】
技术研发人员:骆祥峰黄敬易亚雯
申请(专利权)人:上海大学阿里巴巴集团控股有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1