一种基于无监督的长短影评细粒度观点挖掘方法技术

技术编号:30788902 阅读:72 留言:0更新日期:2021-11-16 07:51
本发明专利技术公开了一种基于无监督的长短影评细粒度观点挖掘方法,其特征在于:1)从社交平台和电影平台进行多维度的影评文本信息获取;2)基于开源中文情感词典,采用SO

【技术实现步骤摘要】
一种基于无监督的长短影评细粒度观点挖掘方法


[0001]本专利技术涉及中文文本情感分析领域,具体涉及一种基于无监督的长短影评 细粒度观点挖掘方法。

技术介绍

[0002]近年来,互联网作为一个聚集了海量主观性文本的平台,已经成为决策支 持的一个具有极其重要价值的资源。在电影领域,网络平台上的影评数量占了 电影影评的绝大部分,这些影评文本反映了用户对电影及其特征属性的观点看 法和情感态度,具有巨大的潜在价值,如何从海量的网络影评文本中挖掘细粒 度的评价对象和对应观点成为该领域的一大挑战。能够精准的挖掘出影评中细 粒度观点,是对该领域提供决策支持和导向的现实需要。
[0003]针对中文电影评论语料的观点挖掘研究,常见的方法有基于词频的方法、 基于语言规则的方法以及基于监督学习的方法,其中基于词频方法的最大优点 就是简洁有效,但该方法也有其局限性,即使用该方法可能产生太多的非频繁 方面词,还可能遗漏低频的方面词,并且需要人工调整各种参数等;基于语言 规则的方法改进了基于频率的方法在处理低频方面词上的局限性,但同时也会 产生许多不相关的方面观点本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于无监督的长短影评细粒度观点挖掘方法,其特征在于,包括以下步骤:步骤1,影评文本数据采集:以社交网络平台和在线电影社区平台的历史数据为数据源,获取热门电影的评论文本信息、评论电影评分信息和评论文本投票数,根据影评的长短,分别得到由n部电影组成的短影评集合M
S
={m
s1
,m
s2
,...,m
si
...,m
sn
}以及长影评集合M
l
={m
l1
,m
l2
,...,m
li
...,m
ln
},其中,m
si
表示第i部电影的短影评集合,m
li
表是第i部电影的长影评集合;步骤2,情感词典的构建:将开源的中文情感词典作为基准情感词典,根据从基准情感词典中选出的在步骤1采集的影评数据中出现次数最多的正面和负面情感词,采用情感词典扩展方法,在影评文本中识别出在情感词典中没有出现过的观点词并判断其情感倾向,最终构建出一个适用于影评文本的情感词典D={w
positive
,w
negative
},其中,w
positive
表示正面情感词,w
negative
表示负面情感词;步骤3,短影评评价对象识别:针对从步骤1所构建的短影评集合,挖掘出全部电影短影评数据中共有的全局评价对象和每部电影影评独有的个性化评价对象,利用词向量模型扩展出上下文语义相似的词补充到全局评价对象和个性化评价对象,再通过机器学习聚类算法将表达形式不同但意义相近的评价对象词归为同一类,形成完整的全局评价对象和个性化评价对象,结合两者生成每部电影的短影评评价对象;步骤4,长影评评价对象识别:针对从步骤1所构建的长影评集合,采用主题模型LDA的变种模型多粒度LDA发现长影评的主题以及每个主题下的词分布,再结合词向量模型进一步发现具有大于设定语义相似性的词,从而获取每部电影的长影评评价对象;步骤5,细粒度观点挖掘分析:将步骤2所采集的影评文本数据的情感词典,分别应用在步骤3所获取的短影评评价对象与步骤4所获取的长影评评价对象,提取细粒度观点并对其进行分析统计,结合影评的电影评分数和该影评的推荐数,形成影评观点摘要。2.根据权利要求1中所述的基于无监督的长短影评细粒度观点挖掘方法,其特征在于,所述步骤1影评文本数据采集中,通过对不同社交网络平台和在线电影社区平台,利用网络爬虫或网站提供的应用程序接口进行长短影评的爬取,每条影评获取的内容包括:(1)评论文本信息:获取评论正文文本以及评论发布时间;(2)评论电影评分信息:获取用户对电影的评分或者推荐数;(3)评论文本投票数:获取该条评论的点赞数或者赞同数;将获取的影评进行数据预处理,根据影评的长短,分别得到短影评集合M
S
和长影评集合M
l
。3.根据权利要求2中所述的基于无监督的长短影评细粒度观点挖掘方法,其特征在于,所述数据预处理包括文本去重、分句、分词、词性标注以及去停用词。4.根据权利要求1中所述的基于无监督的长短影评细粒度观点挖掘方法,其特征在于,所述步骤2情感词典构建中,主要包括:(1)获取基础情感词典:将知网(HowNet)情感词典、台湾大学简体中文情感极性词典以及清华大学中文褒贬义词典合并去重,生成基础情感词典;(2)基础情感词典扩展:将采用情感点互信息算法提取出的步骤1所采集的若干影评语料作为情感词扩展到所述基础情感词典中,情感点互信息值SOPMI(c
i
)的计算公式为:
其中,从基础情感词典中取出k个正面情感种子词w
positive
={p1,p2,...,p
j
...,p
k
}和k个负面情感种子词w
negative
={r1,r2,...,r
j
...,r
k
},p
j
是第j个正面情感种子词,r
j
是第j个负面情感种子词,c
i
是从步骤1的影评文本数据获取的候选情感词,i=1,2,...,k,count(c
i
,p
j
)为c
i
与p
j
在影评文本中共现的句子数,count(c
i
,r
j
)为c
i
与r
j
在影评文本中共现的句子数,当SOPMI(c
i
)>0时,c
i
为正面情感词;SOPMI(c
i
)<0时,c
i
为负面情感词;SOPMI(c
i
)=0时,c
i
为中性词,将候选情感词c
i
按照情感点互信息值扩展到基础情感词典中,构建情感词典D。5.根据权利要求1中所述的基于无监督的长短影评细粒度观点挖掘方法,其特征在于,所述步骤3包括:(1)用FP

growth算法进行关联规则挖掘;(2)采用w...

【专利技术属性】
技术研发人员:秦涛刘炉林刘博豪李悦史镇光靳国庆
申请(专利权)人:人民网股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1