【技术实现步骤摘要】
融合表情符号库和主题模型的方面观点褒贬态度挖掘方法
本专利技术涉及人工智能
,尤其涉及一种融合表情符号库和主题模型的方面观点褒贬态度挖掘方法。
技术介绍
微博2.0是最受欢迎的应用之一,它给予用户更自由、更快捷的方式来沟通信息、表达观点、记录心情,使得新浪微博每日更新的信息数据非常庞大,增加了微博内容的方面及基于方面的观点挖掘的难度。近年来,以LDA为基础的主题模型能有效地避免传统无监督学习方法依赖情感词典的缺点,达到较好的挖掘效果。新浪微博中,每条原创微博下存在很多用户评论。有些用户表达自己对原创微博内容的褒贬态度倾向,有些用户则是阅读过原创微博内容后有感而发,写下表达自己个人观点的评论。这些评论反映了原创微博的内容,用户的褒贬态度和一些相关的话题。因此,对这些评论进行方面观点的提取和褒贬态度的挖掘是很有必要的,因此,对原创微博及其评论集进行方面观点的提取和褒贬态度的挖掘是很有必要的。事实上,微博评论提供的细粒度的信息同样会受到广大用户阅读时的重点关注,同时也更加值得研究者们进一步去挖掘、分析与总结。因此,面对新浪微博中海量的原创微博及其评论信息,需要一种 ...
【技术保护点】
1.一种融合表情符号库和主题模型的方面观点褒贬态度挖掘方法,其特征在于包括如下步骤:步骤1)对原创微博内容及评论进行预处理,提取评论语句的当中的名词和名词短语作为该评论的方面,提取形容词及形容词短语、动词及动词短语作为基于方面的观点词语信息,计算原创微博及评论中的方面之间的相似度矩阵,通过谱聚类算法得到与原创微博方面相关的显式方面集与与原创微博方面不相关的隐式方面集;步骤2)构建融合表情符号库与主题模型的方面观点褒贬态度的挖掘模型MAOEC,通过MAOEC模型产生微博评论集,并用吉布斯采样方法进行参数估计,得到MAOEC模型的参数分布;步骤3)结合显式方面集、隐式方面集以及 ...
【技术特征摘要】
1.一种融合表情符号库和主题模型的方面观点褒贬态度挖掘方法,其特征在于包括如下步骤:步骤1)对原创微博内容及评论进行预处理,提取评论语句的当中的名词和名词短语作为该评论的方面,提取形容词及形容词短语、动词及动词短语作为基于方面的观点词语信息,计算原创微博及评论中的方面之间的相似度矩阵,通过谱聚类算法得到与原创微博方面相关的显式方面集与与原创微博方面不相关的隐式方面集;步骤2)构建融合表情符号库与主题模型的方面观点褒贬态度的挖掘模型MAOEC,通过MAOEC模型产生微博评论集,并用吉布斯采样方法进行参数估计,得到MAOEC模型的参数分布;步骤3)结合显式方面集、隐式方面集以及MAOEC模型的参数分布对微博评论进行褒贬态度分析,得到每条用户评论对原创微博内容的褒贬态度倾向。2.根据权利要求1所述的融合表情符号库和主题模型的方面观点褒贬态度挖掘方法,其特征在于所述步骤1)中的所述预处理为:基于中科院NLPIR汉语分词系统,对原创微博的内容及评论进行分词和词性标注,保留名词及名词短语、动词及动词短语、形容词及形容词短语以及表情符号的文本描述,并且去除停用词。3.根据权利要求1所述的融合表情符号库和主题模型的方面观点褒贬态度挖掘方法,其特征在于所述显式方面集表示与原创微博方面相关的评论方面的集合;所述隐式方面集表示存在于评论当中的与原创微博方面不相关的集合。4.根据权利要求3所述的融合表情符号库和主题模型的方面观点褒贬态度挖掘方法,其特征在于步骤1)中通过谱聚类算法得到与原创微博方面相关的显式方面集和与原创微博方面不相关的隐式方面集,具体包括如下步骤:步骤2-1)计算方面数n,设置簇的数目k;步骤2-2)使用杰卡德相似系数计算名方面之间的字符相似度,使用余弦相似度计算方面之间的情景相似度,结合字符相似度与情景相似度的值求的方面之间的相似度矩阵W与度矩阵D;步骤2-3)根据式(1)计算正则拉普拉斯矩阵Lrw;Lrw=D-1(D-W)(1)步骤2-4)计算Lrw的前k个特征向量u1,u2,...,uk,将这k个列向量组成矩阵U,U是一个n行k列的矩阵;步骤2-5)对于i=1,2,...,n,设定yi∈Rk是U的第i行的列向量,通过k-means算法将(yi)i=1,2,...,n聚类成簇c1,c2,...,ck,输出簇A1,A2,...,Ak,其中Ai={j|yj∈Ci};步骤2-6)基于步骤2-5)得到的结果,将与原创微博方面相关的其他方面簇加入显式方面集,否则加入隐式方面集。5.根据权利要求1所述的融合表情符号库和主题模型的方面观点褒贬态度挖掘方法,其特征在于步骤2)中所述挖掘模型在MAOEC通过主题模型LDA;参数估计中的参数分布包括:微博评论-表情符号分布,(微博评论,表情符号情感)-文本情感分布,(微博评论,表情符号情感,文本情感)-主题分布以及(表情符号情感,文本情感,主题)-词语分布。6.根据权利要求5所述的融合表情符号库和主题模型的方面观点褒贬态度挖掘方法,其特征在于所述步骤2)中所述MAOEC模型产生微博评论集S={s1,s2,...,sM}的具体步骤如下:步骤2-a)初始化MAOEC的分布:微博评论-表情符号情感分布V,(微博评论,表情符号情感)-文本情感分布E,(微博评论,表情符号情感,文本情感)-主题分布A与(表情符号情感,文本情感,主题)-词语分布B;步骤2-b)MAOEC模型概率生成评论集S的过程为:首先,从微博评论-表情符号情感分布V中选择表情符号情感q,V服从参数为μ的Dirichlet分布;接着从(微博评论,表情符号情感)-文本情感分布E中选择情感e,E服从参数为λ的Dirichlet分布;根据(微博评论,表情符号情感,文本情感)-主题分布A选出主题t,A服从参数为α的Dirichlet分布;最后,从(表情符号情感...
【专利技术属性】
技术研发人员:张士兵,张茜,张晓格,
申请(专利权)人:南通大学,南通先进通信技术研究院有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。