当前位置: 首页 > 专利查询>南开大学专利>正文

跨领域跨类别的新闻评论情绪预测方法技术

技术编号:10802671 阅读:71 留言:0更新日期:2014-12-24 10:07
本发明专利技术提出了一种跨领域跨类别的新闻评论情绪预测方法。本发明专利技术公开的方法,是在目标领域只有少量的标注数据而在另一相关但不相同的源领域拥有大量的标注数据条件下,通过模拟源领域和目标领域情绪类别集合间关系,实现不同领域间的知识迁移,构建跨领域跨类别的新闻评论情绪预测模型,从而解决目标领域新闻评论的情绪预测问题。在源领域与目标领域为不同情绪类别集合情境下,本发明专利技术的方法显著地优于其他跨领域跨类别在线新闻评论的情绪预测的替代方法,并且极大降低人工标注工作的高昂代价和训练更多分类模型所耗费的精力。本发明专利技术可用于用户情感分析和舆情监督。

【技术实现步骤摘要】
【专利摘要】本专利技术提出了一种。本专利技术公开的方法,是在目标领域只有少量的标注数据而在另一相关但不相同的源领域拥有大量的标注数据条件下,通过模拟源领域和目标领域情绪类别集合间关系,实现不同领域间的知识迁移,构建跨领域跨类别的新闻评论情绪预测模型,从而解决目标领域新闻评论的情绪预测问题。在源领域与目标领域为不同情绪类别集合情境下,本专利技术的方法显著地优于其他跨领域跨类别在线新闻评论的情绪预测的替代方法,并且极大降低人工标注工作的高昂代价和训练更多分类模型所耗费的精力。本专利技术可用于用户情感分析和舆情监督。【专利说明】
本专利技术属于web信息检索与挖掘领域,具体涉及异构新闻内容,评论内容,用户情 感等多种信息源,对在线新闻评论情绪进行预测的方法。
技术介绍
近年来,随着信息检索、机器学习、自然语言处理领域的快速发展,文本挖掘和情 感分析问题引起了研究者的广泛关注。基于监督学习的情感分类方法纷纷涌现,成为了情 感分析中的研究热点。如何建立一个在多领域通用的新闻评论情感预测方法,利用一个领 域的知识帮助其他领域分类模型的学习,是一个亟待解决的问题。以下将多类情绪划分的 情绪分类问题称为"情绪分类(emotion classification) ",区别于二类情感极性划分的"情 感倾向性分类"。 情感分析需要在当前领域充足的训练数据集建立分类器,但是这往往需要大量的 人工标注工作,这种标注工作劳动强度大,十分耗时且代价高昂。因此,为了降低人工标注 工作的高昂代价和训练更多分类模型所耗费的精力,构建跨领域的情感分类方法,用某一 领域的标注的训练数据集来帮助另一相关但不相同、仅有少量标注的训练数据集的其他领 域进行情感分析,具有重要研究意义和应用价值。 跨领域(cross-domain)情感分类问题包括跨领域的情绪分类、跨领域的情感倾 向性分类和跨领域跨类别(cross-category)的情感分类问题,其中,跨领域跨类别的情感 分类问题是在源领域(source domain)和目标领域(target domain)采用不同的多类情绪 类别集合,或是一个领域采用情感倾向性类别集合,而另一领域采用多类情绪类别集合的 情境下进行跨领域情绪预测。 迁移学习(transfer learning)技术是解决这个问题的常用手段,将相关领域 (源领域)知识迁移至目标领域,来帮助目标领域分类模型的学习。有研究者将两个不同领 域中具有良好主观识别性的特征作为领域独立的特征来实现领域迁移,并利用电影评论和 产品评论数据对其方法进行验证。SCL算法是一种迁移学习的高效方法,采用了领域适应技 术来解决情感分析问题。SCL算法基于AS0优化技术的特征表示知识迁移学习方法,利用源 领域和目标领域的未标注数据抽取在两个领域经常出现且表现相同的支点特征,然后模拟 支点特征和其他特征的相关性,并利用相关性信息确定一些新的共享特征,以降低领域间 数据分布的差异。但是,即使加入这些新的特征,数据分布差异的问题仍然存在于原始的特 征空间上。另外,SCL算法的性能很大程度上取决于支点特征选择的优劣,因此常常达不到 很好的效果。 此外,大量的情感分析工作多是基于二类情感倾向性的分析,不能直接应用于多 类情绪分类问题。另外,根据源领域和目标领域是否共享相同情绪类别,现存的迁移学习技 术局限于在任务/领域共享相同的情绪类别条件下实现知识迁移,不同领域使用不同情绪 类别的情境是已有方法所不能解决的。而本专利技术是首次将跨领域情感分析问题扩展到跨情 绪类别的情景中,用以解决更为实际的在不同情绪类别下不同领域的情感分析问题。
技术实现思路
本专利技术的目的是解决有着不同情绪类别的相关但不相同的两个领域中的新闻评 论情绪预测问题,提出一种。 本专利技术针对现有技术中的问题,采用机器学习技术,创新性地提出跨领域跨类别 的新闻评论情绪预测方法,极大降低了人工标注工作的高昂代价和训练更多分类模型所耗 费的精力,解决其他方法无法解决的不同情绪类别情景下的跨领域情感分析问题。 本专利技术提出的,包括如下步骤: 第1、对跨领域新闻评论情绪预测问题进行形式化描述 定义1 :源领域(source domain)和目标领域(target domain)分别为Ds和DT ; 定义2 :源领域和目标领域的情绪类别标签集合分别为Es和ET : 【权利要求】1.,包括如下步骤: 第1、对跨领域新闻评论情绪预测问题进行形式化描述 定义1 :源领域(sourcedomain)和目标领域(targetdomain)分别为Dj^PDt ; 定义2 :源领域和目标领域的情绪类别标签集合分别为Es和Et : = (es,IeS2^"'<esKg) (1. 1) Et - {eTi,eT^,· · ·,eT^} (I. 2) 其中,4££、,/ = 1,2,_\心代表源领域%的新闻评论中可能表达的用户情绪类别标 签,e尽,h:l,2,···,^代表Dt的新闻评论中可能表达的用户情绪类别标签,匕构成了该 目标领域新闻评论情绪分类问题的输出空间; 定义3 :源领域Ds中的新闻评论文档集合Cs,其新闻评论的数量充足;目标领域Dt中的 新闻评论文档集合Ct,其新闻评论的数量相对较小: Cs^{c^\cf,-,4M)} (1. 3) c =?41),42^···,4Λ〇} (i.4) 定义4 :向量χ?Rn为新闻评论eCs的特征向量,向量# 为新闻评论CV的特征构成特征向量: χ1/)={χ《),4,···,4:)} (1.5) X卜{4:),4:),-.-,?)} (1.6) 其中,表示评论的第j个特征,Xf表示新闻评论的第j个特征; 定义5 :向量>^为对应的新闻评论4° 的标注,用来表示评论4°表达的情绪, ^ = (1.7) 如果新闻评论4°标注的情绪是类%e馬,/ = 1二…,/^则#中项el,2,···,[可 表示为 a)f1?r-l -'=!〇,"/ (ι·8) 定义6:向量#为对应的新闻评论4°eCV的标注,用来表示评论4°表达的情绪, Jr0 ··} (1· 9) 如果新闻评论4°标注的情绪是类^ε^,α=1,2,_?,则#中项 可表示为 ^)=trZkkd·1。) 定义7 :在目标领域Dt中,用于情绪预测模型训练的标注数据集有N,0 <N,条新闻和 相应的情绪类别标签,可表示为 杯={(xpMKxfvo,…(?· 11) 定义8 :源领域Ds中,用于情绪预测模型训练的标注数据集有M,0彡N<<M,条新闻 和相应的情绪类别标签,可表示为 化={(4?,(42),乂2)),···(ΟΓ)} (I- 12) 第2、构建利用情绪间依赖关系实现知识迁移的模型 定义9 :ω= {ω1;ω2,…,ωκ}为情绪的权重向量,CO1 = {ω11;ω12,…,ω1η,bjeRn+1 为情绪%的权值向量参数,= {c〇kl,c〇k2,…,Coki^bJeRn+1为对应情绪ek的权值向量 参数; 定义10 :攻1是源领域Ds的标注训练集中一个训练样本4° =(xf,j4;本文档来自技高网
...

【技术保护点】
跨领域跨类别的新闻评论情绪预测方法,包括如下步骤:第1、对跨领域新闻评论情绪预测问题进行形式化描述定义1:源领域(source domain)和目标领域(target domain)分别为DS和DT;定义2:源领域和目标领域的情绪类别标签集合分别为ES和ET:ES={eS1,eS2,···,eSKS}---(1.1)]]>ET={eT1,eT2,···,eTKT}---(1.2)]]>其中,代表源领域DS的新闻评论中可能表达的用户情绪类别标签,代表DT的新闻评论中可能表达的用户情绪类别标签,ET构成了该目标领域新闻评论情绪分类问题的输出空间;定义3:源领域DS中的新闻评论文档集合CS,其新闻评论的数量充足;目标领域DT中的新闻评论文档集合CT,其新闻评论的数量相对较小:CS={cS(1),cS(2),···,cS(M)}---(1.3)]]>CT={cT(1),cT(2),·&CenterDot;·,cT(N)}---(1.4)]]>定义4:向量为新闻评论的特征向量,向量为新闻评论的特征构成特征向量:xS(i)={xS1(i),xS2(i),···xSn(i)}---(1.5)]]>xT(i)={xT1(i),xT2(i),···xTn(i)}---(1.6)]]>其中,表示评论的第j个特征,表示新闻评论的第j个特征;定义5:向量为对应的新闻评论的标注,用来表示评论表达的情绪,yS(i)={yS1(i),yS2(i),···,ySK(i)}---(1.7)]]>如果新闻评论标注的情绪是类eSl∈ES,l=1,2,···,KS,]]>则中项ySr(i),r∈1,2,···,K]]>可表示为ySr(i)=1,r=l0,r≠l---(1.8)]]>定义6:向量为对应的新闻评论的标注,用来表示评论表达的情绪,yT(i)={yT1(i),yT2(i),···,yTK(i)}---(1.9)]]>如果新闻评论标注的情绪是类eTk∈ET,k=1,2,···,KT,]]>则中项yTr(i),r∈1,2,···,K]]>可表示为yTr(i)=1,r=k0,r≠k---(1.10)]]>定义7:在目标领域DT中,用于情绪预测模型训练的标注数据集有N,0≤N,条新闻和相应的情绪类别标签,可表示为DT={(xT(1),yT(1)),(xT(2),yT(2)),···(xT(N),yT(N))}---(1.11)]]>定义8:源领域DS中,用于情绪预测模型训练的标注数据集有M,0≤N<<M,条新闻和相应的情绪类别标签,可表示为DS={(xS(1),yS(1)),(xS(2),yS(2)),···(xS(M),yS(M))}---(1.12)]]>第2、构建利用情绪间依赖关系实现知识迁移的模型定义9:ω={ω1,ω2,…,ωK}为情绪的权重向量,ωl={ωl1,ωl2,…,ωln,bl}∈Rn+1为情绪的权值向量参数,ωk={ωk1,ωk2,…,ωkn,bk}∈Rn+1为对应情绪ek的权值向量参数;定义10:是源领域DS的标注训练集中一个训练样本的损失,用关于权重参数ω={ω1,ω2,…,ωK}的函数,表示为此训练样本的负的对数似然函数值,即:ξS(i)=-Σk=1KySk(i)logexp(ωkTxS(i))Σr=1Kexp(ωrTxS(i))---(1.13)]]>定义11:为DT中新闻评论被分到DS的情绪类的条件概率,根据多元逻辑斯谛回归模型,该条件概率可用软最大函数来表示,归一化的概率值即:δTl(i)=P(eSl|xT(i))=exp(ωlTxT(i))&Sigma...

【技术特征摘要】

【专利技术属性】
技术研发人员:张莹赵雪乜鹏俞力袁晓洁
申请(专利权)人:南开大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1