一种跨领域的文本情感分类器的训练方法和分类方法技术

技术编号:4931528 阅读:249 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种跨领域的文本情感分类器的训练方法,包括下列步骤:1)在源领域和新领域样本的关键词中挑选通用情感特征;2)根据源领域的样本,计算特征wt属于类别ck的样本的概率P(t|ck),以及类别ck的概率P(ck),进而计算新领域的样本di属于类别ck的概率P(ck|di);3)基于EM迭代方法训练所述分类器,其中在M步根据源领域和新领域样本以及所述通用情感特征重新计算所述P(t|ck)和所述P(ck),在E步根据重新计算的所述P(t|ck)和所述P(ck)重新计算所述P(ck|di)。根据本发明专利技术的文本情感分类方法对新领域的文本进行分类的精度较高。

【技术实现步骤摘要】

本专利技术涉及模式识别领域,具体涉及应用该分类器进行的文本分类方法。种跨领域的文本情感分类器的训练方法和
技术介绍
文本情感分类,是指根据对文本的分析确定该文本对某个对象的态度是正面还是 负面。现有的文本情感分类方法具有很强的领域或主题依赖性。例如,在教育领域训练的 情感分类器在教育领域中表现很好,但是在电影领域或其它领域分类精度就会很差。也就 是说,现有的文本情感分类方法在情感挖掘中进行领域移植比较困难。 其客观原因主要有两个方面首先,不同领域之间的词语空间存在很大差距,例如 便携的、快速的常常出现在笔记本电脑的评论中,但几乎不会出现在房产评论中;其 次, 一些情感词语的极性也会发生变化,例如,房产评论中的这套房子的客厅太小,让人感 觉有点憋闷中的小是负面的,但手机评论中的诺基亚N3100非常小,很适合携带的 小是正面的。 因此,要想在新领域也取得很好的性能,根据现有技术就不得不为该新领域人工 标注一个较大的训练集,并采用这个训练集重新训练一个分类器。但是在实践中,因为这非 常耗费精力与时间所以这种做法效率很低,甚至有时不可实现。所以说,研究一种具备移植 能力的文本情感分类方法具有重要的现实意义。
技术实现思路
本专利技术要解决的技术问题是提供一种跨领域的并且精度较高的文本情感分类方 法。 根据本专利技术的一个方面,提供了一种跨领域的文本情感分类器训练方法,包括下 列步骤 1)在源领域和新领域样本的关键词中挑选通用情感特征; 2)根据源领域的样本,计算特征wt属于类别ck的样本的概率P (t I ck),以及类别Ck的概率P (Ck),进而计算新领域的样本&属于类别Ck的概率P (Ck I di); 3)基于EM迭代方法训练所述分类器,其中在M步根据源领域和新领域样本以及所 述通用情感特征重新计算所述P (t I ck)和所述P (ck),在E步根据重新计算的所述P (t I ck) 和所述P (ck)重新计算所述P (ck I eg 。 其中,上述步骤3)还包括 判断所述P (ck I d》在此迭代步骤中是否发生改变,如果发生了改变,转M步,如果 未发生改变,则存储结果P (t I ck)。 其中,上述步骤3)的E步包括 31)根据公式尸W)^)n(^^)r重新计算所述P(Ckldi);其中,|V|表示整 个词空间V中所包含的词个数,Ni,t表示样本&中特征wt的出现次数。 其中,所述步骤2)还包括将所述P(Ckldi)离散化的步骤;所述步骤3)的所述E步还包括将所述P(Ckldi)离散化的步骤。 其中,所述步骤3)的所述M步包括(卜2).2尸(cj《)+义-i;p(cj《) 32)根据公式尸(^) =-^_^-计算所述P(Ck);其中入=(卜;1)'|。|+/1'||min{S t ,1}, t表示当前迭代步数,S是控制因子;D。和Dn分别表示源领域与新领域的样本集合;lD。1和|Dn|分别表示D。和Dn中所包含的样本个数。 其中,所述步骤3)的所述M步包括33)根据公式尸(化)Y.g^^) + ig(^)+w计算所述Palck);其中,A =>1 1=1min{S t,1}, t表示当前迭代步数,S是控制因子;iV;;,表示样本di中特征Wt的出现次数且样本&属于新领域;A^,表示样本&中特征wt的出现次数且样本&属于源领域;I V|表示整个词空间V中所包含的词个数;7,° = K g, VrcE表示挑选出来的通用情感特征。 其中,所述步骤2)的所述计算特征Wt属于类别Ck的样本的概率P(tlck)包括根据如下公式计算所包含的样本个数;A^表示样本di中特征Wt的出现次数且样本di属于源领域;|V|表示整个词空间V中所包含的词个数。 其中,所述步骤2)的所述计算类别Ck的概率P(Ck)包括根据如下公式计算 —.....——.,其中,|D°|表示源领域的样本的集合D。中尸(q^',二i;其中,|D°|表示源领域的样本的集合D。中所包含的样本水。其中,所述步骤l)包括ii)根据公式y;4og确定所述高频领域特征,其中e是非零参数,P。(t)和pjt)分别表示特征Wt在源领域和新领域的样本中的出现概率。 其中,所述步骤ll)中所述p。(t)根据如下公式计算,A(O = i:(^+^ ,其中N。和Nn分别表示源领域和新领域的样本总数,N。(t)和Njt)分别表示特征Wt在源领域和新领域的样本中出现的样本数目,a为平滑因子。 其中,所述步骤ll)中所述Pn(t)根据如下公式计算,^(0= ,其中N。禾口Nn分别表示源领域和新领域的样本总数,N。(t)和Njt)分别表示特征Wt在源领域和新领域的样本中出现的样本数目,a为平滑因子。 根据本专利技术的另一方面,还提供了一种跨领域的文本情感分类方法,包括根据上述训练方法所计算的结果P (t I Ck)对新领域测试集内的文本进行分类。 本专利技术的有益效果在于,根据本专利技术的文本情感分类方法对新领域的文本进行分类的精度较高。附图说明 图1是根据本专利技术的优选实施例的跨领域的文本情感分类方法的流程图。具体实施例方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本专利技术一个实施例的跨领域的文本情感分类方法进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。 本专利技术基本思想是寻找领域之间的通用情感特征,并把通用情感词作为源领域通向新领域的一座桥梁,其中通用情感特征为不但在源领域和新领域频繁出现而且出现频率相似的词语。例如财经类例子招商银行是一家非常优秀的上市公司,电子类例子HpCompaq (商用笔记本)的性能非常优秀,则优秀就可以作为财经类与电子类之间的通用情感特征。然后逐步加大新领域的权重,使分类器模型与新领域达到最佳匹配。本专利技术即利用了源领域的部分可用信息,又充分吸收了新领域的全部信息。 根据上述基本思想,如图1所示,本专利技术一个实施例的跨领域的文本情感分类方法的具体流程如下 首先,在源领域和新领域的样本的关键词中,挑选通用情感特征,此过程可以人工实现,也可以通过计算实现。 优选的,根据本专利技术的具体实施例依据频繁共现熵(FrequentlyCo-occurringEntropy, FCE) /w,来挑选通用情感特征,即频率共现熵较高的词语即为通用情感特征,其中 乂 气 + & 其中p。(t) , pn(t)分别表示特征wt在源领域与新领域的样本中的出现概率 在公式(2)和公式(3)中,N。和Nn分别表示源领域与新领域的样本总数。N。(t)和Njt)分别表示特征Wt在源领域与新领域的样本中出现的样本数目,即含有该特征Wt的样本数目。a为平滑因子,根据本专利技术的一个具体实施例a = 0.0001。当然,不进行平滑同样可以实现本专利技术的基本技术目的。 本领域内普通技术人员可以理解,上述公式(1)仅是能够确定通用情感特征的一个例子,也可以对该公式进行适应性修改或采用其它方式确定通用情感特征。例如P是为了防止出现分母为O的情况而采用的非零参数,在本专利技术的一个实施例中13 =1.0。本领域技术人员可以理解,如果能够确定该特征Wt在源领域和新领域的样本中出现的概率并6本文档来自技高网...

【技术保护点】
一种跨领域的文本情感分类器的训练方法,包括下列步骤:1)在源领域和新领域样本的关键词中挑选通用情感特征;2)根据源领域的样本,计算特征w↓[t]属于类别c↓[k]的样本的概率P(t|c↓[k]),以及类别c↓[k]的概率P(c↓[k]),进而计算新领域的样本d↓[i]属于类别c↓[k]的概率P(c↓[k]|d↓[i]);3)基于EM迭代方法训练所述分类器,其中在M步根据源领域和新领域样本以及所述通用情感特征重新计算所述P(t|c↓[k])和所述P(c↓[k]),在E步根据重新计算的所述P(t|c↓[k])和所述P(c↓[k])重新计算所述P(c↓[k]|d↓[i])。

【技术特征摘要】
一种跨领域的文本情感分类器的训练方法,包括下列步骤1)在源领域和新领域样本的关键词中挑选通用情感特征;2)根据源领域的样本,计算特征wt属于类别ck的样本的概率P(t|ck),以及类别ck的概率P(ck),进而计算新领域的样本di属于类别ck的概率P(ck|di);3)基于EM迭代方法训练所述分类器,其中在M步根据源领域和新领域样本以及所述通用情感特征重新计算所述P(t|ck)和所述P(ck),在E步根据重新计算的所述P(t|ck)和所述P(ck)重新计算所述P(ck|di)。2. 根据权利要求1所述的训练方法,其特征在于,所述步骤3)还包括判断所述P (ckI d》在此迭代步骤中是否发生改变,如果发生了改变,转M步,如果未发 生改变,则存储结果P(tlck)。3. 根据权利要求1或2所述的训练方法,其特征在于,所述步骤3)的所述E步包括31) 根据公式pw)^)n( ir重新计算所述p(Ckidi);其中,|V|表示整个词空间V中所包含的词个数,Ni,t表示样本&中特征Wt的出现次数。4. 根据权利要求1或2所述的训练方法,其特征在于, 所述步骤2)还包括将所述P(Ckldi)离散化的步骤; 所述步骤3)的所述E步还包括将所述P(Ckldi)离散化的步骤。5. 根据权利要求1或2所述的训练方法,其特征在于,所述步骤3)的所述M步包括32) 根据公式户(^) =_^^-计算所述P(Ck);其中A =min{S t ,1}, t表示当前迭代步数,S是控制因子; D°和Dn分别表示源领域与新领域的样本集合; D°|和Dl分别表示D。和Dn中所包含的样本个数。6. 根据权利要求1或2所述的训练方法,其特征在于,所述步骤3)的所述M步包括、_ G-.(化。.w, )+义.(w;;)+i 33)根据公式,、—.^。《)+;^K)+w计算所述P(tl。;'=1 ,-=1其中,A = min...

【专利技术属性】
技术研发人员:谭松波程学旗
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1