一种基于关键词的文本情感分类器的训练方法和分类方法技术

技术编号:4333584 阅读:497 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种基于关键词的文本情感分类器训练方法和分类方法,其中情感分类器训练方法包括下列步骤:1)在旧领域训练集和新领域测试集的文本的关键词中挑选枢纽特征;2)计算描述所述枢纽特征与所述旧领域训练集和新领域测试集的文本中词语的关系的矩阵W;3)由所述旧领域训练集和新领域测试集内的文本构成矩阵X,在映射空间X.W上训练分类器。根据本发明专利技术的文本情感分类方法对新领域的文本进行分类的精度更高。

【技术实现步骤摘要】

本专利技术涉及模式识别领域,具体涉及一种基于关键词的文本情感分类器的训练方法和应用该分类器进行的文本分类方法。
技术介绍
文本情感分类,是指根据对文本的分析确定该文本对某个对象的态度是正面还是 负面。现有的文本情感分类方法具有很强的领域或主题依赖性。例如,在教育领域训练的 情感分类器在教育领域中表现很好,但是在电影领域或其它领域分类精度就会很差。也就 是说,现有的文本情感分类方法在情感挖掘中进行领域移植比较困难。 其客观原因主要有两个方面首先,不同领域之间的词语空间存在很大差距,例如 便携的、快速的常常出现在笔记本电脑的评论中,但几乎不会出现在房产评论中;其 次, 一些情感词语的极性也会发生变化,例如,房产评论中的这套房子的客厅太小,让人感 觉有点憋闷中的小是负面的,但手机评论中的诺基亚N3100非常小,很适合携带的 小是正面的。 因此,要想在新领域也取得很好的性能,根据现有技术就不得不为该新领域人工 标注一个较大的训练集,并采用这个训练集重新训练一个分类器。但是在实践中,因为这非 常耗费精力与时间所以这种做法效率很低,甚至有时不可实现。所以说,研究一种具备移植 能力的文本情感分类方法具有重要的现实意义。
技术实现思路
本专利技术要解决的技术问题是提供一种具备移植能力的并且精度较高文本情感分 类方法。 根据本专利技术的一个方面,提供了一种基于关键词的文本情感分类器训练方法,包 括下列步骤 1)在旧领域训练集和新领域测试集的文本的关键词中挑选枢纽特征; 2)计算描述所述枢纽特征与所述旧领域训练集和新领域测试集的文本中词语的关系的矩阵W; 3)由所述旧领域训练集和新领域测试集内的文本构成矩阵X,在映射空间X,上 训练分类器。 所述训练方法中,所述步骤2)包括, / 、2、 21)根据公式<=,/ |^,(^0,)2],,,).-1) j / = 1..,M X…,g,计算映射向量wj,其中argmin表示当括号内函数取最小值时的巧,Xij表示一个文本向量Xi的 第j个分量,Q表示旧领域训练集和新领域测试集内的文本中词语总数,pJxi)表示文本数,、f 1 如果x,7 > 0据Xi中是否出现枢纽特征xn,其表示为AO,)—,不二 ;卜i 哲则4 22)由所述映射向量wJ构成所述矩阵W。 所述训练方法中,所述步骤2)包括 23)在旧领域训练集和新领域测试集的文本的词语中确定高频领域特征; 24)综合所述高频领域特征,根据公式w,*=fl, 〔S,(AO,C严,'厂1))'=L…,M /=!'…,2 '计算所述映射向量Wl*,其中argmin表示当括号内函数取最小值时的Wl,Xij表示一个文本向量Xi的第j个分量,Q表 示旧领域训练集和新领域测试集内的文本中词语总数,pjxi)表示文本数据Xi中是否出现枢纽特征Xu,其表示为AO,)-j^ 否;,Sj表示分量Xij在计算映射向量巧时{ 如果 x e Z: ^, FDS ,其中所述z鹏s表示高频领域特征,n为参数; 22)由所述映射向量wJ构成所述矩阵W。 所述训练方法中,所述步骤2)包括 23)在旧领域训练集和新领域测试集的文本的词语中确定高频领域特征; 2 5 )综合 高 频 领 域特 征,根据 公 式< =-i)2+义|卜,||2) ' = _/ = 1,…,2计算所述映射向量 其中argmin表示当括号内函数取最小值时的巧,Xij表示一个文本向量Xi的第 j个分量,M表示枢纽特征的个数,Q表示旧领域训练集和新领域测试集内的文本中词语总…f 1 如果jc,7 >0数,pjxi)表示文本数据Xi中是否出现枢纽特征xu,其表示为尸,o,.)二 _i 否贝;j ,( 如果x e Zl 否贝u所述z咖s表示高频领域特征的集合,n为参数a是参数,1111表示二范数; 22)由所述映射向量wJ构成所述矩阵W。 其中,所述步骤23)包括'max(尸O,尸(O)域特征,其中P是非零参数,P。(t),Pn(t)分别表示特征t在旧领域训练集与新领域测试集 中的出现概率。 其中,所述步骤231)中所述p。(t)根据如下公式计算,《(0= ^(j ,其中N。禾口(W。 + 2. ct:)Nn分别表示旧领域训练集与新领域测试集的文本总数,N。(t)和Njt)分别表示特征t在旧领域训练集与新领域测试集中出现的文本数目,a为平滑因子。 231)根据公式乂 = 1og(max(尸。(,),尸 ))+ log,确定所述高频领5 其中,所述步骤231)中所述Pn(t)根据如下公式计算,P。(0 = A,、、,其中N。禾口Nn分别表示旧领域训练集与新领域测试集的文本总数,N。(t)和Njt)分别表示特征t在旧领域训练集与新领域测试集中出现的文本数目,a为平滑因子。 根据本专利技术的另一方面,还提供了一种基于关键词的文本情感分类方法,包括根 据上述训练方法所训练的分类器对新领域测试集内的文本进行分类。 本专利技术的有益效果在于,根据本专利技术的文本情感分类方法对新领域的文本进行分 类的精度较高。附图说明 图1是根据本专利技术的优选实施例的基于关键词的文本情感分类方法的流程图。具体实施例方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发 明一个实施例的基于关键词的文本情感分类方法进一步详细说明。应当理解,此处所描述 的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。 本专利技术的基本思想是建立一个有效的领域移植模型,该模型能够将旧领域训练集 与新领域测试集统一起来训练。不可否认,旧领域与新领域之间存在很大的词语空间差异。 但是,另一方面,旧领域与新领域之间还存在一些分布相似、情感倾向一致的情感词,称为 枢纽(pivot)特征。例如财经类例子招商银行是一家非常优秀的上市公司,电子类 例子HpComp叫(商用笔记本)的性能非常优秀,则优秀就可以作为枢纽特征。因此, 本专利技术根据这些〃 枢纽特征〃 可以建立一条由旧领域通向新领域的桥梁。 根据上述基本思想,如图1所示,本专利技术一个实施例的基于关键词的文本情感分 类方法的具体流程如下 首先,在旧领域训练集和新领域测试集内的文本的关键词中,挑选M个枢纽特征, 此过程可以人工实现。 优选的,分别在旧领域训练集和新领域测试集的文本的词语中,确定L个高频领 域特征(high-frequency domain-specific,HFDS)。其中高频领域特征是指在某个领域频 繁出现,但又几乎不含有情感信息的特征,例如教育领域中的教育,高校,研究生等 等。通常这些高频领域特征影响其它情感特征的情感表达能力。 一个优选的解决办法是降 低这些高频领域特征的权重。高频领域特征可以通过如下公式(1)确定<formula>formula see original document page 6</formula> 其中|3是为了防止出现分母为O的情况而采用的非零参数,在本专利技术的一个实施 例中|3 =L0。本领域技术人员可以理解,如果能够确定该特征t在旧领域训练集和新领 域测试集中都曾出现,则在该公式中也可以不采用该参数P。 P。(t),pn(t)分别表示特征t 在旧领域训练集与新领域测试集本文档来自技高网...

【技术保护点】
一种基于关键词的文本情感分类器训练方法,包括下列步骤:1)在旧领域训练集和新领域测试集的文本的关键词中挑选枢纽特征;2)计算描述所述枢纽特征与所述旧领域训练集和新领域测试集的文本中词语的关系的矩阵W;3)由所述旧领域训练集和新领域测试集内的文本构成矩阵X,在映射空间X.W上训练分类器。

【技术特征摘要】
一种基于关键词的文本情感分类器训练方法,包括下列步骤1)在旧领域训练集和新领域测试集的文本的关键词中挑选枢纽特征;2)计算描述所述枢纽特征与所述旧领域训练集和新领域测试集的文本中词语的关系的矩阵W;3)由所述旧领域训练集和新领域测试集内的文本构成矩阵X,在映射空间X·W上训练分类器。2. 根据权利要求1所述的训练方法,其特征在于,所述步骤2)包括21) 根据公式<formula>formula see original document page 2</formula>,计算映射向量wj,其中argmin表示当括号内函数取最小值时的Wl, Xij表示一个文本向量Xi的第j个分量,Q表示旧领域训练集和新领域测试集内的文本中词语总数,pJxi)表示文本数据Xi<formula>formula see original document page 2</formula> 中是否出现枢纽特征Xil,其表示为,(x,) —i 否贝;;22) 由所述映射向量wJ构成所述矩阵W。3. 根据权利要求1所述的训练方法,其特征在于,所述步骤2)包括23) 在旧领域训练集和新领域测试集的文本的词语中确定高频领域特征;2 4 )综合所述高频领域特征,根据公式<formula>formula see original document page 2</formula>中argmin表示当括号内函数取最小值时的Wl,Xij表示一个文本向量Xi的第j个分量,Q表 示旧领域训练集和新领域测试集内的文本中词语总数,pjxi)表示文本数据Xi中是否出现<formula>formula see original document page 2</formula>枢纽特征Xn,其表示为<formula>formula see original document page 2</formula> 否则 ,Sj表示分量Xij在计算映射向量巧时<formula>formula see original document page 2</formula> 如果XjjeZ朋^ 否则的权重,其表示为^ = <!,' ,其中...

【专利技术属性】
技术研发人员:谭松波程学旗
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1