【技术实现步骤摘要】
本专利技术涉及模式识别领域,具体涉及一种基于关键词的文本情感分类器的训练方法和应用该分类器进行的文本分类方法。
技术介绍
文本情感分类,是指根据对文本的分析确定该文本对某个对象的态度是正面还是 负面。现有的文本情感分类方法具有很强的领域或主题依赖性。例如,在教育领域训练的 情感分类器在教育领域中表现很好,但是在电影领域或其它领域分类精度就会很差。也就 是说,现有的文本情感分类方法在情感挖掘中进行领域移植比较困难。 其客观原因主要有两个方面首先,不同领域之间的词语空间存在很大差距,例如 便携的、快速的常常出现在笔记本电脑的评论中,但几乎不会出现在房产评论中;其 次, 一些情感词语的极性也会发生变化,例如,房产评论中的这套房子的客厅太小,让人感 觉有点憋闷中的小是负面的,但手机评论中的诺基亚N3100非常小,很适合携带的 小是正面的。 因此,要想在新领域也取得很好的性能,根据现有技术就不得不为该新领域人工 标注一个较大的训练集,并采用这个训练集重新训练一个分类器。但是在实践中,因为这非 常耗费精力与时间所以这种做法效率很低,甚至有时不可实现。所以说,研究一种具备移 ...
【技术保护点】
一种基于关键词的文本情感分类器训练方法,包括下列步骤:1)在旧领域训练集和新领域测试集的文本的关键词中挑选枢纽特征;2)计算描述所述枢纽特征与所述旧领域训练集和新领域测试集的文本中词语的关系的矩阵W;3)由所述旧领域训练集和新领域测试集内的文本构成矩阵X,在映射空间X.W上训练分类器。
【技术特征摘要】
一种基于关键词的文本情感分类器训练方法,包括下列步骤1)在旧领域训练集和新领域测试集的文本的关键词中挑选枢纽特征;2)计算描述所述枢纽特征与所述旧领域训练集和新领域测试集的文本中词语的关系的矩阵W;3)由所述旧领域训练集和新领域测试集内的文本构成矩阵X,在映射空间X·W上训练分类器。2. 根据权利要求1所述的训练方法,其特征在于,所述步骤2)包括21) 根据公式<formula>formula see original document page 2</formula>,计算映射向量wj,其中argmin表示当括号内函数取最小值时的Wl, Xij表示一个文本向量Xi的第j个分量,Q表示旧领域训练集和新领域测试集内的文本中词语总数,pJxi)表示文本数据Xi<formula>formula see original document page 2</formula> 中是否出现枢纽特征Xil,其表示为,(x,) —i 否贝;;22) 由所述映射向量wJ构成所述矩阵W。3. 根据权利要求1所述的训练方法,其特征在于,所述步骤2)包括23) 在旧领域训练集和新领域测试集的文本的词语中确定高频领域特征;2 4 )综合所述高频领域特征,根据公式<formula>formula see original document page 2</formula>中argmin表示当括号内函数取最小值时的Wl,Xij表示一个文本向量Xi的第j个分量,Q表 示旧领域训练集和新领域测试集内的文本中词语总数,pjxi)表示文本数据Xi中是否出现<formula>formula see original document page 2</formula>枢纽特征Xn,其表示为<formula>formula see original document page 2</formula> 否则 ,Sj表示分量Xij在计算映射向量巧时<formula>formula see original document page 2</formula> 如果XjjeZ朋^ 否则的权重,其表示为^ = <!,' ,其中...
【专利技术属性】
技术研发人员:谭松波,程学旗,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。