将词典知识合并入SVM学习以改进情感分类制造技术

技术编号:7935461 阅读:167 留言:0更新日期:2012-11-01 05:14
用于内容的情感分类的情感分类器。方面分类器被配置为将内容分类为与信息的特定方面相关,所述方面分类器结合所述领域特定情感词典的至少一部分。极性分类器随后被配置为将由所述方面分类器分类的所述内容分类为具有下列之一:信息的所述特定方面的正面的情感、信息的所述特定方面的负面的情感,或者将由所述方面分类器分类的所述内容分类为不具有关于信息的所述特定方面的情感。所述极性分类器也结合所述领域特定情感词典的至少一部分。

【技术实现步骤摘要】

本申请目的在于自动的分类,并且更特别地目的在于自动的情感分类,其中情感分类被理解为是特定类型的文本分类,其用作分类信息(诸如以文本的形式)的意见或情感,当其涉及特定的论题或主题时。
技术介绍
两种典型的用于情感分析的方法是词典查找和机器学习。词典查找方法通常从正面的和负面的单词的词典开始。例如,“漂亮的”被确认为正面的单词并且“丑陋的”被确认为负面的单词。文本的总的情感由一组单词的情感和在所述文本中出现的表达确定。综合性的情感词典可以提供简单然而有效的用于情感分析的解决方案,因为其是普通的并且不需要预先的训练。因此,已经花费关注和努力用于构建这样的词典。然而,对 该方法的重大的挑战是许多单词的极性依赖于领域和上下文。例如,“长”在“长的电池寿命”中是正面的并且在“长的快门迟滞”中是负面的。当前的情感词典不捕获情感表达的这样的领域和上下文敏感性。它们排除这样的领域和上下文依赖的情感表达或者基于从某个语料库(corpus)(诸如通过因特网而被访问的万维网)收集的统计资料而用总的极性趋势标记它们。虽然排除这样的表达导致差的覆盖范围,用极性趋势简单地标记它们导致差的精度。由于这些限制,机器学习方法已经正在情感分析的领域中得到日益增加的普及。诸如使用支持向量机(SVM)的那些机器学习方法不依靠情感词典以确定单词和表达的极性,并且可以自动地学习一些在训练数据中示出的上下文相关性。例如,如果“长的电池寿命”和“长的快门迟滞”在所述训练数据中分别被标记为正面的和负面的,学习算法可以学会当其与短语“电池寿命”相关联时“长”是正面的,而当与短语‘快门迟滞’相关联时其是负面的。然而,这样的方法的成功严重地依赖所述训练数据。对于情感分析的任务,由于自然语言的丰富,数据不足是不能被容易地解决的固有问题。特别地,人们倾向于使用不同的表达来表示相同的情感,并且也倾向于在相同的句子或文件中不重复他们的情感。因此,收集足够表示人们如何对于各种主题表达情感的训练数据是非常困难的。与一些其它文本分类任务相比,该数据不足问题已经导致了对情感分类的相对低的准确度。因此,尽管最近的研究已经显示对于情感分析的任务,机器学习方法通常优于所述词典查找方法,忽视由情感词典提供的优势和知识可能不是最优的。然而,少数研究已经致力于将这两种方法相结合以改进情感分类。一些已经探索使用通用情感词典以改进短语的上下文极性的识别。一些其它最近的研究已显示将通用情感词典合并到机器学习算法中可以改进在文件级别上的情感分类的准确度。在所有这些工作中,通用情感词典包含具有独立于上下文/领域的极性的单词。本情感分类器系统和方法不同于这些以前的方法。
技术实现思路
用于内容的情感分类的情感分类器。方面分类器被配置为将内容分类为与信息的特定方面相关,所述方面分类器合并所述领域特定情感词典的至少一部分。极性分类器随后被配置为将由所述方面分类器分类的内容分类为具有下列之一信息的特定方面的正面的情感、信息的特定方面的负面的情感,或者将其分类为不具有关于信息的特定方面的情感。所述极性分类器也合并所述领域特定情感词典的至少一部分。附图说明图I示出了具有两个子词典的名称词典,包括主题子词典和情感子词典;图2示出了根据本申请的呈现语料库过滤的方法的流程图;图3示出了显示用于使用语言模式进行网络(web)搜索和过滤的处理的流程图; 图4是显示由图3的方法识别的一些噪声单词的图;图5是示出了将极性提供给领域特定词典的单词和/或短语的方法的流程图;图6提供了示出具有方面分类器和极性分类器的情感分类器的框图;图7是描绘了图6的所述情感分类器的操作的流程图;图8是显示了属于类的点之间的距离的例图;图9描绘了在领域特定词典的创建的过程期间本申请的系统;图10描绘了在当所述情感分类器正在被训练时的过程期间的本系统的结构;以及图11描绘了当所述情感分类器正在工作时本系统的结构。具体实施例方式情感分类系统和方法被公开,其将情感词典作为先验知识与机器学习方法(诸如支持向量机(SVM))结合以改进情感分析的准确度。所描述的系统和方法为该学习目的产生领域特定情感词典。所采取的实现上面的概念的实验的结果显示与通用的领域独立的情感词典相比,被结合进机器学习方法中的领域特定词典导致在所述情感分类过程中的更显著的准确度改进。此处所描述的情感分类系统(在此处也被称为情感分类器或二级情感分类器)和方法提供了信息的方面的精细粒度的情感分析。注意到的是在本公开中,信息的方面(在此处也被称为信息方面)是普通术语,其在其它使用中包括产品的方面(例如,产品方面一诸如照相机的方面),主题(例如,主题方面一诸如天气),等等。以包含单词和/或短语的文本(即,内容)的形式提供所述信肩、O在下文中,为了解释的目的,所述情感分类任务主要针对分类照相机评论。S卩,对于照相机评论中的每个句子,所公开的情感分类器被配置为预测在研究中的句子是否讨论任何照相机方面(例如,所述照相机的电池寿命;由照相机拍摄的图片的质量,等等),并且如果该句子讨论被考虑的照相机方面,则所述情感分类器识别相关联的情感(例如,是意见正面的或负面的)。此处所描述的实验结果显示通过结合由本方法产生的领域特定情感词典,所述情感分类任务的准确度被显著地改进。如所讨论的,仅少数研究已致力于合并词典查找和机器学习方法以改进情感分类。不像之前的工作(在其中仅通用情感词典被使用),本情感分类器不仅将通用情感词典而且将领域特定情感词典结合到所述学习机(例如,SVM学习)中,以改进情感分类的准确度。所述领域特定情感词典包括指示各种主题或领域的词典以及由具有与特定的主题或领域相关联的极性的单词或短语组成的词典。例如,在被进行的实验中,关于“电池寿命”建立领域特定词典,其包括诸如“电池”的单词的第一词典和诸如“快速地负面的”和“长的正面的”的单词或短语的第二词典。所述第一词典由对“照相机电池寿命”的主题而言是好的指示符的单词或短语组成,而所述第二词典由具有对“电池寿命”的主题而言的特定的极性的单词或短语组成。例如,“快速地”和“长的”可能在不同的领域中不携带负面的和正面的情感。如果所述领域是不同的,则它们也可以携带相反的情感。更重要地,所述实验结果显示虽然通用情感词典仅提供了较小的准确度改进,结合领域特定词典(字典)导致了对所述情感分类任务的更显著的改进。第二,所述之前的工作探索了结合词典知识以改进在文件级别的情感分类(即,将整个文件分类为是正面的或者负面的)的优势。与这些工作相比,本情感分类器是精细粒度的。特别地,情感分类在句子级别被执行,并且对于每个句子,所述情感分类器不仅预测句子是否是正面的、负面的或者客观的,而且其也预测与该情感相关联的主要主题。所述实验表明由专利技术者建立的领域特定词典(字典)导致对这些任务的两者的改进。关于情感词典的构建,之前的研究已集中在产生通用字典。这些方法范围从手动的方法到半自动化的和自动化的方法。在本公开中,使用下列的结合建立所述领域特定情感词典(i)语料库过滤,(ii)使用语言模式的网络搜索和(iii)字典扩展技术。下面详细地描述了该构建。 I.产生领域特定词典下面使用数字照相机的主题作为其例子描述了产生领域特定词典的方法。然而,将被理解的是该方法也适用于其它的本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201210130002.html" title="将词典知识合并入SVM学习以改进情感分类原文来自X技术">将词典知识合并入SVM学习以改进情感分类</a>

【技术保护点】
一种用于内容的情感分类的情感分类器,包括:方面分类器,所述方面分类器被配置为将内容分类为与信息的特定方面相关,所述方面分类器结合领域特定情感词典的至少一部分;以及极性分类器,所述极性分类器被配置为将由所述方面分类器分类的所述内容分类为具有下列之一:信息的所述特定方面的正面的情感、信息的所述特定方面的负面的情感,或者将由所述方面分类器分类的所述内容分类为不具有信息的所述特定方面的情感,所述极性分类器结合所述领域特定情感词典的至少一部分。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:J·方B·陈
申请(专利权)人:帕洛阿尔托研究中心公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1