文本情感极性分类系统和方法技术方案

技术编号:3898167 阅读:297 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种文本情感极性分类系统,包括:输入装置,用于输入多个文本;以及文本情感极性分类装置,用于根据文本中包含的至少一个词的情感极性确定文本情感极性,并基于文本情感极性可信度迭代地改变文本和词的情感极性,直到文本或词的情感极性不发生变化。由于本发明专利技术根据可信度筛选文本来确定词的情感极性,并根据词的情感极性确定文本的情感极性,从而避免了在迭代过程中引入错误,提高了文本情感极性判断的正确性。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,具体地,涉及一种。
技术介绍
随着因特网的广泛普及,人与人之间的交流变得更为方便。大部分人在使用了某 种产品后,有发表自己的评论和感想的愿望。因特网的发展为这种愿望提供了平台。目前 的多种网站专门建立了产品评论频道,供用户发表对产品的评论和感想。这些评论对潜在 用户和生产厂商都是有用的。对潜在用户而言,这些评论能帮助他们了解产品优缺点并帮 助自己做出购买哪种产品的最后选择,对生产厂商而言,可以帮助他们了解用户评价并根 据评价改进产品。所以对这些产品评论的文本分析是十分有用的技术。产品评论分析可以是多层次、多角度的,其中一种分析是确定产品评论的文本的 情感极性。例如,如果某篇文本的主题(即,产品)是“好的”,则文本具有正情感极性。相 反,如果文本的主题是“不好的”,则文本具有负情感极性。还有一类文本是中性的,其主题 并没有偏好。通常,文本的情感极性是通过文本中的词的情感极性来确定的。表述正面情 感的词(例如,好,漂亮,方便)称为正情感极性词,而表述负面情感的词(例如,坏,丑,混 乱)称为负情感极性词。总的来说,确定产品评论的文本的情感极性有两种方式监督式和非监督式。前者 需要一个人工标注的训练样本集,后者不需要。由于训练样本集需要人工标注,而且一般是 基于领域的,即,不同领域需要不同的训练样本集,所以构建的时间和资金成本都比较高。 而非监督方法不需要训练样本集,所以相对监督式方法而言具有速度快、成本低等优势。文献 1 (Taras Zagibalov, John Carroll. Automatic Seed WordSelection for Unsupervised Sentiment Classification of Chinese Text. C0LING2008. pp. 1073-1080) 描述了确定文本的情感极性的方法。它采用无监督方式,使用迭代算法。首先确定一些有 情感极性的词,称为种子词,例如“方便”、“实用”、“细腻”是正面的词。可以利用语言知识 确定种子词。例如由于人们常用“不”等否定词加正面词来表示负面意义,如“不方便”、“不 够实用”等,所以可以根据词和否定词的共现频率来确定一些初始词,作为种子词。这些词 的极性一般比较准确,但是这些词的数目较少,可以用一个迭代过程不断丰富这些词。具体地,参考图la,迭代分为两步。第一步利用现有的有极性的词(第一次迭代 是种子词)确定文本的情感极性。基本原则是如果一个文本中的正面情感极性词多于负面 情感极性词,则文本判断为正极性,反之如果负面情感极性词多于正面情感极性词负面,则 文本判断为负极性。如果正面情感极性词与负面情感极性词数目相等,则文本判断为中性。 第二步用第一步确定的文本情感极性更新词的情感极性,存储到数据库中。注意这里的词 可以是任意长度的文本串,例如对“这款屏幕色彩丰富”这句话,“这”、“这款”、“这款屏”等 都是文本串,都可以有极性。以上这两步构成一次迭代。每次迭代结束后,上一次判断的文本情感极性和词的 情感极性都可能发生改变,例如上一次判断为正情感极性的文本在下一次可能判断为负情感极性,而上一次判断为没有情感极性的词下次迭代后可能判断为有某种情感极性,例如 正情感极性。一直到文本和词的情感极性判断都不再发生改变时,迭代才停止。图lb示出 了一次迭代过程,首先根据具有情感极性的词确定文本的情感极性,之后,根据文本的情感 极性更新词的情感极性。其中,< “丰富”,P,30>表示 < 词,极性,强度>,<dl,P>表示〈文 档,极性〉。文献1采用的每一次迭代都是根据词的情感极性判断文本的情感极性,再根据文 本的情感极性判断词的情感极性。而词和文本的情感极性都是可能随着迭代改变的。艮口, 每一次迭代中所判断的词和文本的情感极性可能是错误的。而用错误的词和文本情感极性 互相计算,就会在迭代的过程中将错误逐渐扩大,导致最后的结果与正确结果偏差很大。
技术实现思路
为了解决使用错误的词和文本情感极性互相计算产生错误的结果的问题,本专利技术 提出基于可信度的无监督式。根据本专利技术第一方面,提出了一种文本情感极性分类系统,包括输入装置,用于 输入多个文本;以及文本情感极性分类装置,用于根据文本中包含的至少一个词的情感极 性确定文本情感极性,并基于文本情感极性可信度迭代地改变文本和词的情感极性,直到 文本或词的情感极性不发生变化。 根据本专利技术第二方面,提出了一种文本情感极性分类方法,包括输入步骤,输入 多个文本;以及文本情感极性分类步骤,根据文本中包含的至少一个词的情感极性确定文 本情感极性,并基于文本情感极性可信度迭代地改变文本和词的情感极性,直到文本或词 的情感极性不发生变化。本专利技术在每一次迭代过程中判断当前计算出的文本情感极性的可信度。只有可信 度高的文本才保留并用于计算词的极性,而可信度低的文本则不参与词的极性的计算。由此,通过排除可信度低的文本来尽量减少迭代过程中引入错误,也相应地减少 了迭代过程中错误的传播,并最终提高文本情感极性判断的正确性。另外,本专利技术还提出了在迭代过程中平衡正负情感极性文本的数目,S卩,在迭代的 过程中尽量保持正负情感极性的文本数目相等或接近。从而可以尽量避免在词的情感极性 计算中产生偏差。本专利技术通过将正负文本数目调整为相同或接近,可以减少计算过程中词 的情感极性的偏差。通过以上过程,可以尽量减少迭代过程中错误的引入,也相应地减少了 迭代中错误的传播,并最终可以提高文本情感极性判断的正确性。附图说明图la示出了已有技术的文本情感极性分类方法的流程图;图lb示出了应用了文本情感极性分类方法的一个示例;图2示出了根据本专利技术第一实施例的文本情感极性分类系统的示意图;图3示出了根据本专利技术第一实施例的文本情感极性分类方法的流程图;图4是根据本专利技术第一实施例的文本情感极性分类方法的一个示例;图5示出了根据本专利技术第二实施例的文本情感极性分类系统的示意图;图6示出了根据本专利技术第二实施例的文本情感极性分类方法的流程6图7是根据本专利技术第二实施例的文本情感极性分类方法的一个示例。 具体实施例方式下面,将参考附图描述本专利技术的优选实施例。在附图中,相同的元件将由相同的参考符号或数字表示。此外,在本专利技术的下列描述中,将省略对已知功能和配置的具体描述, 以避免使本专利技术的主题不清楚。图2示出了根据本专利技术第一实施例的文本情感极性分类系统。该系统包括输入装 置20,种子选择装置22,文本情感极性分类装置21和存储器(未示出)。输入装置20用 于接收输入的多个文本。种子选择装置22用于根据语言知识从文本中选择一个或多个词 并为选择的词分配情感极性,以及将分配情感极性的词存储在存储器中。这些词可以按照 <w, p,s>的形式存储,其中w表示词,ρ表示该词的情感极性(正或负),s表示该词的情感 极性的强度。文本情感极性分类装置21包括文本情感极性确定单元212,可信度计算单元 213,更新单元214以及控制器215。情感极性确定单元212用于使用具有情感极性的词来 确定文本的情感极性。可信度计算单元213用于计算文本的情感极性的可信度。更新单元 214用于选择可信度本文档来自技高网
...

【技术保护点】
一种文本情感极性分类系统,包括:输入装置,用于输入多个文本;以及文本情感极性分类装置,用于根据文本中包含的至少一个词的情感极性确定文本情感极性,并基于文本情感极性可信度迭代地改变文本和词的情感极性,直到文本或词的情感极性不发生变化。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵凯邱立坤胡长建
申请(专利权)人:日电中国有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1