文本情感极性分类系统和方法技术方案

技术编号：3898167 阅读：297 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种文本情感极性分类系统，包括：输入装置，用于输入多个文本；以及文本情感极性分类装置，用于根据文本中包含的至少一个词的情感极性确定文本情感极性，并基于文本情感极性可信度迭代地改变文本和词的情感极性，直到文本或词的情感极性不发生变化。由于本发明专利技术根据可信度筛选文本来确定词的情感极性，并根据词的情感极性确定文本的情感极性，从而避免了在迭代过程中引入错误，提高了文本情感极性判断的正确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域，具体地，涉及一种。
技术介绍
随着因特网的广泛普及，人与人之间的交流变得更为方便。大部分人在使用了某种产品后，有发表自己的评论和感想的愿望。因特网的发展为这种愿望提供了平台。目前的多种网站专门建立了产品评论频道，供用户发表对产品的评论和感想。这些评论对潜在用户和生产厂商都是有用的。对潜在用户而言，这些评论能帮助他们了解产品优缺点并帮助自己做出购买哪种产品的最后选择，对生产厂商而言，可以帮助他们了解用户评价并根据评价改进产品。所以对这些产品评论的文本分析是十分有用的技术。产品评论分析可以是多层次、多角度的，其中一种分析是确定产品评论的文本的情感极性。例如，如果某篇文本的主题(即，产品)是“好的”，则文本具有正情感极性。相反，如果文本的主题是“不好的”，则文本具有负情感极性。还有一类文本是中性的，其主题并没有偏好。通常，文本的情感极性是通过文本中的词的情感极性来确定的。表述正面情感的词(例如，好，漂亮，方便)称为正情感极性词，而表述负面情感的词(例如，坏，丑，混乱)称为负情感极性词。总的来说，确定产品评论的文本的情感极性有两种方式监督式和非监督式。前者需要一个人工标注的训练样本集，后者不需要。由于训练样本集需要人工标注，而且一般是基于领域的，即，不同领域需要不同的训练样本集，所以构建的时间和资金成本都比较高。而非监督方法不需要训练样本集，所以相对监督式方法而言具有速度快、成本低等优势。文献 1 (Taras Zagibalov, John Carroll. Automatic Seed WordSe...

【技术保护点】
一种文本情感极性分类系统，包括：输入装置，用于输入多个文本；以及文本情感极性分类装置，用于根据文本中包含的至少一个词的情感极性确定文本情感极性，并基于文本情感极性可信度迭代地改变文本和词的情感极性，直到文本或词的情感极性不发生变化。

【技术特征摘要】

【专利技术属性】
技术研发人员：赵凯，邱立坤，胡长建，
申请(专利权)人：日电中国有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人