一种中文的观点、评价信息的属性-观点对抽取方法技术

技术编号：7682496 阅读：175 留言：0更新日期：2012-08-16 05:51

公开了一种不需要标注和训练模型、准确率较高、具有较高的鲁棒性的中文的观点、评价信息的属性-观点对抽取方法，包括以下步骤：(1)对中文的观点、评价信息进行分词和词性标注，得到观点、评价信息中的每一个词及对应的词性；(2)抽取属性-观点对；(3)统计正面、负面属性-观点对出现的次数，然后判断是否正面出现次数大于负面出现次数，如果是则为正面属性-观点对，否则为负面属性-观点对。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机应用技术的
，具体地涉及ー种中文的观点、评价信息的属性-观点对抽取方法。
技术介绍
“属性-观点”对，也可以叫做“特征-观点”对，在评论中，属性和特征是相对产品或服务而言的，反映了一个产品或服务的不同方面。评论中属性词与观点词对的抽取是实现文档摘要、属性分析、极性判断等研究的基础工作，具有较高的研究价值。我们认为，属性是表达相同意思的同义词集，例如，“性价比”，“价位”，“价钱”，“价格”，“售价”可以看作是“性价比”这个属性的同义词集，也就是属性词。同一个产品或服务，对应于很多属性，例如，手机有“外观”，“质量”，“性价比”，“信号”等属性。观点词一般用来描述属性词，例如，“性价比”的观点词为“高”。属性观点对的抽取有很多相关的研究，但是涉及到中文领域的不是很多。一般来说，有基于规则的方法和机器学习的方法。例如，定义规则出现属性词后面的观点词即认为是属性观点对；机器学习的方法需要人工标注数据，抽取特征训练模型。但是，这些方法需要标注和训练模型，准确率不高，鲁棒性低。
技术实现思路
为克服现有技术的缺陷，本专利技术要解决的技术问题是提供了ー种不需要标注和训练模型、准确率较高、具有较高的鲁棒性的中文的观点、评价信息的属性-观点对抽取方法。本专利技术的技术方案是这种中文的观点、评价信息的属性-观点对抽取方法，包括以下步骤(I)对中文的观点、评价信息进行分词和词性标注，得到观点、评价信息中的每ー个词及对应的词性；(2)抽取属性-观点对；(3)统计正面、负面属性-观点对出现的次数，然后判断是否正面出现次数大于负面出现次数，如果是则为正面属性...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：黄民烈，朱小燕，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人