当前位置: 首页 > 专利查询>清华大学专利>正文

一种中文的观点、评价信息的属性-观点对抽取方法技术

技术编号:7682496 阅读:175 留言:0更新日期:2012-08-16 05:51
公开了一种不需要标注和训练模型、准确率较高、具有较高的鲁棒性的中文的观点、评价信息的属性-观点对抽取方法,包括以下步骤:(1)对中文的观点、评价信息进行分词和词性标注,得到观点、评价信息中的每一个词及对应的词性;(2)抽取属性-观点对;(3)统计正面、负面属性-观点对出现的次数,然后判断是否正面出现次数大于负面出现次数,如果是则为正面属性-观点对,否则为负面属性-观点对。

【技术实现步骤摘要】

本专利技术涉及计算机应用技术的
,具体地涉及ー种中文的观点、评价信息的属性-观点对抽取方法
技术介绍
“属性-观点”对,也可以叫做“特征-观点”对,在评论中,属性和特征是相对产品或服务而言的,反映了一个产品或服务的不同方面。评论中属性词与观点词对的抽取是实现文档摘要、属性分析、极性判断等研究的基础工作,具有较高的研究价值。我们认为,属性是表达相同意思的同义词集,例如,“性价比”,“价位”,“价钱”,“价格”,“售价”可以看作是“性价比”这个属性的同义词集,也就是属性词。同一个产品或服务,对应于很多属性,例如,手机有“外观”,“质量”,“性价比”,“信号”等属性。观点词一般用来描述属性词,例如,“性价比”的观点词为“高”。属性观点对的抽取有很多相关的研究,但是涉及到中文领域的不是很多。一般来说,有基于规则的方法和机器学习的方法。例如,定义规则出现属性词后面的观点词即认为是属性观点对;机器学习的方法需要人工标注数据,抽取特征训练模型。但是,这些方法需要标注和训练模型,准确率不高,鲁棒性低。
技术实现思路
为克服现有技术的缺陷,本专利技术要解决的技术问题是提供了ー种不需要标注和训练模型、准确率较高、具有较高的鲁棒性的中文的观点、评价信息的属性-观点对抽取方法。本专利技术的技术方案是这种中文的观点、评价信息的属性-观点对抽取方法,包括以下步骤(I)对中文的观点、评价信息进行分词和词性标注,得到观点、评价信息中的每ー个词及对应的词性;(2)抽取属性-观点对;(3)统计正面、负面属性-观点对出现的次数,然后判断是否正面出现次数大于负面出现次数,如果是则为正面属性-观点对,否则为负面属性-观点对。该方法充分利用大規模的互联网上用户标注的信息,同时结合句法、语法规则和大規模语料上的统计分析,不需要人工标注数据和训练模型,准确率较高,且具有较高的鲁棒性。附图说明图I是根据本专利技术的中文的观点、评价信息的属性-观点对抽取方法的流程图;图2是根据本专利技术的统计正面、负面属性-观点对出现的次数的流程图。具体实施方式下面对本专利技术的技术方案做进一步的详细描述。如图I所示,这种中文的观点、评价信息的属性-观点对抽取方法,包括以下步骤(I)对中文的观点、评价信息进行分词和词性标注,得到观点、评价信息中的每一个词及对应的词性;(2)抽取属性-观点对;(3)统计正面、负面属性-观点对出现的次数(如图2所示),然后判断是否正面出现次数大于负面出现次数,如果是则为正面属性-观点对,否则为负面属性-观点对。该方法结合规则和统计信息,不需要标注和训练模型,准确率较高,且具有较高的鲁棒性。优选地,步骤⑵包括以下分步骤(2. I)抽取基于语法词性关系的属性-观点对;(2. 2)再抽取基于候选词典的属性-观点对;(2. 3)从搭配关系,领域相关性以及观点词是否具有倾向性三个方面来对步骤(2.2)的属性-观点对进行过滤;(2. 4)扩展步骤(2. 3)的属性-观点对中的观点词和属性词;(2. 5)对属性-观点对的极性进行判断。在步骤(2. I)中对于语法关系的使用,我们选择利用依存文法。依存文法通过分析一个句子内部语言单位成分的依存关系来揭示句子的句法结构。具体到属性词和观点词之间存在的依存关系,主要可以分为如下两类第一,属性词和观点词存在直接的依存关系。比如,在“性价比很高”这句话中,“性价比”和“高”直接存在直接的主谓关系(在Stanford Parser中判定为nsubj关系)。第二,属性词和观点词存在间接的依存关系。即二者共同与第三个语言单位存在依存关系。比如,在“11寸的体型确实是同类产品中最小巧的”这句话中,“体型”和“小巧”属于属性-词观点词对。二者并没有直接的依存关系,而是共同与“是”存在依存关系“体型”与“是”构成了主谓关系(在Stanford Parser中判定为nsubj关系),“是”与“小巧”构成了表语关系(在Stanford Parser中判定为attr关系)。由于现有的中文语言处理工具所得到的句子依存关系中,会出现不可避免的错误。所以仅依靠依存关系来提取属性词-观点词对可能带来很大的噪音。为此,我们在利用依存关系的同时,增加了对词语词性的限制。这样,一个属性词-观点词对的抽取规则(见表I)就可以用如下的三元组来表示〈依存关系,属性词词性,观点词词性>。表I权利要求1.,其特征在于包括以下步骤 (1)对中文的观点、评价信息进行分词和词性标注,得到观点、评价信息中的每一个词及对应的词性; (2)抽取属性-观点对; (3)统计正面、负面属性-观点对出现的次数,然后判断是否正面出现次数大于负面出现次数,如果是则为正面属性-观点对,否则为负面属性-观点对。2.根据权利要求I所述的中文的观点、评价信息的属性-观点对抽取方法,其特征在于步骤⑵包括以下分步骤 (2. I)抽取基于语法词性关系的属性-观点对; (2. 2)再抽取基于候选词典的属性-观点对; (2. 3)从搭配关系,领域相关性以及观点词是否具有倾向性三个方面来对步骤(2. 2)的属性-观点对进行过滤; (2. 4)扩展步骤(2. 3)的属性-观点对中的观点词和属性词; (2. 5)对属性-观点对的极性进行判断。3.根据权利要求2所述的中文的观点、评价信息的属性-观点对抽取方法,其特征在于步骤(2. 2)包括以下分步骤 (2. 2. I)生成一个观点词表和一个属性词表; (2. 2. 2)使用已有的字典对属性词和观点词进行扩展,即属性词只与其最近的观点词进行搭配,从而减少了同一句中不同的属性词和观点词出现的组合情况,以致生成了一个〈属性词,观点词,句子 > 的三元组的集合。4.根据权利要求3所述的中文的观点、评价信息的属性-观点对抽取方法,其特征在于步骤(2. 3)包括以下分步骤 (2. 3. I)判断搭配关系; (2. 3. 2)基于领域互信息进行过滤。5.根据权利要求4所述的中文的观点、评价信息的属性-观点对抽取方法,其特征在于步骤(2. 3. I)使用了公式(I)进行加权评分Score = (OccurScore+RelationScore)*FrDistanceFactor*FlagFactor (I) 其中,OccurScore和RelationScore分别为Noccur和relation的分段函数,而FrDistanceFactor 和 FlagFactor 则分别是惩罚因子,同 frDistance 和 flag有关,对 Score取指定阈值即可对搭配关系进行判定。6.根据权利要求5所述的中文的观点、评价信息的属性-观点对抽取方法,其特征在于步骤(2. 3. 2)使用了公式2进行过滤 M(w,D)^f=olog^^⑵ 其中,P(W)为词W在所有语料中出现的概率,P (D(i))为第i个领域出现的概率,等于第i个领域中的词的个数占所有语料中词的个数的比例,P(w, D(i))为词w在第i个领域中出现的次数处理所有语料中的单词数,其中i为正整数。7.根据权利要求6所述的中文的观点、评价信息的属性-观点对抽取方法,其特征在于步骤(2. 4)包括以下步骤 (2. 4. I)在原始语料中计算相邻两个词的互信息,相邻两个词本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:黄民烈朱小燕
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1