当前位置: 首页 > 专利查询>杜小勇专利>正文

一种基于聚类的形容词极性判断系统和方法技术方案

技术编号:3842277 阅读:476 留言:0更新日期:2012-04-11 18:40
一种基于聚类的形容词极性判断系统和方法,其中该系统包括:句子切分单元,用于对需要判断的句子进行切分;同极性句子合并单元,用于将每个句子中的句子片段按照极性是否相同分为两堆;同极性形容词合并单元,用于检查每堆中的子句片段含有的否定词个数;初始语义矩阵形成单元,用于形成初始语义矩阵;相似度矩阵计算单元,用于对初始语义矩阵形成单元生成的初始语义矩阵进行扩展计算,计算出矩阵中对应位置没有值的那些形容词的相似度;以及语义极性聚类单元,用于利用相似度矩阵计算单元得到的矩阵进行聚类以聚成两类。

【技术实现步骤摘要】

本专利技术涉及一种形容词极性判断系统和方法,尤其是涉及一种基 于聚类的形容词极性判断系统和方法。
技术介绍
在评论中,形容词总是富含评论者的语义极性或称情感倾向,那 么如何有效的判断这些形容词的情感倾向,将是^f艮多实际应用(比如 意见挖掘,基于内容的广告投放)的核心内容。形容词按照其语义极性与上下文的关系,可以分为上下文相关的 形容词和上下文无关的形容词。上下文无关的形容词是指其语义极性 不随所处句子的上下文而改变的那些形容词,而上下文相关的形容词 是指其语义极性可能会随不同的句子上下文而发生根本性的改变。比如,这里给出三条评论句子如下1、 这款相机的外观真的很漂亮;2、 这款相机太大了,携带不方便;3、 相机屏幕很大很清晰。可以看出句子1中的形容词"漂亮"是与上下文无关的,因为"漂亮" 无论放在任何上下文中,其语义极性都是正面的;相比句子2和句子3 中的形容词都是"大",但是句子2中是负面的语义极性,而句子3是正 面的语义极性,同样一个形容词在不同的上下文中会有完全相反的语 义才及性。目前的形容词的语义极性判断方法,主要有三类51、 构建语义极性词典;2、 基于上下文^L则的方法;3、 结合方法1和方法2。对于第一类方法,目的是试图构建一个形容词的语义极性词典, 在这个词典中记下每个词的语义极性。英文语种中通常是借助附 ^/V^ 这个词库本体来得到词典中形容词的语义极性;由于中文语种还没有类似附 ^AW的本体,所以该方法主要是集中在英文语种上。这类方 法的最大缺陷是,无法判断上下文相关的形容词的极性,因为能够记 录在词典中的形容词都是上下文无关的词,对于上下文相关的词由于 不同的环境极性可能会不同,所以不能作为词典中的单个条目。对于第二类方法,目的是给出一些上下文规则,来辅助判断上下 文相关的形容词的极性,比如句子中的转折词"但是"和连词"而且" 等。这些词的存在说明该句子的语义极性发生逆转或递进。这种方法 对于判断上下文相关的形容词的极性比较有效,但是对于上下文无关 的形容词的极性判断仍然需要借助于大型的语义词典。第三类方法是结合了第一类方法和第二类方法,即事先还是构建 一个上下文无关的形容词的语义词典,对于词典无法判断的形容词, 利用方法二来判断。这个方法存在的缺陷是对语义词典的要求过高, 如果语义词典中的词不全,则很多情况下会判断失效。综上所述,现有的判断形容词的语义极性的方法对语义词典的要 求过高,这就限制了极性判断的广度,这样总是会存在无法判断的词 存在(词典中不存在的情况),所以正是基于这样的缺陷,提出了本发 明。
技术实现思路
本专利技术是鉴于上述技术问题而产生的。本专利技术的一个目的是提出。在一个方面中,根据本专利技术的基于聚类的形容词极性判断系统包括句子切分单元,用于对需要判断的句子进行切分以形成句子片段; 同极性句子合并单元,用于将每个句子中的句子片段按照极性是否相 同分为两堆,每堆中的句子片段具有相同的语义极性;同极性形容词 合并单元,用于检查每堆中的子句片段含有的否定词个数,若含有奇 数个否定词,则把相应的形容词放到另一堆中,若为偶数个否定词, 则继续留在该堆中;初始语义矩阵形成单元,用于形成初始语义矩阵; 相似度矩阵计算单元,用于对初始语义矩阵形成单元生成的初始语义 矩阵进行扩展计算,计算出矩阵中对应位置没有值的那些形容词的相 似度;以及语义极性聚类单元,用于利用相似度矩阵计算单元得到的 矩阵进行聚类以聚成两类,并判断两个类别的极性。在这个方面中,其中句子切分单元进一步包括层次切分单元用 于将包含众多形容词的句子切分成句子-同极性句-子句的层次;形 容词编号单元,用于对每个形容词进行定位编号。在这个方面中,其中同极性形容词合并单元进一步包括:检查单 元,用于检查每个句子的两类子句集合每一类中的每个子句含有的否 定词个数是偶数还是奇数;抽取单元,用于在该子句的否定词个数为 奇数的情况下将抽取出的形容词加入到另 一类中。在这个方面中,其中初始语义矩阵形成单元将句子号相同并且处相似度设为-1,并且将处于同一堆中但不在同一子句中的两个形容词 词的语义相似度设为a,其中0<0[<1,以待在相似度矩阵计算单元中进 行扩展。在这个方面中,其中相似度矩阵计算单元利用下述计算出矩阵中对应位置没有值的那些形容词的相似度,其中/和7'表示句子中任意两 个没有语义关系的形容词,k是与/和_/均有语义关系的形容词在另一个方面中,根据本专利技术的基于聚类的形容词极性判断方法 包括步骤A、对需要判断的句子进行切分以形成句子片段;B、将每 个句子中的句子片段按照极性是否相同分为两堆,每堆中的句子片段 具有相同的语义极性;C、检查每堆中的子句片段含有的否定词个数, 若含有奇数个否定词,则把相应的形容词放到另一堆中,若为偶数个否定词,则继续留在该堆中;D、形成初始语义矩阵;E、对步骤D生 成的初始语义矩阵进行扩展计算,计算出矩阵中对应位置没有值的那 些形容词的相似度;以及F、利用在步骤E得到的矩阵进行聚类以聚 成两类,并判断两个类别的极性。在这个方面中,其中步骤A进一步包括将包含众多形容词的句 子切分成句子-同极性句-子句的层次;对每个形容词进行定位编号。在这个方面中,其中步骤C进一步包括检查每个句子的两类子 句集合每一类中的每个子句含有的否定词个数是偶数还是奇数;在该 子句的否定词个数为奇数的情况下将抽取出的形容词加入到另 一类 中。在这个方面中,其中在步骤D中将句子号相同并且处于该句子相 同的极性类中的两个形容词的语义相似度设为1,将形容词的句子号相 同但是处于该句子不同的极性类中的两个形容词词的语义相似度设为 - 1,并且将处于同一堆中但不在同一子句中的两个形容词词的语义相 似度设为a,其中0<01<1,以待在步骤E中进行扩展。在这个方面中,其中在步骤E中利用下述计算出矩阵中对应位置 没有值的那些形容词的相似度,其中/和_/表示句子中任意两个没有语 义关系的形容词,k是与z'和y均有语义关系的形容词通过本专利技术,既能判断上下文无关的形容词的语义极性,又能高效的 判断上下文相关的形容词的语义极性。本专利技术仅需要少量的上下文无关的 形容词作为种子词,通过一次聚类就能准确的判断句子中所有形容词的语 义极性。不需要含大量词的语义极性词典,本专利技术仅需要借助少量的种子 词,而不需要限制在词典的规模上。附图说明结合随后的附图,从下面的详细说明中可显而易见的得出本专利技术 的上述及其他目的、特征及优点。在附图中图1给出了根据本专利技术的基于聚类的形容词极性判断方法的流程图2给出了根据本专利技术的对句子的切分粒度层次的示意图; 图3给出了根据本专利技术的示例;图4给出了根据本专利技术的基于聚类的形容词极性判断系统的方框图5给出了4艮据本专利技术的句子切分单元的详细方框图6给出了根据本专利技术的同极性形容词合并单元的详细方框以及图7给出了能够实施本专利技术的一个示例环境的示意图。 具体实施例方式在下文中将详细地论述的,本公开可以采用完全硬件的实施例、 完全软件的实施例或包括硬件和软件元件两者的实施例的形式。在优 选实施例中,本公开可以用软件来实施,其可以包括但不局限于固件、 驻留软件、微码等等。首先,参考图1,对根据本专利技术的基于聚类的形容词本文档来自技高网
...

【技术保护点】
一种基于聚类的形容词极性判断系统包括: 句子切分单元,用于对需要判断的句子进行切分以形成句子片段; 同极性句子合并单元,用于将每个句子中的句子片段按照极性是否相同分为两堆,每堆中的句子片段具有相同的语义极性; 同极性形容词 合并单元,用于检查每堆中的子句片段含有的否定词个数,若含有奇数个否定词,则把相应的形容词放到另一堆中,若为偶数个否定词,则继续留在该堆中; 初始语义矩阵形成单元,用于形成初始语义矩阵; 相似度矩阵计算单元,用于对初始语义矩阵形成 单元生成的初始语义矩阵进行扩展计算,计算出矩阵中对应位置没有值的那些形容词的相似度;以及 语义极性聚类单元,用于利用相似度矩阵计算单元得到的矩阵进行聚类以聚成两类,并判断两个类别的极性。

【技术特征摘要】

【专利技术属性】
技术研发人员:杜小勇刘红岩何军杨慧魏巍
申请(专利权)人:杜小勇
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1