获取评价单元、建立句法路径词典的方法、装置及系统制造方法及图纸

技术编号:3845875 阅读:246 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种获取评价单元、建立句法路径词典的方法、装置及系统,属于计算机领域。所述获取评价单元的方法包括:识别情感句的极性词和目标词;创建句法路径,所述句法路径用于连接所述极性词与所述目标词;根据句法路径词典获取所述句法路径对应的目标词,其中,所述句法路径词典用于存储标准句法路径;将所述极性词与所述获取的目标词组成评价单元。所述获取评价单元的装置包括:第一识别模块、第一创建模块、第一获取模块和第一组成模块。所述系统包括:获取评价单元的装置和建立句法路径词典的装置。本发明专利技术实施例所述技术方案可以提高召回率,减少人工成本。

【技术实现步骤摘要】

本专利技术涉及计算机领域,特别涉及一种获取评价单元、建立句法路径词典的方法、 装置及系统。
技术介绍
情感分析(Sentiment Analysis)主要是针对主观性文本单元,例如篇章、句子、短 语、词语等,自动获取有用的意见信息和相关知识。情感分析主要是通过获取情感句中的评 价单元,来识别出情感句的褒义、中性还是贬义。其中,评价单元是极性词和目标词的搭配 对,极性词(Polarity Word)是表示情感倾向性的词语,目标词(Target Word)是极性词所 修饰的某种产品或事件的属性,如在音乐领域,目标词可以为“节奏”、“嗓音”等;在汽车领 域,目标词可以为“方向盘”、“座椅”等。因此,评价单元是体现情感句褒贬义的一个重要元 素。在实际应用中,如何获取评价单元是进行情感分析的重要组成部分。为了获取评价单元,现有技术提供了如下两种方法第一种方法是使用特殊的共现模板半自动地获取评价单元。该方法定义评价 单元为三元组(Subject,Attribute, Value),将评价单元的每个元素作为共现模板的槽 值,通过共现模块从待分析的情感句中匹配评价单元的三个元素。例如一个共现模块 <Attribute>of<Subject>is<Value>,待分析的情感句为 The picture of this camera is great,对该句子使用共现模板进行匹配来抽取三元组,分别为(this camera, the picture, great)。该方法需要构建Subject、Attribute以及Value三个词典,为每个词 典手工挑选种子词语进行初始化以及挑选了 8个出现频率较高的共现模板。首先,生成 Attribute和Value ;其次,通过人工筛选生成的Attribute和Value,将筛选过后的正确的 Attribute和Value放入到各自的词典中。第二种方法是通过研究评价单元二元组(极性词,目标词)来获取评价单元。该 方法首先需要建立三个词典,第一个词典是极性词词典,第二个词典是通过手工搜集得到 的目标词词典,第三个词典是通过手工创建的链接说明词典,其中,链接说明词典主要是句 法关系的描述。该方法通过使用极性词词典和目标词词典,在情感句中标注其所含有的极 性词和目标词,使用链接说明词典,根据每一对极性词和目标词的句法关系来判断他们是 否是正确的搭配对,从而获取评价单元。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题第一种方法共现模板种类较为单一,涵盖面较窄,从而导致召回率低;选择过程需 要进行人工筛选。第二种方法容易遗漏一些类型的句法关系,从而导致召回率低;构建词典需要手 工完成,并且词典的可移植性差。
技术实现思路
有鉴于此,本专利技术实施例提供了一种获取评价单元、建立句法路径词典的方法、装置及系统。所述技术方案如下 一种获取评价单元的方法,所述方法包括 识别情感句的极性词和目标词;创建句法路径,其中,所述句法路径用于连接所述极性词与所述目标词;根据句法路径词典获取所述句法路径对应的目标词,其中,所述句法路径词典用 于事先存储标准句法路径;将所述极性词与所述获取的目标词组成评价单元。一种获取评价单元的装置,所述装置包括第一识别模块,用于识别情感句的极性词和目标词;第一创建模块,用于用于创建句法路径,其中,所述句法路径用于连接所述极性词 与所述目标词;第一获取模块,用于根据句法路径词典获取所述句法路径对应的目标词,其中,所 述句法路径词典用于事先存储标准句法路径;第一组成单元,用于将所述极性词与所述获取的目标词组成评价单元。一种建立句法路径词典的方法,所述方法包括识别情感句语料库的情感句的极性词和目标词;创建所述情感句的极性词与目标词之间的句法路径,其中,所述句法路径用于连 接所述极性词与所述目标词;对所述句法路径进行泛化;计算泛化后的所述句法路径出现的次数,将所述计算得到的次数作为所述句法路 径的频率;选取频率超过设定的阈值的所述句法路径作为标准句法路径,将所述标准句法路 径组成句法路径词典。一种建立句法路径词典的装置,所述装置包括第二识别模块,用于识别情感句语料库的情感句的极性词和目标词;第二创建模块,用于创建所述极性词与所述目标词之间的句法路径,所述句法路 径用于连接所述极性词与所述目标词;第二泛化模块,用于对所述句法路径进行泛化;计算模块,用于计算所述第二泛化模块泛化后的所述句法路径出现的次数,将计 算得到的次数作为所述句法路径的频率;第二组成模块,用于选取频率超过设定的阈值的所述句法路径作为标准句法路 径,将所述标准句法路径组成所述句法路径词典。一种获取评价单元的系统,所述系统包括建立句法路径词典的装置,用于识别出情感句语料库的情感句的极性词和目标 词,创建所述极性词与所述目标词之间的句法路径,其中,所述句法路径用于连接所述极性 词与所述目标词;对所述句法路径进行泛化,计算泛化后的所述句法路径出现的次数,将所 述计算得到的次数作为句法路径的频率;选取频率超过设定的阈值的所述句法路径作为标 准句法路径,将所述标准句法路径组成句法路径词典;获取评价单元的装置,用于识别出情感句的极性词和目标词,创建句法路径;根据6所述建立句法路径词典的装置建立的句法路径词典获取所述句法路径对应的目标词;将所 述极性词与所述获取的目标词组成评价单元。 在本专利技术实施例中,通过创建极性词与目标词间的句法路径,根据句法路径词典 获取句法路径对应的目标词,将极性词与获取的目标词组成评价单元,利用句法路径描述 极性词与目标词间的关系,句法路径的种类较多,涵盖面宽,提高了召回率和准确率,在获 取评价单元的过程中不需要人工操作,降低了人工成本。附图说明图1是本专利技术实施例图2是本专利技术实施例图3是本专利技术实施例图4是本专利技术实施例图5是本专利技术实施例图6是本专利技术实施例图7是本专利技术实施例图8是本专利技术实施例1提供的一种获取评价单元的方法的流程图; 2提供的一种获取评价单元的方法的流程图; 提供的句法树结构示意图; 3提供的一种获取句法路径的方法的流程图; 4提供的一种建立句法路径词典的方法的流程图 5提供的一种获取评价单元的装置的示意图; 6提供的一种建立句法路径词典的装置的示意图 7提供的一种获取评价单元的系统示意图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方 式作进一步地详细描述。实施例1如图1所示,本专利技术实施例提供了一种获取评价单元的方法,包括101 识别出情感句的极性词和目标词;102 创建句法路径,其中,句法路径用于连接极性词与目标词;其中,句法路径用于描述极性词与目标词之间的句法关系。103 根据句法路径词典获取句法路径对应的目标词,其中,句法路径词典用于事 先存储标准句法路径;其中,根据句法路径词典获取句法路径对应的目标词可以参见实施例2和实施例 3的相应部分,句法路径词典可以事先按照实施例4提供的方法进行建立,但不限于以上方 式。104 将极性词与获取的目标词组成评价单元。本专利技术实施例通过创建句法路径,根据句法路径词典获取句法路径对应的目标 词,将极性词与获取的目标词组成评价单元,采用句法路径描述极性词与目标词之间的关 系本文档来自技高网
...

【技术保护点】
一种获取评价单元的方法,其特征在于,所述方法包括:识别情感句的极性词和目标词;创建句法路径,所述句法路径用于连接所述极性词与所述目标词;根据句法路径词典获取所述句法路径对应的目标词,其中,所述句法路径词典用于存储标准句法路径;将所述极性词与所述获取的目标词组成评价单元。

【技术特征摘要】

【专利技术属性】
技术研发人员:王震张翼陈儒高立琦刘桂平
申请(专利权)人:华为技术有限公司问天北京信息技术有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1