当前位置: 首页 > 专利查询>山西大学专利>正文

一种汉语框架网标注时框架排歧方法及装置制造方法及图纸

技术编号:7241940 阅读:243 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种汉语框架网标注汉语句子时的框架排歧方法及装置,该方法包括:选择训练语料,对训练语料中的句子进行依存句法分析;将框架排歧任务作为标注任务,选择树结构条件随机场模型为标注模型,并为建立的标注模型选择特征;根据所述选择的特征利用训练语料对所述标注模型进行训练,得到合适的标注模型;将待识别句子的词性标注信息以及依存句法关系提交训练后的标注模型,得到待识别句子中目标词的所属框架。

【技术实现步骤摘要】

本专利技术涉及中文信息处理技术和语义处理
,特别涉及一种汉语框架网标注汉语句子时的框架排歧的方法及装置。
技术介绍
随着中文信息处理技术的不断发展,越来越多的研究人员逐渐从对词法、句法方面的研究过渡到语义方面。汉语框架网(Chinese FrameNet)就是中文语义的探索性研究之一。利用汉语框架网对一个中文句子进行标时,经常遇到一个目标词可以充当多个不同框架的词元这种问题,这是由于中文词汇的多义现象所致。上述情况导致用户在利用汉语框架网进行中文句子分析时,很难选择合适的框架。现有技术中虽然提出了框架排歧的概念,即根据上下文语境与各个侯选框架所表示场景的一致程度,为目标词选择一个合适的框架。但是针对以上提到的汉语框架排歧问题,至今还没有一种有效的解决办法。
技术实现思路
本专利技术实施例提供一种汉语框架网标注汉语句子时的框架排歧方法及装置,用于解决现有技术中没有合适的方法实现汉语框架排歧的问题。一种汉语框架网标注汉语句子时框架排歧的方法,当应用汉语框架网标注待识别句子的框架信息时,包括选择训练语料,该训练语料包含待识别句子中出现的目标词激起的所有框架的句子实例,并且包括每个句子实例的框架语义信息;对所述句子实例进行依存句法分析,得到每个句子实例的依存句法关系;选择树结构条件随机场T-CRF模型作为框架排歧任务的标注模型,并利用所述句子实例的词法信息、依存句法关系和框架语义信息进行标注模型的训练,得到特定参数的标注模型;对待识别句子进行分词、词性标注及依存句法分析,得到待识别句子的词法信息和依存句法关系;将待识别句子的词法信息和依存句法关系提交所述特定参数的标注模型,得到待识别句子中目标词的所属框架。根据上述方法本专利技术还提供一种汉语框架网标注时框架排歧的装置,包括训练语料选择模块,用于当应用汉语框架网标注待识别句子的框架信息时,选择训练语料,该训练语料包含待识别句子中出现的目标词激起的所有框架的句子实例,并且包括每个句子实例的框架语义信息;依存句法分析模块,用于对所述句子实例进行依存句法分析,得到每个句子实例的依存句法关系;标注模型生成模块,用于选择树结构条件随机场T-CRF模型作为框架排歧任务的标注模型,并利用所述句子实例的词法信息、依存句法关系和框架语义信息进行标注模型的训练,得到特定参数的标注模型;待识别框架句子处理模块,用于对待识别句子进行分词、词性标注及依存句法分析,得到待识别句子的词法信息和依存句法关系;将待识别句子的词法信息和依存句法关系提交所述特定参数的标注模型,得到待识别句子中目标词的所属框架。应用本专利技术实施例所提供的方法进行框架排歧时,首先,引入了句子的依存句法关系,由于语义上的歧义在许多情况下可以通过句法信息来区分,因此依存句法关系非常有利于框架排歧的处理。其次,运用了 T-CRF模型。T-CRF模型可以与句子的依存句法关系结合,更加合理地利用句子的依存句法关系。附图说明图1为本专利技术实施例一种汉语框架网标注时框架排歧方法的流程图;图2为现有技术中举例句子进行依存分析的结果示例图;图3为本专利技术实施例中处理待识别的句子具体实现流程图;图4为本专利技术实施例中得到合适标注模型的方法流程图;图5为本专利技术实施例一种汉语框架网标注时框架排歧装置的结构图;图6为本专利技术实施例中标注模型生成模块的结构图。具体实施例方式本专利技术实施例提供一种语义消岐的方法,具体包括选择训练语料,该训练语料包含待识别句子中出现的目标词激起的所有框架的句子实例,并且包括每个句子实例的框架语义信息;对所述句子实例进行依存句法分析,得到每个句子实例的依存句法关系;选择树结构条件随机场T-CRF模型作为框架排歧任务的标注模型,并利用所述句子实例的词法信息、依存句法关系和框架语义信息进行标注模型的训练,得到特定参数的标注模型;对待识别句子进行分词、词性标注及依存句法分析,得到待识别句子的词法信息和依存句法关系;将待识别句子的词法信息和依存句法关系提交所述特定参数的标注模型,得到待识别句子中目标词的所属框架。如图1所示,本专利技术实施例提供一种汉语框架网标注汉语句子时框架排歧的方法,当应用汉语框架网标注待识别句子的框架信息时,具体实现方法包括步骤步骤101,选择训练语料。本专利技术实施例所提供的方法运用了机器学习方法,因此需要训练语料来训练机器学习模型。训练语料必须包含待识别句子中出现的所有目标词能够激起的所有框架的句子实例,并且包括每个句子实例的框架语义信息。如,动词“是”一共可以激起两个框架框架和框架。因此,如果待识别句子中出现了 “是”这个目标词,那么训练语料中必须得有“是” 激起框架的实例,同时也得有“是”激起框架的实例。训练语料可以选择经过汉语框架网标注的特定的语料来充当,也可以直接选择汉语框架网的句子库作为训练语料。其中选择汉语框架网的句子库作为训练语料更方便、更合理。因为汉语框架网的句子库有以下几个特点规模大、语料有代表性、语言现象丰富、标注完整无误。步骤102,对训练语料中的句子实例进行依存句法分析,得到每个句子实例的依存句法关系。本专利技术方法需要运用句子的依存句法关系,因此需要对训练语料进行依存句法分析。依存句法分析一般通过运用现成的工具来实现。图2则为句子“钱其琛表示同意斯卡尔法罗总统的看法”进行依存分析的结果示例图。选择依存分析图中的特定依存关系是标注模型完成标注的主要依据。步骤103,选择树结构条件随机场(T-CRF,tree-structured conditional random field),模型作为框架排歧任务的标注模型。条件随机场(CRF)是处理序列标注任务的最先进的方法。树结构条件随机场 (T-CRF)是一种特殊的CRF模型,它能够对层次结构中的依存关系进行建模,句子的依存图即可用T-CRF来建模。T-CRF的图形结构为一棵树,它主要包括三种结点关系父-子,子-父,兄弟。本专利技术中仅考虑前两种关系,而忽略兄弟关系,因为在一个句子的依存句法树中,同一层次各结点之间的依存关系非常弱。基上以上考虑,本专利技术中,T-CRF模型中各种概率分配如下=+ α +Z (X) VeFF ^λJj(V^iyXx)JG = ^kgk{v,y{v),x,v\y{V))S 二 Σσ^;(ν,Χν),χ,ν*,Χν*))ι上面的F、G、S分别代表当前结点的特征、当前结点父结点的特征、当前结点子结点的特征。T-CRF模型中的观察序列χ对应于句子中的一个词,而标注序列y对应于这个词激起框架的框架名称。因此,如果一个词为句子中的目标词,对应的y为激起框架的名称,若不然,对应的y则为NULL。CRF模型的原理是使标注序列在观察序列上的条件概率最大。步骤104,利用句子实例的词法信息、依存句法关系和框架语义信息进行T-CRF标注模型的训练,得到特定参数的标注模型。步骤105,对待识别句子进行分词、词性标注及依存句法分析,得到待识别句子的词法信息和依存句法关系。如图3所示,本步骤的实现步骤具体包括步骤301,针对待识别句子,进行分词、词性标注。步骤302,针对待识别句子,进行依存句法分析,得到待识别句子的依存句法关系。步骤106,将待识别句子的词法信息和依存句法关系提交所述特定参数的标注模6型进行处理,得到句子中目标词的所属框架。此步骤中的输本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:李茹刘海静李双红高俊杰
申请(专利权)人:山西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术