一种依存结构树库获取方法及系统技术方案

技术编号:15251068 阅读:71 留言:0更新日期:2017-05-02 14:17
本发明专利技术公开一种依存结构树库获取方法及系统,包括:调用第一树库,采用第一树库的转换工具将第一树库中的短语结构转换为依存结构;利用句法分析器对第一树库中的扁平结构的短语结构转换为依存结构;利用训练得到的依存关系映射模型,对第一树库中的依存结构进行依存关系转换,得到第二树库类型的依存结构树库,使得转换后的树库能与原有的依存结构树库合并,增大树库规模,提高句法分析器的性能。

Method and system for acquiring Dependency Structure Tree Library

The invention discloses a dependency structure Treebank acquisition method and system, including: the first call to Treebank, the first Treebank conversion tool to convert the phrase structure of the first Treebank in the dependency structure; phrase structure on the flat structure of the first Treebank in using the parser for dependency structure using dependency relation; the mapping model trained, depends on the structure of the first Treebank dependency relation conversion, second Treebank type dependency structure Treebank, which converted Treebank with original dependency structure Treebank merger, increase Treebank scale, improve the performance of the parser.

【技术实现步骤摘要】

本专利技术涉及树库转换,尤指一种依存结构树库获取方法及系统
技术介绍
句法分析是自然语言处理领域非常重要的研究方向。在基于统计的句法分析方法中,根据所使用的语料不同,可以分为有指导的方法和无指导的方法。有指导的方法需要事先按照一定的语法规范,人工标注好一些句子作为训练数据,然后通过各种概率统计方法或机器学习方法,从训练数据中获取句法分析所需要的知识。无指导的方法则使用没有经过标注的数据进行训练,按照一定的机制,从中自动学习语法规律。有指导的句法分析是现在的主流方法,目前在英语等语言中已经达到了较高的准确率。在有指导的句法分析中,事先标注的用于训练的句子集叫做树库。目前绝大多数的统计句法分析模型都是利用标注好的树库以有指导学习方式来训练模型的参数。因此,树库建设是一个非常重要的工作,其质量和规模直接关系到句法分析的训练效果。句法分析首先要遵循某一语法体系,根据该语法体系的语法确定语法树的表示形式。目前,在句法分析中使用比较广泛的有短语结构语法和依存语法。例如:“今年西门子将努力参与中国的三峡工程建设。”其短语结构分析结果如图1a,是类似于树的层层拆分结构。第一级为“S”即指整个句子“今年西门子将努力参与中国的三峡工程建设。”。第二级分为四个部分,第二级的第一部分“NP”即指名词短语,对应“今年”;第二级的第二部分“NP”即指名词短语,对应“西门子”;第二级的第三部分“VP”即指动词短语,对应“将努力参与中国的三峡工程建设”;第二级的第四部分“PU”即指标点符号,对应“。”。第三级分为三个部分,第三级的第一部分“ADVP”即指状语短语,对应“将”;第三级的第二部分“ADVP”即指状语短语,对应“努力”;第三级的第三部分“VP”即指动词短语,对应“参与中国的三峡工程建设”。第四级分为两个部分,第四级的第一部分“VV”即指动词,对应“参与”;第四级的第二部分“NP”即指名词短语,对应“中国的三峡工程建设”。第五级分为三个部分,第五级的第一部分“DNP”即指定语短语,对应“中国的”;第五级的第二部分“NP”即指名语短语,对应“三峡工程”;第五级的第三部分“NP”即指名词短语,对应“建设”。第六级分为四个部分,第六级的第一部分“NP”即指定语短语,对应“中国”;第六级的第二部分“DEG”即助词短语,对应“的”;第六级的第三部分“NP”即指定语短语,对应“三峡”;第六级的第四部分“NP”即指定语短语,对应“工程”。利用依存结构分析“中国的三峡工程建设”,结果如图1b。依存结构是利用带方向的弧线标注出各个词之间的关系。依存结构的分析结构比短语结构的分析结构更加直观。“今年西门子将努力参与中国的三峡工程建设。”的核心节点“VG”对应“参与”,“今年”、“将”和“努力”都是“参与”的“ADV”即状语关系,“西门子”与“参与”是“SBV”关系即主谓关系,“中国”与“的”是“ATT”关系即定语关系,“三峡”与“工程”是“ATT”关系即定语关系,“工程”与“建设”是“ATT”关系即定语关系。“。”后的“EOS”即空节点表示结束。如何利用图1a所示的短语结构分析结果转换为图1b所示的依存结构,是本领域需要解决的技术问题。英语句法分析的发展得益于PennTreebank(佩恩树库)的建立,PennTreebank的规模大,标注质量高,已成为英语句法分析事实上的标准,几乎所有的研究工作都基于该树库进行。同时,将PennTreebank转换为依存结构的工作也已经成熟。反观汉语方面,树库建设工作还有差距,既缺少统一的依存标注体系,也缺少大规模的依存树库。现存的汉语短语结构树库最著名的有宾夕法尼亚大学的中文树库PCT(PennChineseTreebank)、TCT(清华大学的汉语树库)等等。而汉语依存树库则相对比较少,著名的有HIT-IR-CDT(哈工大汉语依存树库)、SDN(清华大学电子系标注的树库)。HIT-IR-CDT是哈尔滨工业大学信息检索研究室标注的汉语依存树库。将PennTreebank转换为依存结构的技术已很成熟。相对应于英文依存语法而言,中文(汉语)短语结构树库转换为依存结构的工作还很不成熟。现有Penn2Malt转换工具中提供了PennChineseTreebank转换为依存结构的规则文件,可以将PennChineseTreebank转换为依存结构。转换工具Penn2Malt提供的汉语结构转换规则文件包含的规则无法准确的描述各种语言现象,没有能力处理并列关系,以及PennChineseTreebank中的扁平结构。现有将TCT转换为依存结构,完全采用规则的方法。这样就要求对TCT中的语法体系非常熟悉,然后对一种规约形式进行规则转换,包括指定核心节点、指定关系类型。这种将TCT转换为依存结构的做法没有很好的通用性,需要投入相对较大的人力。而且,其依存体系主要集中于跟动词相关的各种关系成分的描述。上述的工作,都是将短语结构的树库转换为某种依存树库。转换后的依存树库的体系和任何现有的依存树库都不一致,这样不利于有效利用转换后的树库。只能把转换后的树库作为独立的树库,然后使用。树库的规模和质量直接影响句法分析的性能,树库规模越大,质量越好,训练出来的句法分析器的性能必然越好。因此,如何将汉语短语结构树库转换为依存结构树库,充分利用汉语短语结构树库和依存结构树库的树库规模大,质量好的优势,是本领域技术人员亟需解决的技术问题。
技术实现思路
为了解决现有转换后的依存树库的体系不统一的问题,本专利技术提供一种依存结构树库获取方法及系统,将短语结构树库转换为依存结构树库,转换后的树库可以很方便的和原有的依存结构树库合并,从而增大树库规模,进而有效地提高句法分析器的性能。为解决上述问题,本专利技术提供一种依存结构树库获取方法,包括以下步骤:调用第一树库;所述第一树库为汉语短语结构树库;分别采用第一树库的转换工具以及句法分析器,将所述第一树库中的短语结构转换为依存结构;所述第二树库为依存结构的树库;其中,采用第一树库的转换工具将所述第一树库中的短语结构转换为依存结构包括:利用所述转换工具所提供的将第一树库中的短语结构转换为依存结构的规则,或对所述规则进行修正后所得到的规则,将所述短语结构转换为依存结构;以及,基于规则的方法进行归纳,将所述第一树库中的并列结构的短语结构转换为依存结构;其中,采用句法分析器,将所述第一树库中的短语结构转换为依存结构包括:利用所述句法分析器,将所述第一树库中的扁平结构的短语结构转换为依存结构;利用训练得到的依存关系映射模型,对所述第一树库中的依存结构进行依存关系转换,得到第二树库类型的依存结构树库。可选的,所述利用所述转换工具所提供的将第一树库中的短语结构转换为依存结构的规则,或对所述规则进行修正后所得到的规则,将所述短语结构转换为依存结构,包括:根据预先建立的Head核心节点映射表,确定所述第一树库的短语结构树库中语法推导的核心节点;利用所述映射表,并依据所述映射表中的规则,针对所述核心节点进行扫描,得到其他子节点与所述核心节点的依存关系;其中,所述Head核心节点映射表为依据所述转换工具所提供的将第一树库中的短语结构转换为依存结构的规则,或对所述规则进行修正后所得到的规则所形成的。可选的,所述利用句法分析本文档来自技高网
...

【技术保护点】
一种依存结构树库获取方法,其特征在于,该方法包括:调用第一树库;所述第一树库为汉语短语结构树库;分别采用第一树库的转换工具以及句法分析器,将所述第一树库中的短语结构转换为依存结构;所述第二树库为依存结构的树库;其中,采用第一树库的转换工具将所述第一树库中的短语结构转换为依存结构包括:利用所述转换工具所提供的将第一树库中的短语结构转换为依存结构的规则,或对所述规则进行修正后所得到的规则,将所述短语结构转换为依存结构;以及,基于规则的方法进行归纳,将所述第一树库中的并列结构的短语结构转换为依存结构;其中,采用句法分析器,将所述第一树库中的短语结构转换为依存结构包括:利用句法分析器,将所述第一树库中的扁平结构的短语结构转换为依存结构;利用训练得到的依存关系映射模型,对所述第一树库中的依存结构进行依存关系转换,得到第二树库类型的依存结构树库。

【技术特征摘要】
1.一种依存结构树库获取方法,其特征在于,该方法包括:调用第一树库;所述第一树库为汉语短语结构树库;分别采用第一树库的转换工具以及句法分析器,将所述第一树库中的短语结构转换为依存结构;所述第二树库为依存结构的树库;其中,采用第一树库的转换工具将所述第一树库中的短语结构转换为依存结构包括:利用所述转换工具所提供的将第一树库中的短语结构转换为依存结构的规则,或对所述规则进行修正后所得到的规则,将所述短语结构转换为依存结构;以及,基于规则的方法进行归纳,将所述第一树库中的并列结构的短语结构转换为依存结构;其中,采用句法分析器,将所述第一树库中的短语结构转换为依存结构包括:利用句法分析器,将所述第一树库中的扁平结构的短语结构转换为依存结构;利用训练得到的依存关系映射模型,对所述第一树库中的依存结构进行依存关系转换,得到第二树库类型的依存结构树库。2.根据权利要求1所述的方法,其特征在于,所述利用所述转换工具所提供的将第一树库中的短语结构转换为依存结构的规则,或对所述规则进行修正后所得到的规则,将所述短语结构转换为依存结构,包括:根据预先建立的Head核心节点映射表,确定所述第一树库的短语结构树库中语法推导的核心节点;利用所述映射表,并依据所述映射表中的规则,针对所述核心节点进行扫描,得到其他子节点与所述核心节点的依存关系;其中,所述Head核心节点映射表为依据所述转换工具所提供的将第一树库中的短语结构转换为依存结构的规则,或对所述规则进行修正后所得到的规则所形成的。3.根据权利要求1所述的方法,其特征在于,所述利用句法分析器,将所述第一树库中的扁平结构的短语结构转换为依存结构,具体包括:利用所述句法分析器,对所述第一树库中的扁平结构的短语结构,在有向图中寻找最大生成树,确定所述扁平结构的短语结构中不同短语的依存概率;根据所述不同短语的依存概率将所述第一树库中的扁平结构的短语结构转换为依存结构。4.根据权利要求1、2或3所述的方法,其特征在于,利用所述第二树库中的短语对所述句法分析器进行训练。5.根据权利要求1、2或3所述的方法,其特征在于,该方法进一步包括:获得所述扁平结构的短语结构转换为依存结构的转换准确率,依据所述准确率,对所述句法分析器进行调整训练。6.根据权利要求5所述的方法,其特征在于,利用互联网资源,搜索及统计转换后的所述依存结构的出现概率,依据所述概率确定所述转换准确率。7.根据权利要求1所述的方法,其特征在于,所述基于规则的方法进行归纳,将所述第一树库中的并列结构的短语结构转换为依存结构,具体包括:将所述并列结构的短语结构切分为多个片段;分别确定各个片段的核心节点,以及,将每个片段中除核心节点外的其他节点确定为依存于该片段中的核心节点;将除第一个片段之外的其他片段的各个核心节点,确定为依存于所述第一个片段的核心节点。8.根据权利要求7所述的方法,其特征在于,所述将所述并列结构的短语结构切分为多个片段,具体包括:以连词词性或顿号作为切分依据进行所述切分。9.根据权利要求7所述的方法,其特征在于,所述将所述并列结构的短语结构切分为多个片段,具体包括:获得输入法输入情况,以输入法输入情况中的输入间断为切分依据进行所述切分。10.根据权利要求7所述的方法,其特征在于,所述将所述并列结构的短语结构切分为多个片段,具体包括:当所述并列结构的短语结构中的不同短语具有关联关系时,以所述关联关系作为切分依据进行所述切分。11.根据权利要求7所述的方法,其特征在于,所述确定各个片段的核心节点包括:以所述短语结构所在语句作为分析对象,确定所述片段的各个节点的在所述语句上下文中的出现次数,根据不同节点出现次数的比较情况,确定出现次数满足要求的节点作为所述核心节点。12.根据权利要求1所述的方法,其特征在于,所述依存关系映射模型的建立包括:利用所述第二树库训练依存关系标注模型;利用所述依存关系标注模型对所述第一树库进行依存关系标注;利用所述第一树库的原有词性和句法信息,纠正所述依存关系标注的结果,建立所述依存关系映射模型。13.根据权利要求12所述的方法,其特征在于,所述依存关系标注模型使用第二线性对数模型其中,i=0,对应wordword_f词语,父亲词语特征,i=1,对应wordpos_f词语,父节点词性特征,i=2,对应posword_f词性特征,i=3,对应pospos_fdistance父节点词性特征,λ0:对应i=0时wordword_f特征的权值;λ1:对应i=1时word...

【专利技术属性】
技术研发人员:武英波杜建平吕坤河
申请(专利权)人:北京金山办公软件股份有限公司珠海金山办公软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1