The invention discloses a dependency structure Treebank acquisition method and system, including: the first call to Treebank, the first Treebank conversion tool to convert the phrase structure of the first Treebank in the dependency structure; phrase structure on the flat structure of the first Treebank in using the parser for dependency structure using dependency relation; the mapping model trained, depends on the structure of the first Treebank dependency relation conversion, second Treebank type dependency structure Treebank, which converted Treebank with original dependency structure Treebank merger, increase Treebank scale, improve the performance of the parser.
【技术实现步骤摘要】
本专利技术涉及树库转换,尤指一种依存结构树库获取方法及系统。
技术介绍
句法分析是自然语言处理领域非常重要的研究方向。在基于统计的句法分析方法中,根据所使用的语料不同,可以分为有指导的方法和无指导的方法。有指导的方法需要事先按照一定的语法规范,人工标注好一些句子作为训练数据,然后通过各种概率统计方法或机器学习方法,从训练数据中获取句法分析所需要的知识。无指导的方法则使用没有经过标注的数据进行训练,按照一定的机制,从中自动学习语法规律。有指导的句法分析是现在的主流方法,目前在英语等语言中已经达到了较高的准确率。在有指导的句法分析中,事先标注的用于训练的句子集叫做树库。目前绝大多数的统计句法分析模型都是利用标注好的树库以有指导学习方式来训练模型的参数。因此,树库建设是一个非常重要的工作,其质量和规模直接关系到句法分析的训练效果。句法分析首先要遵循某一语法体系,根据该语法体系的语法确定语法树的表示形式。目前,在句法分析中使用比较广泛的有短语结构语法和依存语法。例如:“今年西门子将努力参与中国的三峡工程建设。”其短语结构分析结果如图1a,是类似于树的层层拆分结构。第一级为“S”即指整个句子“今年西门子将努力参与中国的三峡工程建设。”。第二级分为四个部分,第二级的第一部分“NP”即指名词短语,对应“今年”;第二级的第二部分“NP”即指名词短语,对应“西门子”;第二级的第三部分“VP”即指动词短语,对应“将努力参与中国的三峡工程建设”;第二级的第四部分“PU”即指标点符号,对应“。”。第三级分为三个部分,第三级的第一部分“ADVP”即指状语短语,对应“将”;第三级的 ...
【技术保护点】
一种依存结构树库获取方法,其特征在于,该方法包括:调用第一树库;所述第一树库为汉语短语结构树库;分别采用第一树库的转换工具以及句法分析器,将所述第一树库中的短语结构转换为依存结构;所述第二树库为依存结构的树库;其中,采用第一树库的转换工具将所述第一树库中的短语结构转换为依存结构包括:利用所述转换工具所提供的将第一树库中的短语结构转换为依存结构的规则,或对所述规则进行修正后所得到的规则,将所述短语结构转换为依存结构;以及,基于规则的方法进行归纳,将所述第一树库中的并列结构的短语结构转换为依存结构;其中,采用句法分析器,将所述第一树库中的短语结构转换为依存结构包括:利用句法分析器,将所述第一树库中的扁平结构的短语结构转换为依存结构;利用训练得到的依存关系映射模型,对所述第一树库中的依存结构进行依存关系转换,得到第二树库类型的依存结构树库。
【技术特征摘要】
1.一种依存结构树库获取方法,其特征在于,该方法包括:调用第一树库;所述第一树库为汉语短语结构树库;分别采用第一树库的转换工具以及句法分析器,将所述第一树库中的短语结构转换为依存结构;所述第二树库为依存结构的树库;其中,采用第一树库的转换工具将所述第一树库中的短语结构转换为依存结构包括:利用所述转换工具所提供的将第一树库中的短语结构转换为依存结构的规则,或对所述规则进行修正后所得到的规则,将所述短语结构转换为依存结构;以及,基于规则的方法进行归纳,将所述第一树库中的并列结构的短语结构转换为依存结构;其中,采用句法分析器,将所述第一树库中的短语结构转换为依存结构包括:利用句法分析器,将所述第一树库中的扁平结构的短语结构转换为依存结构;利用训练得到的依存关系映射模型,对所述第一树库中的依存结构进行依存关系转换,得到第二树库类型的依存结构树库。2.根据权利要求1所述的方法,其特征在于,所述利用所述转换工具所提供的将第一树库中的短语结构转换为依存结构的规则,或对所述规则进行修正后所得到的规则,将所述短语结构转换为依存结构,包括:根据预先建立的Head核心节点映射表,确定所述第一树库的短语结构树库中语法推导的核心节点;利用所述映射表,并依据所述映射表中的规则,针对所述核心节点进行扫描,得到其他子节点与所述核心节点的依存关系;其中,所述Head核心节点映射表为依据所述转换工具所提供的将第一树库中的短语结构转换为依存结构的规则,或对所述规则进行修正后所得到的规则所形成的。3.根据权利要求1所述的方法,其特征在于,所述利用句法分析器,将所述第一树库中的扁平结构的短语结构转换为依存结构,具体包括:利用所述句法分析器,对所述第一树库中的扁平结构的短语结构,在有向图中寻找最大生成树,确定所述扁平结构的短语结构中不同短语的依存概率;根据所述不同短语的依存概率将所述第一树库中的扁平结构的短语结构转换为依存结构。4.根据权利要求1、2或3所述的方法,其特征在于,利用所述第二树库中的短语对所述句法分析器进行训练。5.根据权利要求1、2或3所述的方法,其特征在于,该方法进一步包括:获得所述扁平结构的短语结构转换为依存结构的转换准确率,依据所述准确率,对所述句法分析器进行调整训练。6.根据权利要求5所述的方法,其特征在于,利用互联网资源,搜索及统计转换后的所述依存结构的出现概率,依据所述概率确定所述转换准确率。7.根据权利要求1所述的方法,其特征在于,所述基于规则的方法进行归纳,将所述第一树库中的并列结构的短语结构转换为依存结构,具体包括:将所述并列结构的短语结构切分为多个片段;分别确定各个片段的核心节点,以及,将每个片段中除核心节点外的其他节点确定为依存于该片段中的核心节点;将除第一个片段之外的其他片段的各个核心节点,确定为依存于所述第一个片段的核心节点。8.根据权利要求7所述的方法,其特征在于,所述将所述并列结构的短语结构切分为多个片段,具体包括:以连词词性或顿号作为切分依据进行所述切分。9.根据权利要求7所述的方法,其特征在于,所述将所述并列结构的短语结构切分为多个片段,具体包括:获得输入法输入情况,以输入法输入情况中的输入间断为切分依据进行所述切分。10.根据权利要求7所述的方法,其特征在于,所述将所述并列结构的短语结构切分为多个片段,具体包括:当所述并列结构的短语结构中的不同短语具有关联关系时,以所述关联关系作为切分依据进行所述切分。11.根据权利要求7所述的方法,其特征在于,所述确定各个片段的核心节点包括:以所述短语结构所在语句作为分析对象,确定所述片段的各个节点的在所述语句上下文中的出现次数,根据不同节点出现次数的比较情况,确定出现次数满足要求的节点作为所述核心节点。12.根据权利要求1所述的方法,其特征在于,所述依存关系映射模型的建立包括:利用所述第二树库训练依存关系标注模型;利用所述依存关系标注模型对所述第一树库进行依存关系标注;利用所述第一树库的原有词性和句法信息,纠正所述依存关系标注的结果,建立所述依存关系映射模型。13.根据权利要求12所述的方法,其特征在于,所述依存关系标注模型使用第二线性对数模型其中,i=0,对应wordword_f词语,父亲词语特征,i=1,对应wordpos_f词语,父节点词性特征,i=2,对应posword_f词性特征,i=3,对应pospos_fdistance父节点词性特征,λ0:对应i=0时wordword_f特征的权值;λ1:对应i=1时word...
【专利技术属性】
技术研发人员:武英波,杜建平,吕坤河,
申请(专利权)人:北京金山办公软件股份有限公司,珠海金山办公软件有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。