【技术实现步骤摘要】
本专利技术属于自然语言处理
,具体为一种将中文短语结构树库转换为依存结构树库的系统及其方法。
技术介绍
随着自然语言处理的发展,基于规则的研究方法逐渐显示出它的局限性,人们越来越趋向于用基于统计学的方法从真实的语料中获取自然语言的规律。句法分析位于自然语言处理中的一个核心位置,其性能的好坏,对其他技术有着重要的影响。它也是以基于统计学的方法为主流方法。所以语料数据在句法分析中充当了一个重要的角色。语料的准确度的高低与规模的大小从最基础的层面决定着句法分析的性能的好坏,没有大规模、高准度的语料,再好的算法也失去了他的作用。树库作为一种对句子进行了深层句法标注的语料库越来越引起人们的兴趣。目前研究人员在树库研究方面开展了大量的研究和开发工作,也取得了可观的成果。这些树库采用的标注体系差别巨大,按照描述方法大体分为两种,一种是短语结构树,一种是依存树。在世界范围来说,大多数大规模树库是基于短语结构的。关于汉语树库中,基于短语结构标注的树库也占有主要地位,其中最为著名的是宾夕法尼亚大学的中文树库Penn Chinese Treebank0在语法体系中,依存语法以其 ...
【技术保护点】
一种将中文短语结构树库转化为依存结构树库的方法,其特征在于,具体步骤如下:a)读入PennChineseTreebank中文树库,并通过拆分器,将树库中的长句拆分为短句;b)确定最终的核心映射表,并利用核心映射表得到每个词的初始依赖头节点;c)通过依赖规则器确定每个词的最终依赖头节点;d)???建立依赖关系类型标注规范,通过依赖关系规范器,确定词与词之间的最终依赖关系,形成最终的依赖树库。
【技术特征摘要】
1.一种将中文短语结构树库转化为依存结构树库的方法,其特征在于,具体步骤如下 a)读入PennChineseTreebank中文树库,并通过拆分器,将树库中的长句拆分为短句; b)确定最终的核心映射表,并利用核心映射表得到每个词的初始依赖头节点; c)通过依赖规则器确定每个词的最终依赖头节点; d)建立依赖关系类型标注规范,通过依赖关系规范器,确定词与词之间的最终依赖关系,形成最终的依赖树库。2.根据权利要求1所述的方法,其特征在于步骤a)中所述拆分器根据树结构的特点,在根节点的孩子节点中,将为逗号或分号的设为拆分点,把长句拆分为短句,且拆分后的树以原来的根节点作为现在的根节点。3.根据权利要求1所述的方法,其特征在于步骤b)中所述核心映射表是仿照PENN2MALT转换工具中公布的核心映射表的格式,根据PennChineseTreebank中文树库的特点和依赖树的特点,确定的更准确的核心映射表,其排除了标点、语气词、感叹词做核心词的情况。根据权利要求1所述的方法,其特征在于步骤c)中所述依赖规则器,其根据汉语语法的特点以及PennChineseTreebank中文树库的标注特点,对于只用步骤b)中所述核心映射表不能确定的依赖结构,确定具体的规则,来确定每个词的最终依赖头节点;其中所述具体的规则为 a)“把”字结构和“被”字结构的规则“把”字或“被”字节点后紧跟的节点的孩子中,如果是主谓或者主谓宾结构,则主语和谓语都依赖于“把”字或“被”字节点,并作为他们的宾语; b)“得”字结构的规则“得”字节点以他前面的动词为核心词,他后面的宾语以“得”字节点为核心词; c)并列结构的规则让最前面的名词作为核心词,而那些连接并列名词之间的连词依赖到连词后面的名词,如果并列名词是用顿号隔开的话,顿号依赖到它前面的名词; d)特殊的动词短语的规则特殊的动词短语结构的标注包括V⑶、VRD、VSB、VCP、VPT、VNV。通过对这些特殊动词短语结构的研究,得到如下规则表4.根据权利要求1所述的方法,其特征在于,步骤...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。