一种基于树库转化的越南语依存树库错误检测的方法技术

技术编号:18444841 阅读:5 留言:0更新日期:2018-07-14 10:20
本发明专利技术涉及一种基于树库转化的越南语依存树库错误检测的方法,属于自然语言处理技术领域。本发明专利技术包括如下步骤:首先定义越南语的依存关系类型;其次构建一个规则知识库,并利用该规则知识库推导出测试依存结构树中父节点和子节点构成的短语类型;然后将测试依存结构树转化为短语结构树;最后将实际转化成功得到的短语结构树的短语类型与推导出的短语类型进行对比。本发明专利技术能够对越南语的机器翻译、信息抽取和信息检索等上层应用提供有力支撑;可以有效提高越南语依存树库的质量;节省了人力物力的时间;为越南语依存树库错误检测提供了一种有效的方法。

A method of error detection for Vietnamese dependency tree based on tree database transformation

The invention relates to an error detection method for Vietnamese dependent Tree Library Based on tree database transformation, which belongs to the technical field of Natural Language Processing. The present invention includes the following steps: firstly, we define the dependency relationship of Vietnamese language; secondly, construct a rule knowledge base, and use the rule knowledge base to derive the phrase type of the parent and subnode in the test dependency tree; then transform the test dependency tree into a phrase structure tree; finally, it transforms the practice into a phrase structure tree. The phrase type of the phrase structure tree is compared with the derived phrase type. The invention can provide strong support for the upper application of the Vietnamese language, information extraction and information retrieval, and can effectively improve the quality of the Vietnamese dependency tree library, save the time of manpower and material resources, and provide an effective method for the error detection of the Vietnamese dependency tree bank.

【技术实现步骤摘要】
一种基于树库转化的越南语依存树库错误检测的方法
本专利技术涉及一种基于树库转化的越南语依存树库错误检测的方法,属于自然语言处理

技术介绍
依存树库作为一种基础性语料,不管是作为构建依存句法分析器的训练语料,还是为机器翻译、信息检索、信息抽取等上层应用提供支撑都有着举足轻重的作用。通过任何方式构建的依存树库都难免会存在一些错误,这些错误可能是最基础的分词和词性标注出错,也可能是更上层的依存关系类型标注出错,其直接影响着上层应用如机器翻译的质量。因此,必须对这些错误进行检测和分析以便对其进行校正,从而进一步提高依存树库的质量。如何提高依存树库的质量是一个具有挑战性的研究课题。依存树库错误检测总体上有三种方法:(1)人工检测方法;(2)基于统计学的方法;(3)基于规则的方法。人工检测方法是最原始最机械的方法,虽精度高但极其费时费力且效率低下。Ambati(2011)等人研发了一个依存树库错误检测工具来自动检测印度语依存树库中存在的错误;AgarwalR(2012)等人对此工具做进一步研究后,提出了一种基于统计学的方法,充分节省了错误检测的时间;AgrawalB(2013)等人基于统计学的方法并利用一个依存句法解析器来自动检测依存树库中不易发现的错误,该方法虽提高了检测效率,但仅能检测到一部分错误。在中文方面,史林林(2016)等人基于产生式规则自动检测依存树库中存在的错误,最终从50275个依存结构树中检测出1529处错误,但其缺失了树库转化这一重要过程。在越南语方面,目前对依存树库错误检测的研究还十分缺乏。
技术实现思路
本专利技术提供了一种基于树库转化的越南语依存树库错误检测的方法,以用于有效提高越南语依存树库的质量,为越南语依存树库错误检测提供了一种有效的方法;有效避免了人工检测的繁琐过程,充分节省了人力物力的时间;弥补了基于规则的方法缺失树库转化这一过程的不足;对越南语的机器翻译、信息抽取和信息检索等上层应用提供有力支撑;依存树库的质量是这些上层应用的基础。本专利技术的技术方案是:一种基于树库转化的越南语依存树库错误检测的方法,所述方法的具体步骤如下:Step1、首先定义越南语的依存关系类型;Step2、其次利用Step1的结果构建一个规则知识库,并利用该规则知识库推导出测试依存结构树中父节点和子节点构成的短语类型;Step3、然后将测试依存结构树转化为短语结构树;若转化失败,则直接说明测试依存结构树中最基础的分词与词性标注错误;若转化成功,则进入Step4;Step4、最后将Step3中实际转化成功得到的短语结构树的短语类型与Step2中推导出的短语类型进行对比;若对比一致,则说明测试依存结构树不存在错误;若对比不一致,则说明测试依存结构树中最基础的分词与词性标注正确,而更上层的依存关系标注错误。所述步骤Step1的具体步骤为:Step1.1、首先依据语义方式找出句子中哪些词语之间存在依存关系;在一个句子中,语义层面上存在某种联系的词语之间应该存在依存关系;也就是说,词语之间产生依存关系才能促使新语义的产生,本专利技术称之为语义原则。在进行依存关系标注时,语义原则应优先考虑;如图2所示,越南语句子“là(她)(是)xinh(美丽的)gái(女孩)”。其中:(是)和gái(女孩)这两个词产生关系才能构成新的语义,所以两词之间存在依存关系。Step1.2、其次依据主干方式找出句子中哪些词语与谓词之间存在依存关系;在一个句子中,一些词语对句子意思的表达起主导作用,在句子中不可或缺,属主要的词;而有些词语在句子中起辅助作用,只起到修饰主干成分的作用,即使去掉也不会影响整体语义的表达,属次要的词。在对依存关系进行标注时,应尽量保证主干词在依存关系中处于核心位置,其它修饰词应依存于这些核心词,本专利技术称之为主干原则。越南语依存句法分析主要以谓语为主导,分析其他词与谓语动词之间的关系;Step1.3、最后归类出Step1.1和Step1.2中所找出词语之间具体属于哪一种依存关系类型。同中文一样,越南语的语法规则和语义结构相当复杂多变,导致词与词之间的依存关系类型也很多变,但有些依存关系类型因出现频率较低且可以被其它类型所覆盖,因此为了能够更好地覆盖多种语法现象,而又不至于因关系类型过多导致标注困难和数据稀疏等问题。所述步骤Step2中,构建一个规则知识库的具体步骤如下:Step2.1、首先定义规则知识库的具体框架;条件=>结论(1)即父节点词性+子节点词性+依存关系类型=>短语类型(2)例如,“N+N+ATT=>NP”,其条件为“N+N+ATT”,结论为“NP”,在这里第一个N表示父节点词性为名词、第二个N表示子节点词性为名词、ATT表示父节点和子节点之间的依存关系类型为定中关系,NP表示推导出的短语类型为名词性短语;Step2.2、然后自动抽取条件库;即将目标依存树库中所有可能存在的条件都抽取出来。具体操作如下:遍历依存树库中每一棵依存树,并将树中每一条弧线关联的父节点词性、子节点词性以及它们之间的依存关系类型都一一抽取出来,将它们组合在一起就构成了一个条件;Step2.3、最后人工辅助添加结论。这里需要人工辅助才能确保条件的准确性,因此需要人工对每一个条件进行检查,如果条件没有问题就为其添加一个结论,即短语类型;如果条件不正确就将之剔除。所述步骤Step3中,依据中心子节点的思想、递归算法将越南语的依存结构树转化成短语结构树。所述步骤Step3中将测试依存结构树转化为短语结构树的转化原理具体说明如下:Rambow(2010)认为依存结构树和短语结构树是浅层句法分析的两种主要形式,它们都可以表达句子的意思,仅仅是表达形式不同但表达能力并无优劣;徐靖(2011)等人认为依存结构和短语结构虽表达形式不同,但它们都是对句子语法结构的描述,因此在结构上存在一致性。一般地,依存结构树中标注有中心词和依存关系类型等信息,短语结构树中标注有短语层次和短语类型等信息;但原理上依存结构树中也可以标注短语层次和短语类型等信息,短语结构树中也可以标注中心词和依存关系类型等信息;如果在其中任何一种形式的结构树中同时标注了中心词、依存关系类型、短语层次、短语类型这四项信息,则一定可以无歧义向另一种结构树转化。因此,在一棵依存结构树中,如果父节点词性、子节点词性以及它们之间的依存关系已知,那么就可以推导出这两个词所构成的短语类型。本专利技术依据中心子节点的思想将越南语的依存结构树转化成短语结构树。中心子节点在依存结构和短语结构中起着非常重要的作用,x-bar理论和管辖约束理论等语言理论认为,在依存结构中非中心子节点以某种依存关系依存于中心子节点,在短语结构中有一个中心子节点决定着这个短语的主要性质,短语中的其他节点都是该中心子节点的修饰子节点。本专利技术的有益效果是:1.本专利技术可以有效提高越南语依存树库的质量,为越南语依存树库错误检测提供了一种有效的方法;2.本专利技术提出的越南语依存树库错误检测方法有效避免了人工检测的繁琐过程,充分节省了人力物力的时间;3.本专利技术所提方法弥补了基于规则的方法缺失树库转化这一过程的不足;4.本专利技术最终得到的越南语依存树库能够对越南语的机器翻译、信息抽取和信息检索等上层应用提供有力支撑;依存树库的质量是这些上层应用本文档来自技高网...

【技术保护点】
1.一种基于树库转化的越南语依存树库错误检测的方法,其特征在于:所述方法的具体步骤如下:Step1、首先定义越南语的依存关系类型;Step2、其次利用Step1的结果构建一个规则知识库,并利用该规则知识库推导出测试依存结构树中父节点和子节点构成的短语类型;Step3、然后将测试依存结构树转化为短语结构树;若转化失败,则直接说明测试依存结构树中最基础的分词与词性标注错误;若转化成功,则进入Step4;Step4、最后将Step3中实际转化成功得到的短语结构树的短语类型与Step2中推导出的短语类型进行对比;若对比一致,则说明测试依存结构树不存在错误;若对比不一致,则说明测试依存结构树中最基础的分词与词性标注正确,而更上层的依存关系标注错误。

【技术特征摘要】
1.一种基于树库转化的越南语依存树库错误检测的方法,其特征在于:所述方法的具体步骤如下:Step1、首先定义越南语的依存关系类型;Step2、其次利用Step1的结果构建一个规则知识库,并利用该规则知识库推导出测试依存结构树中父节点和子节点构成的短语类型;Step3、然后将测试依存结构树转化为短语结构树;若转化失败,则直接说明测试依存结构树中最基础的分词与词性标注错误;若转化成功,则进入Step4;Step4、最后将Step3中实际转化成功得到的短语结构树的短语类型与Step2中推导出的短语类型进行对比;若对比一致,则说明测试依存结构树不存在错误;若对比不一致,则说明测试依存结构树中最基础的分词与词性标注正确,而更上层的依存关系标注错误。2.根据权利要求1所述的基于树库转化的越南语依存树库错误检测的方法,其特征在于:所述步骤Step1的具体步骤为:Step1.1、首先依据语义...

【专利技术属性】
技术研发人员:郭剑毅邱国柯余正涛线岩团毛存礼
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1