The invention relates to an error detection method for Vietnamese dependent Tree Library Based on tree database transformation, which belongs to the technical field of Natural Language Processing. The present invention includes the following steps: firstly, we define the dependency relationship of Vietnamese language; secondly, construct a rule knowledge base, and use the rule knowledge base to derive the phrase type of the parent and subnode in the test dependency tree; then transform the test dependency tree into a phrase structure tree; finally, it transforms the practice into a phrase structure tree. The phrase type of the phrase structure tree is compared with the derived phrase type. The invention can provide strong support for the upper application of the Vietnamese language, information extraction and information retrieval, and can effectively improve the quality of the Vietnamese dependency tree library, save the time of manpower and material resources, and provide an effective method for the error detection of the Vietnamese dependency tree bank.
【技术实现步骤摘要】
一种基于树库转化的越南语依存树库错误检测的方法
本专利技术涉及一种基于树库转化的越南语依存树库错误检测的方法,属于自然语言处理
技术介绍
依存树库作为一种基础性语料,不管是作为构建依存句法分析器的训练语料,还是为机器翻译、信息检索、信息抽取等上层应用提供支撑都有着举足轻重的作用。通过任何方式构建的依存树库都难免会存在一些错误,这些错误可能是最基础的分词和词性标注出错,也可能是更上层的依存关系类型标注出错,其直接影响着上层应用如机器翻译的质量。因此,必须对这些错误进行检测和分析以便对其进行校正,从而进一步提高依存树库的质量。如何提高依存树库的质量是一个具有挑战性的研究课题。依存树库错误检测总体上有三种方法:(1)人工检测方法;(2)基于统计学的方法;(3)基于规则的方法。人工检测方法是最原始最机械的方法,虽精度高但极其费时费力且效率低下。Ambati(2011)等人研发了一个依存树库错误检测工具来自动检测印度语依存树库中存在的错误;AgarwalR(2012)等人对此工具做进一步研究后,提出了一种基于统计学的方法,充分节省了错误检测的时间;AgrawalB(2013)等人基于统计学的方法并利用一个依存句法解析器来自动检测依存树库中不易发现的错误,该方法虽提高了检测效率,但仅能检测到一部分错误。在中文方面,史林林(2016)等人基于产生式规则自动检测依存树库中存在的错误,最终从50275个依存结构树中检测出1529处错误,但其缺失了树库转化这一重要过程。在越南语方面,目前对依存树库错误检测的研究还十分缺乏。
技术实现思路
本专利技术提供了一种基于树库转化 ...
【技术保护点】
1.一种基于树库转化的越南语依存树库错误检测的方法,其特征在于:所述方法的具体步骤如下:Step1、首先定义越南语的依存关系类型;Step2、其次利用Step1的结果构建一个规则知识库,并利用该规则知识库推导出测试依存结构树中父节点和子节点构成的短语类型;Step3、然后将测试依存结构树转化为短语结构树;若转化失败,则直接说明测试依存结构树中最基础的分词与词性标注错误;若转化成功,则进入Step4;Step4、最后将Step3中实际转化成功得到的短语结构树的短语类型与Step2中推导出的短语类型进行对比;若对比一致,则说明测试依存结构树不存在错误;若对比不一致,则说明测试依存结构树中最基础的分词与词性标注正确,而更上层的依存关系标注错误。
【技术特征摘要】
1.一种基于树库转化的越南语依存树库错误检测的方法,其特征在于:所述方法的具体步骤如下:Step1、首先定义越南语的依存关系类型;Step2、其次利用Step1的结果构建一个规则知识库,并利用该规则知识库推导出测试依存结构树中父节点和子节点构成的短语类型;Step3、然后将测试依存结构树转化为短语结构树;若转化失败,则直接说明测试依存结构树中最基础的分词与词性标注错误;若转化成功,则进入Step4;Step4、最后将Step3中实际转化成功得到的短语结构树的短语类型与Step2中推导出的短语类型进行对比;若对比一致,则说明测试依存结构树不存在错误;若对比不一致,则说明测试依存结构树中最基础的分词与词性标注正确,而更上层的依存关系标注错误。2.根据权利要求1所述的基于树库转化的越南语依存树库错误检测的方法,其特征在于:所述步骤Step1的具体步骤为:Step1.1、首先依据语义...
【专利技术属性】
技术研发人员:郭剑毅,邱国柯,余正涛,线岩团,毛存礼,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:云南,53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。