一种融合越南语语法特征的短语树到依存树的转换方法技术

技术编号:13298254 阅读:44 留言:0更新日期:2016-07-09 16:18
本发明专利技术涉及一种融合越南语语法特征的短语树到依存树的转换方法,属于自然语言处理技术领域。本发明专利技术包括步骤:首先构建越南语短语树库;利用融合了越南语语法特征的中心子节点过滤表以及依存关系标注器完成越南语短语树库中的短语树到依存树的转换,得到一级越南语依存树库;根据人工标注后的一级越南语依存树库的语料训练得到MSTParser模型,利用MSTParser模型进行一级越南语依存树库的扩展,得到扩展后的二级越南语依存树库;利用依存关系校正器对扩展后的二级越南语依存树库的语料进行校正,得到最终的三级越南语依存树库。本发明专利技术避免了人工收集和标注越南语依存树库的过程,节省了人力和构建树库的时间,准确率明显提高。

【技术实现步骤摘要】

本专利技术涉及一种融合越南语语法特征的短语树到依存树的转换方法,属于自然语言处理

技术介绍
越南与云南山水相连,两国人民之间的交往历史悠久,语言沟通在双方人民友好往来与相处、相互学习方面起到了十分重要的作用。因此,针对汉越双语的研究工作具有重要的现实意义。在越南语和汉语的互译过程中,越南语的句法分析是十分重要的基础工作。句法分析是指遵循给定的语法分析出句子的语法结构,其在自然语言处理、信息抽取以及机器翻译等方面的研究中有着至关重要的作用。目前所使用的句法分析主要有两种形式:短语结构分析法和依存结构分析法。短语结构分析法就是将句子切分成短语,分析出句子短语之间的层次关系。短语结构树主要是由终结点、非终结点以及短语标记构成的,其中最基本的成分是句法标记,也就是非终结点(例如名词短语NP、动词短语VP);依存结构分析就是分析出句子短语之间的依存关系,其可以明确地表明词语间的支配关系(例如“我喜欢喝茶”,我和喜欢之间就是主谓关系)由于依存关系的广泛应用,这些年也越来越受学者的重视。短语结构和依存结构虽然在表现形式上不同,但是它们都是对句子语法结构的描述,因此在结构上存在一致性。在进行短语树到依存结构树的过程中,句法特征非常有效的方法之一。通过利用越南语短语结构树到依存结构树的转换来得到更多的准确率较高的越南语依存结构树,从而完成越南语依存树库的构建,已经成为整个越南语依存分析的核心工作,如果能对该问题加以有效合理的解决,那么对对越南语的句法分析、机器翻译、信息获取等上层应用可以提供有力支撑。
技术实现思路
本专利技术提供了一种融合越南语语法特征的短语树到依存树的转换方法,以用于解决人工标注越南语依存树库比较困难的问题,构建的越南语依存树库比较稀缺的问题,本专利技术构建的越南语依存树库对越南语的句法分析、机器翻译、信息获取等上层应用能提供有力支撑。本专利技术的技术方案是:一种融合越南语语法特征的短语树到依存树的转换方法,所述融合越南语语法特征的短语树到依存树的转换方法的具体步骤如下:Step1、首先构建越南语短语树库;所述步骤Step1的具体步骤如下:Step1.1、从VLSP的组块语料中获取分词以后的越南语句子;Step1.2、把得到的分词之后的越南语句子放在VLSP网站中分析得到对应的越南语短语树;Step1.3、对得到的越南语短语树进行人工校对,从而得到越南语短语树库。Step2、利用融合了越南语语法特征的中心子节点过滤表以及依存关系标注器完成越南语短语树库中的短语树到依存树的转换,得到一级越南语依存树库;所述步骤Step2的具体步骤如下:Step2.1、根据越南语语法特征制定出符合越南语语言特点的中心子节点过滤表;Step2.2、利用中心子节点过滤表完成对越南语短语树库中短语树到依存树的初步转换;Step2.3、通过分析越南语与汉语的语序差异,结合CTB依存关系标注集,制定出适合越南语的依存关系标注集;Step2.4、把越南语的依存关系标注集输入到依存关系标注器;Step2.5、利用依存关系标注器完成转换后的越南语依存树的标注工作,最终完成了越南语短语树库中的越南语短语树到依存树的转换,得到一级越南语依存树库。Step3、根据人工标注后的一级越南语依存树库的语料训练得到MSTParser模型,利用MSTParser模型进行一级越南语依存树库的扩展,得到扩展后的二级越南语依存树库;所述步骤Step3的具体步骤如下:Step3.1、对得到的一级越南语依存树库的语料进行人工校对,校对的内容包括依存弧是否正确,依存关系标注标注是否正确;Step3.2、使用MST算法对人工校对后的一级越南语依存树库的语料训练得到越南语依存句法分析模型,即MSTParser模型;Step3.3、利用MSTParser模型训练新的越南语句子从而进行一级越南语依存树库的扩展,得到二级越南语依存树库。Step4、利用依存关系校正器对扩展后的二级越南语依存树库的语料进行校正,得到最终的三级越南语依存树库。本专利技术的有益效果是:1、构建高质量的越南语依存树库对越南语的句法分析、机器翻译、信息获取等上层应用能提供有力支撑;2、通过利用融合越南语语法特征的短语树到依存树的转换方法构建了准确率更高的越南语依存树语料库;3、本专利技术提出的构建依存树的方法省略了人工标注越南语依存树库的过程,大大的节省了人力和构建树库的时间;4、本专利技术提出的融合越南语语法特征的短语树到依存树的转换方法得到的越南语依存树库语料相比采用借助汉-越双语词对齐语料构建越南语依存树库的方法准确率明显提高。附图说明图1是本专利技术中的具体实施例的流程图;图2是本专利技术的短语结构树示意图;图3是本专利技术转换都得到的越南语依存关系示意图。具体实施方式实施例1:如图1-3所示,一种融合越南语语法特征的短语树到依存树的转换方法,所述融合越南语语法特征的短语树到依存树的转换方法的具体步骤如下:Step1、首先构建越南语短语树库;Step2、利用融合了越南语语法特征的中心子节点过滤表以及依存关系标注器完成越南语短语树库中的短语树到依存树的转换,得到一级越南语依存树库;Step3、根据人工标注后的一级越南语依存树库的语料训练得到MSTParser模型,利用MSTParser模型进行一级越南语依存树库的扩展,得到扩展后的二级越南语依存树库;Step4、利用依存关系校正器对扩展后的二级越南语依存树库的语料进行校正,得到最终的三级越南语依存树库。实施例2:如图1-3所示,一种融合越南语语法特征的短语树到依存树的转换方法,所述融合越南语语法特征的短语树到依存树的转换方法的具体步骤如下:Step1、首先构建越南语短语树库;Step2、利用融合了越南语语法特征的中心子节点过滤表以及依存关系标注器完成越南语短语树库中的短语树到依存树的转换,得到一级越南语依存树库;Step3、根据人工标注后的一级越南语依存树库的语料训练得到MSTParser模型,利用MSTParser模型进行一级越南语依存树库的扩展,得到扩展后的二级越南语依存树库;Step4、利用依存关系校正器对扩展后的二级越南语依存树库的语料进行校正,得到最终的三级越南语依存树库。所述步骤Step1的具体步骤如下:Step1.1、从VLSP的组块语料中获取分词以后的越南语句子;Step1.2、把得到的分词之后的越南语句子放在VLSP网站中分析得到对应的越本文档来自技高网
...

【技术保护点】
一种融合越南语语法特征的短语树到依存树的转换方法,其特征在于:所述融合越南语语法特征的短语树到依存树的转换方法的具体步骤如下:Step1、首先构建越南语短语树库;Step2、利用融合了越南语语法特征的中心子节点过滤表以及依存关系标注器完成越南语短语树库中的短语树到依存树的转换,得到一级越南语依存树库;Step3、根据人工标注后的一级越南语依存树库的语料训练得到MSTParser模型,利用MSTParser模型进行一级越南语依存树库的扩展,得到扩展后的二级越南语依存树库;Step4、利用依存关系校正器对扩展后的二级越南语依存树库的语料进行校正,得到最终的三级越南语依存树库。

【技术特征摘要】
1.一种融合越南语语法特征的短语树到依存树的转换方法,其特征在于:所述融合越
南语语法特征的短语树到依存树的转换方法的具体步骤如下:
Step1、首先构建越南语短语树库;
Step2、利用融合了越南语语法特征的中心子节点过滤表以及依存关系标注器完成越
南语短语树库中的短语树到依存树的转换,得到一级越南语依存树库;
Step3、根据人工标注后的一级越南语依存树库的语料训练得到MSTParser模型,利用
MSTParser模型进行一级越南语依存树库的扩展,得到扩展后的二级越南语依存树库;
Step4、利用依存关系校正器对扩展后的二级越南语依存树库的语料进行校正,得到最
终的三级越南语依存树库。
2.根据权利要求1所述的融合越南语语法特征的短语树到依存树的转换方法,其特征
在于:所述步骤Step1的具体步骤如下:
Step1.1、从VLSP的组块语料中获取分词以后的越南语句子;
Step1.2、把得到的分词之后的越南语句子放在VLSP网站中分析得到对应的越南语短
语树;
Step1.3、对得到的越南语短语树进行人工校对,从而得到越南语短语树库。
3.根据权利要求1所述的融合越南语语法特征的短语树到依存树的转换方法,其特征
在...

【专利技术属性】
技术研发人员:郭剑毅李英余正涛线岩团毛存礼陈玮
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1